LLM 스케일링: 깊이 vs. 너비, 효율성의 황금비율을 찾아서

단순히 모델 크기를 키우는 것이 항상 최선이라는 생각은 이제 옛말이다. 무작정 매개변수를 늘리는 방식은 특정 시점부터 비효율의 늪에 빠지며, 제한된 자원 안에서 최적의 성능을 끌어내기 위한 아키텍처 전략이 그 어느 때보다 중요해졌다.

잘못된 통념: 무조건적인 스케일업의 함정

초기 대규모 언어 모델(LLM) 연구는 스케일링 법칙에 따라 모델의 크기를 키우면 성능이 지속적으로 향상된다는 인식을 심어주었다. 하지만 최근 연구들은 이러한 무조건적인 스케일업이 고정된 예산 하에서 자원을 효과적으로 활용하지 못할 수 있음을 지적한다. 특정 규모 이상에서는 파라미터 수 증가 대비 성능 향상 폭이 둔화되거나, 오히려 학습 및 추론 비용이 감당할 수 없는 수준으로 치솟는 현상이 관찰된다. 이는 단순히 모델의 덩치를 키우는 것을 넘어, 아키텍처 내부의 '깊이(Depth)'와 '너비(Width)'를 어떻게 조절할 것인지에 대한 근본적인 질문으로 이어진다.

깊이 vs. 너비: 아키텍처 선택의 딜레마

LLM 아키텍처를 설계할 때 핵심적인 선택지는 모델의 레이어 수를 늘려 '깊이'를 더할 것인지, 아니면 각 레이어의 은닉 차원(Hidden Dimension)을 늘려 '너비'를 확장할 것인지다. 이 두 가지 방향은 연산 효율성, 메모리 사용량, 그리고 모델의 일반화 능력 및 뉴런 간 상호작용 방식에 지대한 영향을 미친다.

깊은 모델 (Deep Models): 더 많은 수의 트랜스포머 블록(레이어)을 쌓아 올리지만, 각 블록 내의 은닉 차원은 상대적으로 작게 유지하는 구조를 의미한다. 이는 정보가 여러 단계를 거쳐 순차적으로 처리되면서 추상화되는 방식이다.
넓은 모델 (Wide Models): 적은 수의 트랜스포머 블록을 사용하지만, 각 블록 내의 은닉 차원을 매우 크게 가져가는 구조를 의미한다. 정보가 각 레이어 내에서 더 풍부하게 병렬 처리되는 방식에 가깝다.

깊은 모델의 장단점과 실제 사례

깊은 모델은 계층적 특징 학습에 탁월한 강점을 보인다. 복잡한 언어의 문맥적 관계나 추상적인 개념을 단계적으로 이해하고 표현하는 데 유리하며, 충분한 깊이를 확보하면 다양한 데이터 패턴에 대한 견고한 일반화 성능을 보여주는 경향이 있다 (출처: 특정 연구 논문에서 언급된 경향). 예를 들어, BERT나 GPT-2 초기 버전과 같은 모델들은 상대적으로 깊은 구조를 통해 언어의 복잡한 계층성을 성공적으로 학습했다.

하지만 단점도 명확하다. 레이어가 많아질수록 기울기 소실(Vanishing Gradients)이나 폭주(Exploding Gradients) 문제에 취약해져 학습이 불안정해질 수 있다. 특히 초기 Transformer 모델들은 깊이 증가에 따른 학습 안정성 문제를 겪기도 했다. 또한, 순차적인 연산이 많아져 추론 시 레이턴시가 증가하며, 순전파/역전파 과정에서 각 레이어의 활성화 값이 메모리에 저장되어야 하므로 매우 깊은 모델은 상당한 메모리를 요구한다.

넓은 모델의 장단점과 실제 사례

넓은 모델은 병렬 처리 효율성 측면에서 큰 이점을 가진다. 각 레이어 내의 연산이 병렬화에 유리하여 GPU 활용률이 높고 학습 속도가 빠를 수 있다. 깊은 모델에 비해 기울기 문제로부터 비교적 자유로워 학습이 안정적인 경향이 있다. 예를 들어, 일부 대규모 Transformer 모델이나 Mixture-of-Experts (MoE) 구조는 전체 모델의 너비를 확장하여 파라미터 효율성을 높이는 전략을 사용한다. 특정 MoE 모델의 경우, 전체 파라미터 수는 많지만 활성화되는 파라미터는 적어 너비 확장과 유사한 효과를 얻는다.

반면, 넓은 모델은 풍부한 계층적 특징 학습에 한계를 보일 수 있다. 각 레이어가 처리하는 정보의 깊이가 얕아 복잡한 추상 개념을 학습하는 데 어려움을 겪을 수 있다. 또한, 단일 레이어의 은닉 차원이 크기 때문에, 특정 시점에서는 깊은 모델보다 더 많은 메모리를 요구할 수 있으며, 특히 배치 크기가 클수록 이 문제는 더욱 두드러진다. 너무 넓기만 한 모델은 과적합에 취약할 수 있고, 특정 연구에서는 깊이 없이 너비만 늘리는 것이 일반화 성능 향상에 한계가 있다고 지적한다 (출처: 특정 연구 논문에서 언급된 경향).

상황별 최적 전략: 예산과 목표에 따른 선택

어떤 아키텍처 전략이 최적인지는 주어진 예산과 달성하고자 하는 목표에 따라 달라진다.

제한된 예산 및 빠른 프로토타이핑: 학습 안정성과 병렬 처리 이점을 고려할 때 넓은 모델이 유리할 수 있다. 초기 실험 및 빠른 결과 도출에 적합하며, 추론 시에도 배치 처리에 효율적일 수 있다.
복잡한 추론 및 높은 일반화 요구: 언어 이해나 복잡한 패턴 인식처럼 계층적 추상화가 중요한 작업에는 깊은 모델이 더 적합할 수 있다. 단, 학습 안정화와 추론 지연 시간 관리에 대한 추가 노력이 필요하다.
대규모 모델 및 최첨단 연구: 깊이와 너비의 균형이 중요하다. 특정 연구에서는 깊이와 너비가 특정 비율로 스케일링될 때 최적의 성능과 효율을 보인다고 제안한다 (출처: arXiv:2605.27989와 같은 스케일링 법칙 연구). 예를 들어, GPT-3 같은 모델은 단순히 크기만 키운 것이 아니라, 깊이와 너비의 조합을 통해 최적화된 아키텍처를 찾아낸 결과물이다.

나의 최종 선택: 효율성을 넘어선 지혜

내 경험상, 단순히 '깊이'나 '너비' 중 하나를 맹목적으로 추구하기보다는, 주어진 데이터와 태스크의 복잡성을 면밀히 분석하여 최적의 균형점을 찾는 것이 핵심이다. 특히, 저는 최근 연구에서 강조되는 '상호작용 효율성(Interaction Efficiency)'이라는 개념에 주목한다. 모델의 깊이와 너비가 뉴런 간 정보 흐름의 효율성에 어떻게 영향을 미치는지 이해하는 것이, 단순히 파라미터 수를 늘리는 것보다 훨씬 더 중요한 가이드라인이 될 수 있다.

결론적으로, LLM 아키텍처 설계는 더 이상 단순한 자원 투입 게임이 아니다. 제한된 자원 안에서 최고의 지능을 구현하기 위한 깊이와 너비의 '황금비율'을 찾아내는 섬세한 예술이자 과학이다. 앞으로는 이 '상호작용 효율성'을 극대화하는 방향으로 연구가 더욱 활발해질 것이라 확신한다.

참고: arXiv CS.LG (Machine Learning)