사전 학습의 역설: LoRA 미세 조정을 방해하는 과잉 학습의 덫

많은 머신러닝 엔지니어들은 사전 학습(Pre-training) 데이터가 많으면 많을수록, 그리고 학습 시간이 길어질수록 모델의 기초 체력이 튼튼해져 어떤 하위 작업(Downstream task)도 더 잘 수행할 것이라고 믿습니다. 거대 언어 모델(LLM)의 시대에 접어들면서 '다다익선'은 일종의 불문율처럼 여겨져 왔습니다. 하지만 실제 현장에서 특정 도메인 데이터를 가지고 LoRA(Low-Rank Adaptation) 미세 조정을 진행해 보면, 의외의 결과에 당황하게 됩니다. 가장 최신의, 가장 낮은 손실(Loss)을 기록한 베이스 모델을 가져왔음에도 불구하고 오히려 학습 속도가 더디거나 특정 성능 지표가 개선되지 않는 현상이 발생하기 때문입니다.

고착화된 가중치가 만드는 학습의 장벽

사전 학습이 지나치게 진행되면 모델의 가중치 행렬은 소스 작업의 특징을 완벽하게 설명하는 방향으로 고도로 최적화됩니다. 이는 언뜻 좋아 보이지만, 역설적으로 가중치 공간의 유연성을 앗아가는 결과를 초래합니다. 모델이 소스 데이터의 패턴에 너무 깊게 '안착'해 버리면, 미세 조정 단계에서 새로운 데이터 분포를 수용하기 위해 가중치를 변화시키려는 시도에 강한 저항이 생깁니다.

특히 LoRA는 전체 파라미터를 업데이트하는 대신 저차원 행렬(Low-rank matrices)만을 학습합니다. LoRA는 기존 가중치를 고정(Freeze)한 상태에서 병렬적인 경로를 추가하는 방식인데, 베이스 모델의 가중치가 특정 수렴 지점에 너무 강력하게 고착되어 있으면 LoRA가 학습해야 할 '변화량'을 효과적으로 흡수하지 못하게 됩니다. 결과적으로 사전 학습을 덜 마친 모델보다 훨씬 더 많은 반복 학습(Iteration)을 거쳐야만 유사한 성능에 도달하는 비효율이 발생합니다.

LoRA의 구조적 특성과 수렴 속도 (Beginner)

LoRA의 핵심은 원본 가중치 행렬 $W$에 $BA$라는 두 개의 작은 행렬을 더해 업데이트를 모사하는 것입니다. 여기서 학습 가능한 파라미터 수는 원본 대비 약 10,000분의 1 수준으로 급격히 줄어듭니다 (출처: LoRA 원본 논문, Hu et al., 2021). 이러한 파라미터의 효율성은 VRAM 사용량을 약 3배 이상 절감할 수 있게 해주어 일반적인 GPU 환경에서도 미세 조정을 가능케 합니다 (출처: Microsoft 공식 LoRA 가이드).

개발자가 이해해야 할 핵심은 LoRA가 '좁은 통로'를 통해 모델을 수정한다는 점입니다. 사전 학습이 과하게 이루어진 모델은 이 좁은 통로를 통해 전달되는 수정 신호를 무시할 정도로 기존 지식의 '관성'이 강합니다. 마치 이미 굳어버린 콘크리트 위에 얇은 덧칠을 하려는 것과 같습니다. 기초가 너무 단단하고 매끄럽게 굳어버리면 새로운 페인트가 제대로 흡착되지 않는 원리와 유사합니다.

단일 지표 모델로 본 동적 분석의 실체 (Advanced)

최근 연구(arXiv:2602.02855)에 따르면, 이러한 현상은 수학적으로 '단일 지표 모델(Single-index models)'의 동적 분석을 통해 증명됩니다. 사전 학습 단계에서 소스 작업의 특징(Feature)을 학습하는 과정이 일정 수준을 넘어서면, 하위 작업으로 전환될 때 최적화 경로에서 '안장점(Saddle point)'에 머무는 시간이 길어집니다.

수학적 분석 결과, 사전 학습이 심화될수록 가중치 행렬의 고윳값(Eigenvalue) 분포가 특정 방향으로 쏠리게 됩니다. 이로 인해 LoRA의 저차원 행렬이 탐색해야 할 손실 함수(Loss landscape)의 곡률이 평탄해지거나, 반대로 매우 가팔라지는 불안정성이 심화됩니다. 즉, 사전 학습의 '성공'이 미세 조정 단계에서는 '최적화 정체'라는 부작용으로 돌아오는 것입니다. 이는 단순한 직관을 넘어, 학습 역학(Learning Dynamics) 관점에서 사전 학습의 양과 미세 조정의 효율성 사이에 명확한 트레이드오프(Trade-off)가 존재함을 시사합니다.

실전 미세 조정 전략: '골디락스' 지점 찾기

그렇다면 우리는 어떤 전략을 취해야 할까요? 무조건 가장 최신 체크포인트가 정답은 아닙니다. 실제 프로젝트를 수행할 때는 다음과 같은 접근이 필요합니다.

첫째, 사전 학습의 손실 곡선이 완전히 평탄해지기 직전의 체크포인트를 미세 조정의 베이스로 검토해야 합니다. 모델이 아직 '배울 준비'가 되어 있는 유연한 상태일 때 LoRA를 적용하는 것이 최종 수렴 속도 면에서 유리할 수 있습니다.

둘째, 과잉 학습된 모델을 사용할 수밖에 없는 상황이라면 LoRA의 랭크(Rank, $r$) 값을 평소보다 높게 설정하는 것을 고려해야 합니다. 좁은 통로를 조금 더 넓혀줌으로써 베이스 모델의 강한 관성을 이겨낼 수 있는 더 많은 자유도를 부여하는 것입니다. 다만 이는 메모리 사용량 증가라는 기회비용을 발생시킵니다.

셋째, 사전 학습 데이터와 미세 조정 데이터의 유사성을 냉정하게 평가해야 합니다. 두 데이터셋의 분포 차이가 클수록 과도한 사전 학습은 독이 됩니다. 차라리 사전 학습을 적당히 멈춘 모델이 새로운 도메인의 지식을 더 빠르게 흡수한다는 사실을 기억해야 합니다.

결국 딥러닝 모델 학습은 '멈춤의 미학'이 필요한 영역입니다. 더 나은 성능을 위해 무작정 사전 학습 시간을 늘리는 것은 자원 낭비를 넘어 모델의 적응력을 파괴하는 행위가 될 수 있습니다. 지금 여러분이 선택한 그 '완벽한' 체크포인트가, 사실은 여러분의 미세 조정을 가로막는 가장 큰 장애물일지도 모릅니다. 데이터의 양보다 중요한 것은 모델이 변화를 수용할 수 있는 상태인지 확인하는 통찰력입니다.

참고: arXiv CS.LG (Machine Learning)

고착화된 가중치가 만드는 학습의 장벽

LoRA의 구조적 특성과 수렴 속도 (Beginner)

단일 지표 모델로 본 동적 분석의 실체 (Advanced)

실전 미세 조정 전략: '골디락스' 지점 찾기

관련 글