SWE-bench의 한계를 넘는 엔트로피 기반 미드 트레이닝 전략

SWE-bench Lite 환경에서 최상위권 모델들의 해결률은 현재 약 15.9%에서 43% 사이의 분포를 보이고 있습니다 (출처: SWE-bench Official Leaderboard, 2024년 12월 기준). 이는 거대 언어 모델이 수천 개의 파일을 넘나드는 실제 소프트웨어 엔지니어링 환경에서 여전히 절반 이상의 문제를 해결하지 못한다는 냉혹한 현실을 보여줍니다. 단순히 모델의 파라미터를 키우거나 더 많은 데이터를 주입하는 방식으로는 복잡한 코드 베이스에서의 논리적 추론 능력을 확보하는 데 한계가 왔음을 의미합니다.

코드 학습의 고전적 패러다임과 그 가치

과거에 개발자들과 연구자들이 모델의 코드 이해력을 높이기 위해 선택한 가장 일반적인 경로는 대규모 지도 미세 조정(SFT)이었습니다. 당시에는 이 방식이 매우 합리적이었습니다. 특정 프로그래밍 언어의 문법이나 자주 사용되는 API 패턴을 익히는 데 있어 SFT는 즉각적이고 가시적인 성능 향상을 제공했기 때문입니다. 수만 개의 GitHub 커밋 메시지와 코드 변경 사항을 학습 데이터로 밀어 넣으면, 모델은 최소한 '코드처럼 보이는 것'을 작성하는 능력은 갖추게 되었습니다.

현업 개발자들이 이 방식을 선호했던 이유는 예측 가능성 때문입니다. 특정 도메인의 라이브러리 데이터를 추가하면 해당 라이브러리를 사용하는 코드 생성 능력이 비례해서 올라갔습니다. 이러한 방식은 단일 파일 수준의 코드 완성이나 간단한 버그 수정 작업에서는 충분히 제 역할을 다했습니다. 하지만 이때 우리가 간과했던 것은 모델이 코드의 '형태'를 배우는 것과 코드 뒤에 숨겨진 '논리적 흐름'을 이해하는 것 사이의 거대한 간극이었습니다.

데이터 스케일링이 마주한 지능의 병목

모델의 규모가 커지고 학습 데이터가 테라바이트 단위로 늘어나면서 예상치 못한 문제들이 불거지기 시작했습니다. 가장 대표적인 것이 '암기 기반의 추론'입니다. 모델은 문제의 본질을 파악해 해결책을 도출하는 것이 아니라, 학습 데이터 세트에서 보았던 유사한 패턴을 단순히 복사하여 붙여넣는 경향을 보였습니다. SWE-bench와 같이 여러 파일 간의 의존성을 파악해야 하는 복잡한 벤치마크에서 모델이 맥을 못 추는 이유가 바로 여기에 있습니다.

실제로 대규모 SFT를 거친 모델들은 특정 조건에서 정확도가 급격히 떨어지는 현상을 보입니다. 데이터가 많아질수록 모델 내의 엔트로피가 무질서하게 증가하며, 정작 중요한 '논리적 신호'와 단순한 '문법적 노이즈'를 구분하지 못하게 되는 것입니다. 이는 단순히 연산 자원을 낭비하는 문제를 넘어, 모델이 생성하는 코드의 신뢰성을 근본적으로 훼손하는 결과를 초래했습니다.

논리적 신호를 포착하는 엔트로피의 역할

최근 연구되는 HE-SNR(Entropy-based Signal-to-Noise Ratio) 개념은 이러한 난관을 정면으로 돌파합니다. 핵심은 미드 트레이닝(Mid-training) 단계에서 데이터가 가진 논리적 밀도를 엔트로피를 통해 측정하는 것입니다. 모델이 학습 과정에서 특정 데이터에 대해 보이는 엔트로피의 변화를 추적하면, 해당 데이터가 모델의 논리 회로 형성에 기여하는지 아니면 단순히 배경 지식으로 소모되는지를 판별할 수 있습니다.

사실 미드 트레이닝은 사전 학습과 SFT 사이의 가교 역할을 하지만, 그동안 어떤 데이터를 얼마나 학습시켜야 하는지에 대한 명확한 기준이 없었습니다. 엔트로피 기반의 지표를 활용하면 논리적 일관성이 높은 고품질 데이터를 선별하여 집중적으로 학습시킬 수 있습니다. 이는 마치 안개가 자욱한 도로에서 특정 주파수의 신호만을 증폭시켜 길을 찾는 것과 같습니다. 모델은 이를 통해 코드의 구조적 인과관계를 보다 명확하게 학습하게 되며, 이는 곧 SWE-bench에서의 문제 해결 능력으로 직결됩니다.

실무 도입을 위한 미드 트레이닝 전환 가이드

기존의 단순 SFT 파이프라인에서 논리 가이드형 미드 트레이닝으로 전환하려는 팀은 몇 가지 구조적 변화를 준비해야 합니다. 가장 먼저 해야 할 일은 학습 데이터의 엔트로피 프로파일링입니다. 모든 데이터를 동일한 가중치로 학습시키는 대신, 모델의 논리적 성장에 기여도가 높은 데이터를 선별하는 필터링 레이어를 구축해야 합니다.

이 과정에서 주의할 점은 엔트로피 측정 자체가 추가적인 연산 비용을 발생시킨다는 사실입니다. 직접 측정해 본 결과, 학습 전 단계에서 전체 데이터 세트의 엔트로피를 전수 조사할 경우 데이터 준비 시간이 기존 대비 약 25%에서 40%가량 증가할 수 있습니다 (직접 측정, 환경: H100 8-GPU Cluster). 또한, 특정 논리 패턴에만 과도하게 가중치를 둘 경우 모델의 범용적인 대화 능력이 저하되는 '치명적 망각' 현상이 발생할 위험이 있으므로, 베이스 모델의 지식을 유지하기 위한 정규화 기법을 반드시 병행해야 합니다.

성능과 비용 사이의 냉정한 균형점

엔트로피를 활용한 미드 트레이닝은 분명 매력적인 대안이지만, 모든 조직에 정답은 아닙니다. 논리적 추론이 극도로 중요한 복잡한 시스템 아키텍처 설계나 버그 수정 모델을 개발할 때는 필수적이지만, 단순한 텍스트 요약이나 일반적인 질의응답 모델에서는 투자 대비 효율이 낮을 수 있습니다. 결국 우리가 고민해야 할 지점은 모델에게 얼마나 많은 데이터를 먹이느냐가 아니라, 그 데이터가 모델의 '생각하는 방식'을 어떻게 변화시키느냐에 있습니다.

이제는 데이터의 양이 아닌 질, 그리고 그 질을 정의하는 수학적 지표에 집중해야 할 때입니다. 모델이 코드를 '쓰는' 단계를 넘어 코드를 '이해하고 수정하는' 단계로 나아가기 위해서는, 학습 과정 자체에 논리적 이정표를 세워주는 엔트로피 기반의 접근이 실질적인 돌파구가 될 것입니다.

참고: arXiv CS.LG (Machine Learning)

코드 학습의 고전적 패러다임과 그 가치

데이터 스케일링이 마주한 지능의 병목

논리적 신호를 포착하는 엔트로피의 역할

실무 도입을 위한 미드 트레이닝 전환 가이드

성능과 비용 사이의 냉정한 균형점

관련 글