범용 LLM이 놓치는 비모국어의 뉘앙스: AES 성능을 결정짓는 핵심 차이

대규모 언어 모델(LLM)을 그대로 가져와 채점 프롬프트를 짜는 팀과, 도메인 특화 데이터로 추가 사전 학습(Continued Pretraining)을 수행하는 팀의 결과물은 전혀 다른 궤적을 그립니다. 전자가 '유창함'이라는 모호한 기준에 의존할 때, 후자는 비모국어 화자가 저지르는 특유의 오류 패턴과 발달 단계를 데이터로 이해하기 때문입니다. 단순히 모델의 크기를 키우는 것보다 중요한 것은, 모델이 마주할 데이터의 '결'을 미리 익히게 하는 과정에 있습니다.

일반적인 성능에 대한 착각과 현실

많은 개발자가 GPT-4나 RoBERTa 같은 모델이 이미 수조 개의 토큰을 학습했으므로, 에세이 채점 정도는 '제로샷'이나 단순 '파인튜닝'만으로 충분하다고 믿곤 합니다. 하지만 이는 학습자 언어(Learner Language)의 특수성을 간과한 판단입니다. 비모국어 화자의 글은 문법적으로 완벽하지 않지만, 그 안에는 고유한 체계가 존재합니다. 일반적인 모델은 이를 단순한 '노이즈'나 '낮은 확률의 시퀀스'로 치부해 버리는 경향이 있습니다.

또 다른 오해는 '정답지'인 레이블 데이터만 많으면 성능이 올라갈 것이라는 믿음입니다. 사실 채점 기준(Rubric)에 맞춘 레이블링 데이터는 확보하기가 매우 어렵고 비용이 많이 듭니다. 반면, 레이블이 없는 순수한 학습자 에세이 뭉치인 '학습자 말뭉치(Learner Corpus)'는 상대적으로 구하기 쉽습니다. 이 원시 데이터를 활용해 모델의 언어 모델링(Language Modeling) 능력을 해당 도메인에 맞추는 과정(DAPT)을 건너뛰는 것은, 마치 교과서만 본 선생님에게 학생들의 오답 노트를 분석하라고 시키는 것과 같습니다.

모델 내부에서 일어나는 통계적 괴리

일반적인 프리트레이닝 모델은 위키피디아나 뉴스 기사처럼 정제된 영어를 기반으로 확률 분포를 형성합니다. 이 모델의 어텐션(Attention) 메커니즘은 'I go to school'이라는 문장에는 높은 점수를 주지만, 학습자가 흔히 저지르는 'I go to school yesterday' 같은 문장은 확률 분포의 바깥쪽(Out-of-Distribution)으로 밀어냅니다.

도메인 적응 학습(DAPT)을 거치면 모델의 내부 임베딩 공간이 재구성됩니다. EFCAMDAT(EF Cambridge Open Language Database)와 같은 대규모 학습자 데이터셋은 약 110만 개의 에세이 스크립트를 포함하고 있습니다(출처: EF Education First 공식 연구 데이터). 이 방대한 데이터를 통해 모델은 비모국어 화자가 'yesterday'라는 부사를 쓸 때 동사 시제 오류를 범할 확률이 높다는 통계적 패턴을 학습합니다. 결과적으로 모델은 단순한 오타와 실력을 구분하는 능력을 갖추게 되며, 이는 채점의 신뢰도로 직결됩니다.

성능 향상을 위한 올바른 접근법

단순히 파인튜닝 단계에서 손실 함수(Loss Function)를 줄이는 것에 집착하기보다, 사전 학습 단계에서 도메인 지식을 주입하는 전략이 필요합니다. 이를 위해 다음과 같은 단계적 접근이 권장됩니다.

데이터 선별: 일반적인 웹 크롤링 데이터가 아닌, 실제 시험 환경이나 학습 플랫폼에서 수집된 원문 데이터를 확보해야 합니다.
마스크드 언어 모델링(MLM) 재수행: 확보된 학습자 말뭉치를 사용하여 기존 프리트레이닝 모델의 가중치를 업데이트합니다. 이때 학습률(Learning Rate)은 초기 학습보다 낮게 설정하여 기존 지식의 망각(Catastrophic Forgetting)을 방지해야 합니다.
평가 지표의 다각화: 단순 정확도뿐만 아니라, 학습자의 숙련도 레벨(CEFR 등) 간의 변별력을 얼마나 잘 잡아내는지 측정해야 합니다.

접근 방식	데이터 특성	주요 장점	주요 단점
일반 파인튜닝	레이블된 소수 데이터	빠른 구현, 낮은 컴퓨팅 비용	학습자 특유 오류에 취약함
도메인 적응(DAPT)	대규모 미레이블 데이터	도메인 이해도 극대화, 일반화 성능 향상	추가 학습 시간 및 GPU 자원 필요
제로샷 프롬프팅	데이터 불필요	즉각적인 적용 가능	일관성 부족, 미세한 채점 불가

비용과 성능의 냉정한 트레이드오프

필자의 경험에 비추어 볼 때, DAPT는 분명 강력하지만 공짜는 아닙니다. RoBERTa-base 모델을 기준으로 수백만 건의 에세이를 추가 학습시키려면 상당한 GPU 시간이 소요됩니다. 하지만 채점 시스템의 '공정성'과 '정확성'이 최우선인 교육 서비스라면, 이 비용은 충분히 투자할 가치가 있습니다. 특히 비모국어 화자의 미묘한 발전 단계를 포착해내지 못하는 채점기는 사용자에게 잘못된 피드백을 줄 위험이 크기 때문입니다.

결국 핵심은 모델의 파라미터 수가 아니라, 그 파라미터가 어떤 세상을 보고 자랐느냐에 있습니다. 완벽한 문장만 보고 자란 AI에게 서툰 진심이 담긴 학생의 글을 이해하라고 강요하는 것은 무리입니다. 우리는 AI에게 '틀린 문장' 속에서도 '의미'를 찾아내는 법을 먼저 가르쳐야 합니다. 지금 당장 보유하고 있는 데이터 중 레이블이 없다는 이유로 버려진 학습자들의 텍스트가 있다면, 그것이 바로 여러분의 모델을 한 단계 진화시킬 열쇠입니다.

참고: arXiv CS.LG (Machine Learning)

일반적인 성능에 대한 착각과 현실

모델 내부에서 일어나는 통계적 괴리

성능 향상을 위한 올바른 접근법

비용과 성능의 냉정한 트레이드오프

관련 글