TechCompare
AI 연구2026년 5월 13일· 10 분 읽기

파인튜닝이 망치는 안전성: RLHF 이후의 치명적 망각을 막는 법

RLHF 이후 진행되는 추가 학습이 모델의 안전성을 파괴하는 원인과 이를 방지하기 위한 강건한 정책 최적화(Robust Policy Optimization) 전략을 분석합니다.

대규모 언어 모델(LLM)을 특정 도메인에 맞춰 추가 학습(Fine-tuning)하는 과정은 필연적으로 이전에 학습한 안전 가이드라인과 정렬(Alignment) 데이터를 파괴하는 결과를 초래합니다. RLHF(인간 피드백을 통한 강화학습)를 통해 공들여 쌓은 윤리적 기준이나 답변의 일관성이 단 몇 차례의 후속 업데이트만으로도 무너지는 현상은 현재 LLM 배포 현장에서 가장 까다로운 유지보수 장벽으로 작용하고 있습니다.

이러한 현상이 발생하는 이유는 표준적인 RLHF 목적 함수가 후속 학습 단계에서의 가중치 변화에 매우 취약하기 때문입니다. 모델이 새로운 작업(Downstream task)의 데이터를 학습할 때, 최적화 알고리즘은 새로운 목표를 달성하기 위해 기존 가중치를 공격적으로 수정합니다. 이 과정에서 '안전하게 답변하기'와 같은 정렬된 행동을 정의하던 미세한 파라미터들이 덮어씌워지며, 결국 모델은 유능하지만 위험한 상태로 회귀하게 됩니다. 이는 단순히 성능의 문제가 아니라, 기업이 AI 서비스를 운영할 때 마주하는 실질적인 컴플라이언스 및 신뢰성 위기입니다.

후속 학습이 초래하는 정렬의 붕괴와 운영 비용

모델의 '치명적 망각(Catastrophic Forgetting)'은 개발 생산성과 유지보수 비용에 직접적인 타격을 줍니다. 예를 들어, 보안과 윤리 기준이 철저히 적용된 Llama 3 계열 모델을 의료 상담이나 법률 분석용으로 파인튜닝한다고 가정해 보겠습니다. 특정 도메인의 전문 지식을 주입하는 데는 성공할지 몰라도, 그 과정에서 혐오 표현이나 위험한 지시를 거부하는 능력이 손실된다면 해당 모델은 즉시 폐기 대상이 됩니다.

실제로 현업에서는 이러한 안전성 회귀를 막기 위해 전체 학습 과정을 처음부터 다시 반복하거나, 방대한 양의 안전성 데이터를 새로운 학습 세트에 섞어 넣는 방식을 택하곤 합니다. 하지만 이는 컴퓨팅 자원의 낭비일 뿐만 아니라 학습 데이터 간의 충돌을 야기하여 모델의 최종 수렴 속도를 늦추는 결과를 낳습니다. 데이터 준비 과정에서 발생하는 인건비와 GPU 연산 비용의 중복 투입은 프로젝트의 경제성을 심각하게 훼손합니다.

강건한 정책 최적화의 실전 적용과 트레이드오프

이 문제를 해결하기 위해서는 모델의 정책(Policy)이 변할 때 이전의 정렬 상태를 참조점으로 삼는 '강건한 정책 최적화' 기법이 필수적입니다. 단순히 새로운 데이터에 맞춰 오차를 줄이는 것이 아니라, RLHF 단계에서 확보한 보상 모델(Reward Model)의 가이드라인을 후속 학습의 제약 조건으로 명시해야 합니다.

이 방식은 학습 과정에서 현재 모델의 출력 분포가 이전 정렬 모델의 분포에서 지나치게 벗어나지 않도록 KL 발산(KL Divergence)을 조절하는 페널티를 강화하는 형태로 구현됩니다. 하지만 여기에는 명확한 트레이드오프가 존재합니다. 안전성을 유지하기 위해 제약을 너무 강하게 걸면, 모델이 새로운 도메인 지식을 흡수하는 속도가 현저히 느려지는 '학습 정체' 현상이 발생합니다. 반대로 제약이 너무 느슨하면 다시 망각의 늪에 빠지게 됩니다. 따라서 개발자는 도메인 적응도와 안전 보존도 사이의 균형을 맞추기 위해 정교한 하이퍼파라미터 튜닝에 집중해야 합니다.

흔히 저지르는 실수와 방어 전략

많은 엔지니어가 저지르는 가장 큰 실수는 후속 학습 시 '학습률(Learning Rate)'을 지나치게 높게 설정하는 것입니다. 새로운 작업에 빠르게 적응시키고 싶은 조급함에 높은 학습률을 적용하면, RLHF로 형성된 정교한 가중치 구조가 순식간에 파괴됩니다. 또한, 안전성 검증 데이터셋을 최종 단계에서만 확인하는 '사후 검증' 방식도 위험합니다. 학습 중간 단계(Checkpoint)마다 안전성 벤치마크를 수행하여, 어느 시점에서 망각이 가속화되는지 실시간으로 모니터링해야 합니다.

또 다른 실수는 특정 작업 데이터에만 과적합(Overfitting)시키는 것입니다. 데이터의 다양성이 부족한 상태에서 반복 학습을 진행하면 모델은 해당 작업의 패턴만을 맹목적으로 따르게 되며, 이는 곧 범용적인 판단 능력의 상실로 이어집니다. 이를 방지하기 위해 '리허설(Rehearsal)' 기법, 즉 이전 단계의 핵심 데이터를 소량씩 섞어 학습하는 전략을 병행하는 것이 효과적입니다.

지속 가능한 모델 성장을 위한 세 가지 핵심 원칙

첫째, 정렬은 일회성 이벤트가 아니라 연속적인 과정임을 인지해야 합니다. 초기 RLHF가 끝난 후에도 모든 업데이트 단계에서 보상 모델의 신호를 유지하는 아키텍처를 설계하는 것이 중요합니다. 둘째, 모델의 유연성(Plasticity)과 안정성(Stability) 사이의 적정 지점을 찾기 위해 학습률 스케줄링을 극도로 보수적으로 운영해야 합니다. 셋째, 정성적인 평가에 의존하기보다 안전성 회귀를 수치화할 수 있는 자동화된 파이프라인을 구축하여 의사결정의 객관성을 확보해야 합니다.

결국 기술의 완성도는 새로운 것을 얼마나 잘 배우느냐가 아니라, 배운 것을 얼마나 책임감 있게 유지하느냐에 달려 있습니다. 모델이 똑똑해질수록 그 똑똑함이 안전이라는 기반 위에서 작동하도록 만드는 설계자의 관점이 그 어느 때보다 필요한 시점입니다.

참고: arXiv CS.LG (Machine Learning)
# LLM# RLHF# FineTuning# CatastrophicForgetting# ModelSafety

관련 글