LLM 안전 가드레일이 성능을 깎아먹을 때: 직교 투영으로 정렬 세금 줄이기

LLM 파인튜닝을 마친 뒤 벤치마크 점수를 확인했는데, 안전 가이드라인을 학습시키기 전보다 코딩 능력이나 논리 추론 점수가 뚝 떨어져서 당황한 적이 있다면 이 고민에 깊이 공감하실 겁니다. 분명히 모델을 더 안전하고 유익하게 만들려고 추가 학습을 진행했는데, 정작 모델의 근본적인 '지능'이 퇴보한 것 같은 느낌을 지울 수 없을 때가 있습니다. 특히 특정 위험 질문에 대한 거절 능력을 키웠더니 일반적인 상식 질문에 대해서도 "죄송하지만 도와드릴 수 없습니다"라는 답변만 반복하는 '과잉 거부' 현상을 마주했다면, 현재 적용 중인 정렬 방식이 모델의 기존 지식을 파괴하고 있는 신호일 가능성이 큽니다.

모델의 '지능'과 '안전' 사이에서 길을 잃지 않기 위한 기준

단순히 안전 데이터를 더 많이 들이붓는다고 해결될 문제가 아닙니다. 새로운 학습이 기존 파라미터를 어떻게 변화시키는지 이해하지 못하면 우리는 계속해서 '정렬 세금(Alignment Tax)'을 지불해야 합니다. 이를 결정하기 위해 스스로에게 던져야 할 세 가지 질문이 있습니다.

첫째, 현재 모델의 성능 저하가 특정 도메인(예: 수학, 코딩)에 집중되어 있는가? 만약 그렇다면 이는 안전 학습 데이터와 일반 유틸리티 데이터 간의 그래디언트 충돌이 발생하고 있다는 증거입니다. 둘째, 안전 가이드라인이 모델의 추론 방식 자체를 변경해야 할 만큼 복잡한가? 셋째, 실시간으로 변화하는 안전 정책에 대응하기 위해 모델을 반복적으로 업데이트해야 하는 환경인가? 이 질문들에 대한 답이 '예'라면, 단순한 전역 파인튜닝(Full Fine-tuning) 대신 보다 정교한 최적화 기법이 필요합니다.

기존 정렬 방식과 직교 그래디언트 투영(OGP)의 비교 분석

가장 흔히 쓰이는 표준 파인튜닝 방식은 새로운 안전 데이터를 학습할 때 모델의 모든 파라미터를 자유롭게 수정하도록 둡니다. 이 과정에서 모델이 이전에 확보했던 유용성 관련 가중치들이 안전성을 확보하려는 방향으로 급격히 쏠리게 됩니다. 실제로 일반적인 정렬 과정을 거친 모델들이 MMLU(대규모 다중작업 언어 이해) 벤치마크에서 기존 대비 약 3~5%의 성능 하락을 보이는 경우가 흔히 관찰됩니다 (출처: arXiv:2602.07892v2 분석 데이터). 이는 안전 지식을 배우는 과정이 기존 지식을 덮어쓰는 '파괴적 망각'의 전형적인 사례입니다.

반면, 최근 제안된 직교 그래디언트 투영(OGP, Orthogonal Gradient Projection) 방식은 정렬 과정을 '지속 학습(Continual Learning)'의 관점에서 접근합니다. 핵심 원리는 간단하지만 강력합니다. 모델을 안전하게 만들기 위해 가중치를 업데이트할 때, 기존의 유용한 성능을 유지하는 데 기여하는 그래디언트 방향과 직교(Orthogonal)하는 방향으로만 가중치를 수정하는 것입니다. 이렇게 하면 안전성을 높이면서도 기존의 논리 추론이나 코딩 지식을 담고 있는 파라미터 영역을 침범하지 않게 됩니다. 연구 데이터에 따르면, OGP를 적용했을 때 일반 유틸리티 성능 저하를 기존 방식 대비 유의미하게 방어할 수 있음이 확인되었습니다 (출처: arXiv:2602.07892v2 실험 결과).

우리 서비스에는 어떤 정렬 전략이 적합할까?

상황에 따라 선택지는 갈립니다. 만약 데이터셋이 매우 작고 안전 가이드라인이 단순한 '욕설 필터링' 수준이라면, 굳이 복잡한 투영 기법을 쓸 필요 없이 로라(LoRA)와 같은 경량화 파인튜닝만으로도 충분합니다. 하지만 법률, 의료, 혹은 복잡한 윤리적 판단이 필요한 도메인 특화 모델을 개발 중이라면 이야기가 달라집니다.

고성능 추론이 필수적인 전문직 보조 도구: 이 경우에는 유틸리티 성능 보존이 최우선입니다. OGP와 같은 그래디언트 제어 기법을 도입하여 코딩이나 수학적 논리 구조가 무너지지 않도록 방어막을 쳐야 합니다.
범용 챗봇 및 단순 응대 서비스: 안전성이 유틸리티보다 조금 더 강조되어야 하는 상황입니다. 이때는 약간의 성능 하락을 감수하더라도 표준적인 정렬 방식을 택하되, 데이터 혼합 비율(Data Mixing Ratio)을 조절하여 세금을 최소화하는 전략이 경제적입니다.

사실 엔지니어 입장에서 가장 까다로운 지점은 '어디까지가 안전이고 어디서부터가 과잉 검열인가'를 정의하는 일입니다. OGP는 기술적으로 성능 하락을 막아줄 수는 있지만, 모델이 가져야 할 윤리적 가치관까지 설정해주지는 않기 때문입니다.

정렬 세금을 줄이는 것은 선택이 아닌 생존의 문제

결국 안전 정렬을 지속 학습의 문제로 바라보는 시각의 전환이 필요합니다. 모델은 한 번 학습하고 끝나는 고정된 존재가 아니라, 새로운 가이드라인과 정책에 따라 끊임없이 진화해야 하는 생명체와 같기 때문입니다. 매번 정렬할 때마다 모델의 지능이 깎여 나간다면, 결국 나중에는 착하기만 하고 아무것도 할 줄 모르는 모델만 남게 될 것입니다.

개인적인 경험에 비추어 볼 때, 가장 허망한 순간은 수조 원의 비용을 들여 학습시킨 기본 모델이 고작 몇 메가바이트의 안전 데이터셋 때문에 멍청해지는 것을 지켜볼 때입니다. 이제는 무작정 데이터를 밀어넣는 시대에서 벗어나, 그래디언트의 방향 하나하나를 정교하게 제어하는 '수술적 정렬'의 시대로 넘어가야 합니다. 여러분의 모델이 지불하고 있는 세금이 너무 과하다면, 지금 당장 가중치 업데이트 방향이 기존 지식의 경로를 가로막고 있지는 않은지 점검해 보시기 바랍니다. 지능을 포기하지 않는 안전함이야말로 우리가 지향해야 할 진짜 정렬의 모습입니다.

참고: arXiv CS.LG (Machine Learning)

모델의 '지능'과 '안전' 사이에서 길을 잃지 않기 위한 기준

기존 정렬 방식과 직교 그래디언트 투영(OGP)의 비교 분석

우리 서비스에는 어떤 정렬 전략이 적합할까?

정렬 세금을 줄이는 것은 선택이 아닌 생존의 문제

관련 글