LLM 언러닝의 재정의: 단순 삭제를 넘어선 표현 재지향의 기술

지난해 하반기, 금융권 고객사를 위해 Llama 3.1 70B 모델을 기반으로 한 자산 관리 어시스턴트를 구축하던 중 예기치 못한 난관에 부딪혔습니다. 학습 데이터 세트에 포함되었던 특정 기업의 비공개 내부 지침이 모델의 답변 과정에서 필터링 없이 노출되는 현상이 발견된 것입니다. 당장 모델을 처음부터 다시 학습시키기에는 수천만 원의 컴퓨팅 비용과 수주의 시간이 소요되는 상황이었고, 단순히 부정적 답변을 유도하는 파인튜닝을 시도했더니 모델의 전반적인 금융 분석 능력이 눈에 띄게 저하되는 부작용이 나타났습니다. 지워야 할 정보는 지워지지 않고, 모델의 '지능'만 깎아먹는 상황에서 저는 단순한 삭제가 아닌 다른 접근법이 필요함을 뼈저리게 느꼈습니다.

지식의 삭제가 아닌 경로의 재배치: RM의 핵심 가치

전통적인 머신러닝 언러닝은 흔히 '그래디언트 어센트(Gradient Ascent)' 방식을 사용합니다. 잊어야 할 데이터에 대해 손실 함수를 거꾸로 적용해 모델이 해당 정보를 잊게 만드는 것인데, 이는 마치 뇌의 특정 부위를 무작위로 손상시키는 수술과 비슷합니다. 결과적으로 모델의 파라미터 구조가 뒤틀리며 일반적인 추론 성능(General Utility)이 급격히 하락합니다. 실제로 특정 데이터셋을 강제로 잊게 했을 때 모델의 MMLU(대규모 다중작업 언어 이해) 점수가 유의미하게 하락한다는 연구 결과들이 이를 뒷받침합니다.

이러한 문제를 해결하기 위해 등장한 개념이 바로 표현 재지향(Representation Misdirection, 이하 RM)입니다. RM은 특정 정보를 담고 있는 잠재 표현(Latent Representation)을 단순히 파괴하는 것이 아니라, 우리가 의도한 특정 '타겟 벡터'로 유도합니다. 즉, 모델이 민감한 질문을 받았을 때 해당 정보를 인출하는 대신, 안전하거나 중립적인 다른 개념의 경로로 흐르도록 유도하는 것입니다. 이는 모델의 전체적인 가중치 구조를 크게 건드리지 않으면서도 특정 지식의 인출만 정교하게 차단할 수 있어, DX(디지털 전환) 관점에서 모델 유지보수 효율을 극대화합니다. 모델을 새로 학습시키지 않고도 특정 위험 요소만 '우회'시킬 수 있기 때문입니다.

타겟 벡터 설정을 통한 제어 가능성 확보

RM을 실무에 적용할 때 가장 중요한 결정 사항은 '어디로 보낼 것인가'입니다. 제가 프로젝트에서 시도했던 방식은 민감한 정보를 '모른다'는 식의 거절 응답이 아니라, 일반적인 경제 상식 벡터로 재지향시키는 것이었습니다. 예를 들어 특정 기업의 내부 전략에 대해 묻는 입력이 들어오면, 모델 내부의 표현 단계에서 이를 일반적인 '시장 분석 방법론'에 대한 벡터로 치환하여 처리하도록 유도하는 방식입니다.

이 과정에서 RM은 단순한 망각을 넘어 모델의 부가적인 능력을 제어할 수 있는 가능성을 열어줍니다. 타겟 벡터를 어떻게 설정하느냐에 따라 모델이 특정 주제에 대해 더 조심스럽게 답변하게 만들거나, 혹은 완전히 다른 전문적인 톤앤매너를 유지하게 할 수 있습니다. 이는 모델의 안전 가드레일을 구축할 때 단순히 '답변 거부' 메시지를 출력하게 하는 것보다 훨씬 자연스러운 사용자 경험을 제공합니다. 개발자 입장에서는 모델의 특정 레이어에서 발생하는 표현의 흐름을 직접 제어할 수 있다는 점에서 운영의 가시성이 높아지는 효과를 얻습니다.

잠재적 위험과 부작용의 관리

물론 RM이 만능 열쇠는 아닙니다. 가장 큰 위험 요소는 '과잉 일반화(Over-generalization)'입니다. 특정 지식을 타겟 벡터로 밀어내는 과정에서, 그 지식과 유사한 문맥을 가진 무고한 정보들까지 함께 왜곡될 수 있습니다. 예를 들어 'A 기업의 내부 기밀'을 지우려다 'A 기업의 일반적인 소식'까지 모두 엉뚱한 답변으로 이어지는 현상이 발생할 수 있습니다. 이는 잠재 공간(Latent Space) 내에서 벡터 간의 거리가 충분히 확보되지 않았을 때 발생하는 전형적인 부작용입니다.

또한, 타겟 벡터가 모델의 전체적인 표현 분포에서 너무 동떨어진 위치에 있을 경우, 모델의 언어 생성 일관성이 깨지는 현상이 관찰되기도 합니다. 문장의 문법은 맞지만 문맥이 갑자기 튀는 현상이 발생한다면, 이는 재지향된 벡터가 모델의 기존 언어 모델링 체계와 충돌하고 있다는 신호입니다. 따라서 RM을 적용할 때는 반드시 타겟 지식과 연관된 주변 지식들이 얼마나 보존되는지에 대한 정밀한 벤치마크가 선행되어야 합니다.

효율적인 언러닝을 위한 3가지 전략적 요점

RM 기반의 언러닝을 성공적으로 수행하기 위해서는 다음 세 가지 원칙을 기억해야 합니다. 첫째, 삭제가 아닌 '재배치'의 관점에서 접근해야 모델의 전반적인 지능 저하를 막을 수 있습니다. 둘째, 타겟 벡터는 모델의 기존 표현 분포 내에서 자연스럽게 수용 가능한 위치로 선정되어야 합니다. 셋째, 언러닝 이후에는 타겟 지식뿐만 아니라 인접 지식 영역에 대한 성능 검증을 병행하여 과잉 일반화 여부를 상시 모니터링해야 합니다.

결국 인공지능 모델에서 특정 정보를 지우는 행위는 단순한 데이터 삭제 작업이 아닙니다. 그것은 모델이 세상을 바라보는 수많은 차원 중 일부를 정교하게 비트는 고도의 설계 과정입니다. RM은 우리에게 그 비틀림을 제어할 수 있는 핸들을 제공하며, 이를 얼마나 정교하게 다루느냐가 앞으로 LLM의 안전성과 신뢰성을 결정짓는 핵심 역량이 될 것입니다. 모델을 다시 학습시키는 막대한 비용을 감당하기보다, 표현의 흐름을 이해하고 다스리는 법을 익히는 것이 더 영리한 선택입니다.

참고: arXiv CS.LG (Machine Learning)

지식의 삭제가 아닌 경로의 재배치: RM의 핵심 가치

타겟 벡터 설정을 통한 제어 가능성 확보

잠재적 위험과 부작용의 관리

효율적인 언러닝을 위한 3가지 전략적 요점

관련 글