지식 증류의 함정: 왜 결과만 가르치면 멀티모달 모델은 실패하는가?

대부분의 엔지니어는 지식 증류(Knowledge Distillation)를 수행할 때, 스승 모델의 최종 출력값인 로짓(Logits)만 잘 따라하면 제자 모델이 똑똑해질 것이라고 믿는다. 하지만 멀티모달(Multi-modality) 환경에서 이 방식만 고수하면 제자는 껍데기만 닮은 열등생이 되기 십상이다. 단순히 정답을 맞히는 확률 분포를 복제하는 것과, 그 정답을 도출하기 위해 시각 정보와 언어 정보를 어떤 비율과 관계성으로 버무렸는지 배우는 것은 차원이 다른 문제이기 때문이다. 실제로 현장에서 멀티모달 모델을 경량화해 보면, 최종 출력값만 맞춘 제자 모델은 특정 모달리티의 노이즈에 극도로 취약해지는 현상을 자주 목격하게 된다.

결과물 추종의 한계와 구조적 결핍

기존의 지식 증류 프레임워크는 주로 단일 모달리티, 특히 이미지 분류 모델의 크기를 줄이는 데 집중해 왔다. 이 과정에서는 스승이 내뱉는 확률 분포를 제자가 흉내 내도록 유도하는 것만으로도 충분한 효과를 거두었다. 그러나 영상, 음성, 텍스트가 복합적으로 얽힌 멀티모달 모델에서는 이야기가 달라진다. 스승 모델은 내부적으로 각 모달리티가 가진 고유의 특징을 추출하고, 이를 결합하는 복잡한 '관계의 지도'를 가지고 있다.

제자 모델이 단순히 최종 결과물만 학습하게 되면, 스승이 왜 특정 상황에서 시각 정보보다 텍스트 정보에 더 무게를 두었는지에 대한 논리적 근거를 놓치게 된다. 이는 결국 추론 과정에서의 불일치를 야기하며, 데이터의 도메인이 살짝만 바뀌어도 성능이 급격히 하락하는 원인이 된다. 필자의 경험상, 복합적인 데이터를 다루는 모델일수록 '무엇을 내놓는가'보다 '어떻게 연결하는가'를 가르치는 것이 성능 유지의 핵심이다.

모달리티 간의 상관관계라는 연결고리

멀티모달 학습의 핵심은 서로 다른 성격의 데이터를 하나의 공통된 공간(Embedding Space)에서 어떻게 조화시키느냐에 있다. 여기서 개발자들이 반드시 이해해야 할 개념이 바로 모달리티 간의 '상관관계'다. 스승 모델은 수십 개의 레이어를 거치며 이미지의 특정 패턴과 텍스트의 특정 키워드가 결합되는 방식을 체득한다.

이러한 관계 정보를 제자에게 전달하기 위해서는 단순한 피처 맵(Feature Map)의 값을 복사하는 수준을 넘어서야 한다. 피처 맵의 절대적인 수치는 모델의 구조나 채널 수에 따라 달라질 수 있기 때문이다. 대신, 각 모달리티 내에서 혹은 모달리티 간에 발생하는 특징들의 상대적인 거리를 보존하는 방식이 훨씬 효과적이다. 이것이 바로 지식 증류의 단위를 '값'에서 '관계'로 격상시켜야 하는 이유다.

그램 행렬(Gram Matrix)이 해결하는 내부 정렬의 핵심

스승의 깊은 통찰력을 제자에게 전수하기 위한 도구로 '그램 행렬(Gram Matrix)'이 주목받는 이유는 명확하다. 그램 행렬은 특징 벡터들 간의 내적을 통해 계산되며, 이는 데이터의 분포와 스타일, 그리고 각 요소 간의 상관관계를 요약해서 보여준다. 스타일 전이(Style Transfer) 연구에서 주로 사용되던 이 기법을 멀티모달 증류에 도입하면, 스승 모델이 각 모달리티를 해석하는 '관점' 자체를 추출할 수 있다.

구체적으로, 스승 모델의 특정 레이어에서 뽑아낸 모달리티별 특징들에 대해 그램 행렬을 산출하면, 해당 모달리티가 내부적으로 어떤 구조적 특징을 중요하게 여기는지 수치화된다. 제자 모델은 자신의 그램 행렬이 스승의 것과 최대한 유사해지도록 학습한다. 이 방식의 가장 큰 장점은 스승과 제자의 네트워크 구조가 완전히 다르더라도(예: 스승은 Transformer 기반, 제자는 CNN 기반), '관계'라는 공통 분모를 통해 지식을 전달할 수 있다는 점이다. 다만, 그램 행렬을 계산하는 과정에서 발생하는 연산 비용은 무시할 수 없는 요소다. 특히 고차원 피처 맵을 다룰 때 행렬의 크기가 제곱으로 늘어나기 때문에, 실무에서는 특정 주요 레이어에서만 선별적으로 적용하는 전략이 필요하다.

실제 현업 적용 시 고려해야 할 설계상 제약

이러한 관계 학습 기반의 증류 기법을 실제 프로젝트에 도입할 때는 몇 가지 트레이드오프를 반드시 고려해야 한다. 첫째, 모든 레이어에서 그램 행렬을 맞추려고 시도하면 학습 속도가 현저히 느려질 뿐만 아니라, 오히려 제자 모델의 고유한 표현력을 억제하는 역효과를 낼 수 있다. 필자는 보통 네트워크의 중간 지점과 후반부 지점, 즉 추상화가 충분히 진행된 지점의 모달리티 관계를 우선적으로 정렬하는 것을 권장한다.

둘째, 손실 함수(Loss Function)의 설계다. 최종 로짓에 대한 크로스 엔트로피 손실과 그램 행렬 기반의 증류 손실 사이의 균형을 잡는 하이퍼파라미터 튜닝이 매우 까다롭다. 관계 학습에 너무 치중하면 정답률이 떨어지고, 로짓에만 치중하면 멀티모달의 이점을 잃게 된다. 솔직히 말해서, 이 과정은 정교한 실험 없이는 성공하기 어렵다. 하지만 한 번 제대로 튜닝된 모델은 모달리티 중 하나가 누락되거나 노이즈가 섞인 상황에서도 스승 모델에 근접하는 견고한 성능을 보여준다.

결국 멀티모달 지식 증류의 승부처는 스승의 '결과'가 아닌 '사고방식'을 얼마나 효율적으로 압축하느냐에 달려 있다. 단순히 정답지를 외우게 하지 말고, 정답을 도출하기 위해 모달리티들을 어떻게 요리했는지 그 레시피를 가르쳐야 한다. 지금 당장 여러분의 증류 파이프라인에 모달리티 간 관계를 측정하는 손실 함수를 단 하나만 추가해 보라. 모델의 견고함이 달라지는 것을 체감할 수 있을 것이다.

참고: arXiv CS.AI

결과물 추종의 한계와 구조적 결핍

모달리티 간의 상관관계라는 연결고리

그램 행렬(Gram Matrix)이 해결하는 내부 정렬의 핵심

실제 현업 적용 시 고려해야 할 설계상 제약

관련 글