대부분의 개발자는 멀티모달 모델이 엉뚱한 소리를 하면 학습 데이터가 부족하거나 비전 엔코더의 성능이 낮기 때문이라고 생각합니다. 그래서 더 큰 데이터셋을 쏟아붓거나 파라미터 수가 더 많은 모델로 갈아타는 방식을 선택하곤 하죠. 하지만 실제로 현장에서 모델을 튜닝해보면, 모델의 덩치를 키운다고 해서 환각(Hallucination) 현상이 정비례하며 줄어들지 않는다는 사실을 깨닫게 됩니다. 오히려 덩치가 커질수록 내부 어텐션 메커니즘이 복잡해지면서 텍스트와 이미지 사이의 연결 고리가 더 쉽게 꼬여버리는 상황이 빈번하게 발생합니다.
데이터와 파라미터가 해결하지 못하는 사각지대
많은 엔지니어가 빠지는 첫 번째 함정은 '고해상도 이미지를 넣으면 환각이 줄어들 것'이라는 믿음입니다. 논리적으로는 입력 정보가 정교해지니 출력도 정확해져야 맞지만, 실제로는 이미지 토큰의 수가 늘어날수록 모델이 특정 객체에 집중하지 못하고 배경 노이즈에 시선을 분산시키는 부작용이 나타납니다. 두 번째 오해는 환각이 단순히 '학습하지 않은 내용'에 대해 발생하는 문제라는 생각입니다. 사실 LVLM은 이미 충분히 학습된 객체에 대해서도, 질문의 맥락이나 이전 토큰과의 관계 때문에 눈앞의 시각 정보보다 언어적 확률에 더 의존하며 잘못된 답을 내놓는 경우가 훨씬 많습니다. 이러한 오해들이 생기는 이유는 우리가 모델을 거대한 백과사전으로만 취급하고, 정보를 '읽어오는 과정'인 어텐션 패턴의 결함에 대해서는 관대하기 때문입니다.
어텐션 메커니즘 내부에서 벌어지는 정렬의 붕괴
모델 내부를 뜯어보면 환각이 발생하는 순간의 어텐션 맵은 매우 무질서합니다. 정상적인 추론 과정이라면 텍스트 토큰이 생성될 때 이미지의 관련 영역에 강한 가중치가 실려야 합니다. 하지만 환각이 일어날 때는 비전 토큰과 언어 토큰 사이의 크로스 모달 어텐션이 엉뚱한 곳을 향하거나, 특정 레이어에서 시각 정보가 완전히 무시된 채 언어 모델의 자기 회귀적 특성만 강화되는 현상이 관찰됩니다. MHSA(Mitigating Hallucinations via Steered Attention) 연구에 따르면, 이러한 현상은 모델의 모든 레이어에서 동일하게 나타나는 것이 아니라 특정 특정 레이어와 어텐션 헤드에서 집중적으로 발생합니다. 즉, 모델 전체가 문제라기보다 추론 과정에서 시각 정보를 텍스트로 전달하는 '통로'가 오염되는 것이 핵심적인 원인입니다.
가벼운 조향 장치로 환각의 경로를 수정하기
이 문제를 해결하기 위해 제시된 MHSA 프레임워크는 모델을 다시 학습시키는 무거운 방식 대신, 추론 과정에서 어텐션을 살짝 비트는 '스티어링(Steering)' 기법을 사용합니다. 이는 마치 자동차의 엔진을 바꾸는 것이 아니라 핸들을 제대로 조작해 차선을 유지하게 만드는 것과 같습니다. 모델이 텍스트를 생성할 때 시각적 증거와 일치하지 않는 방향으로 어텐션이 쏠리면, 이를 감지하고 시각 정보가 풍부한 영역으로 주의력을 다시 돌려놓는 식입니다. 이 과정은 매우 경량화된 구조로 설계되어 있어, 기존 모델의 가중치를 건드리지 않고도 환각 현상을 억제할 수 있다는 점이 매력적입니다. 실제로 특정 벤치마크에서 기존 방식 대비 연산 효율성을 유지하면서도 환각 억제 성능을 유의미하게 끌어올렸다는 점은 시사하는 바가 큽니다 (출처: arXiv:2605.14966v1).
기술적 도입 시 고려해야 할 현실적인 트레이드오프
물론 모든 기술에는 대가가 따릅니다. MHSA와 같은 어텐션 스티어링 기법을 적용할 때 가장 먼저 맞닥뜨리는 문제는 추론 속도의 미세한 저하입니다. 어텐션 패턴을 실시간으로 분석하고 수정하는 단계가 추가되기에, 극도의 저지연(Low-latency)이 필요한 서비스에서는 이 추가 연산 시간이 부담이 될 수 있습니다. 또한, 스티어링의 강도를 너무 세게 조절하면 모델의 문장 생성 능력이 경직되어 자연스러운 대화 흐름이 깨지는 현상이 발생할 수도 있습니다. 필자의 판단으로는, 단순한 객체 탐지나 문서 이해 작업에서는 강력한 스티어링이 유리하지만, 창의적인 묘사가 필요한 멀티모달 챗봇 환경에서는 스티어링의 임계값을 매우 정교하게 튜닝해야만 실용성을 확보할 수 있을 것입니다.
| 구분 | 기존 파인튜닝 방식 | MHSA 스티어링 방식 |
|---|---|---|
| 리소스 소모 | 매우 높음 (GPU 수십 대) | 매우 낮음 (추론 시 오버헤드 미미) |
| 데이터 의존성 | 대규모 정답 셋 필요 | 비지도/경량 패턴 분석 위주 |
| 유연성 | 모델 재학습 시에만 갱신 가능 | 실시간 파라미터 조절 가능 |
단순한 확장이 아닌 정교한 제어의 시대로
우리는 그동안 더 큰 모델이 모든 문제를 해결해 줄 것이라는 '규모의 경제'에 지나치게 의존해 왔습니다. 하지만 LVLM의 환각 문제는 단순히 뇌 세포를 늘린다고 해결되는 것이 아니라, 눈으로 본 것과 입으로 내뱉는 것 사이의 일관성을 맞추는 '집중력'의 문제입니다. 이제는 무작정 데이터를 늘리기보다, 모델이 추론하는 순간에 어떤 데이터를 보고 있는지 실시간으로 모니터링하고 교정하는 기술에 더 주목해야 합니다. 환각을 모델의 고질적인 결함으로 받아들이고 포기하기보다는, 어텐션이라는 핸들을 어떻게 쥐어줄 것인지 고민하는 것이 개발자가 취해야 할 더 생산적인 태도입니다. 지금 당장 여러분이 운영 중인 모델의 어텐션 맵을 시각화해 보십시오. 모델이 왜 엉뚱한 대답을 했는지, 그 실마리는 데이터셋이 아닌 어텐션의 궤적 안에 숨어 있을 것입니다.
참고: arXiv CS.AI