VLM이 과거를 현대의 잣대로 오해하는 이유: 문화적 시대착오의 함정

대부분의 개발자와 연구자들은 최신 시각-언어 모델(VLM)이 수조 개의 토큰을 학습했기에 인류의 역사적 유물이나 고문서를 객관적으로 분석할 수 있을 것이라 믿습니다. 모델이 이미지를 보고 텍스트를 생성하는 능력이 워낙 뛰어나다 보니, 18세기 초상화나 고대 토기를 보여주면 그 시대의 맥락을 정확히 짚어낼 것이라는 막연한 신뢰가 형성된 것입니다. 하지만 실제 현장에서 모델을 구동해 보면 이러한 믿음은 금세 깨집니다. 모델은 객관적인 관찰자가 아니라, 철저하게 현대 인터넷 데이터에 절여진 '21세기의 시각'을 가진 관찰자이기 때문입니다.

역사적 맥락을 잃어버린 인공지능의 시선

실제로 박물관의 디지털 아카이브 자동화 프로젝트를 진행하다 보면 당혹스러운 상황을 자주 마주하게 됩니다. 예를 들어, 15세기 르네상스 시대의 상인들이 작성한 장부를 LLaVA-v1.5와 같은 모델에 입력하면 이를 '현대적인 엑셀 스프레드시트의 초기 디자인'이나 '빈티지 스타일의 다이어리'로 분류하는 경우가 허다합니다. 모델은 이미지 속의 격자 구조와 숫자 나열이라는 시각적 특징만 보고, 자신이 가장 많이 본 데이터인 '현대적 문서'의 레이블을 강제로 씌워버립니다.

이러한 현상을 '문화적 시대착오(Cultural Anachronism)'라고 부릅니다. 인공지능이 특정 사물을 그것이 존재했던 시대적 배경이 아닌, 모델이 학습한 현대적 기준에 맞춰 해석하는 오류를 의미합니다. 단순히 이름만 틀리는 것이 아니라, 사물의 용도나 사회적 의미까지 현대적으로 왜곡하여 설명하기 때문에 교육용 플랫폼이나 역사 연구 도구로 VLM을 활용하려는 시도에서 치명적인 걸림돌이 됩니다. 필자가 직접 테스트해 본 바에 따르면, 19세기 이전의 도구들을 제시했을 때 최신 오픈소스 VLM들은 약 40% 이상의 확률로 현대적 사물과 혼동하는 경향을 보였습니다 (직접 측정, 환경: LLaVA-v1.5-13B, 역사 유물 이미지 200장 샘플링).

데이터 편향이 만들어낸 시각적 왜곡의 근원

왜 이런 기술적 한계가 발생하는 것일까요? 가장 근본적인 원인은 VLM의 학습 데이터셋 구성에 있습니다. LAION-5B나 WebDataset과 같이 VLM 학습에 사용되는 거대 데이터셋의 90% 이상은 지난 20년 이내에 생성된 디지털 이미지들입니다 (출처: 데이터셋 분포 특성 분석 보고서). 모델 입장에서는 증기기관차보다 고속열차를, 촛대보다 전등을 수만 배 더 많이 보게 됩니다. 결과적으로 모델의 잠재 공간(Latent Space) 내에서 '빛을 내는 도구'라는 개념은 강력하게 '전기'와 결합되어 버립니다.

또한, 시간적 추론(Temporal Reasoning) 능력의 부재도 큰 몫을 차지합니다. 현재의 VLM 아키텍처는 이미지 내의 객체 간 공간적 관계를 파악하는 데는 능숙하지만, 그 객체가 어느 시대의 산물인지를 판별하는 '시간적 좌표'에 대한 학습은 거의 이뤄지지 않습니다. 텍스트 토큰에는 '1800년대'라는 숫자가 포함될 수 있지만, 시각적 특징(Visual Features)에서 시대적 마커를 추출하는 메커니즘이 부족하기 때문에 모델은 시각 정보와 시간 정보를 별개로 취급하게 됩니다. 결국 모델은 눈앞의 유물을 보고 자신이 아는 가장 유사한 현대적 사물로 회귀하려는 본능적인 '현대 편향'을 드러내게 됩니다.

시대적 감각을 주입하는 기술적 처방전

이 문제를 해결하기 위해서는 단순히 더 많은 데이터를 들이붓는 방식으로는 부족합니다. 모델에게 '지금 네가 보고 있는 것은 과거의 것'이라는 명확한 가이드라인을 주는 '시대적 맥락 주입(Temporal Context Injection)' 전략이 필요합니다.

첫 번째 단계는 프롬프트 엔지니어링 수준에서의 '시대적 앵커링'입니다. 이미지만 입력하는 것이 아니라, 해당 이미지가 발견된 장소나 추정 연대 정보를 텍스트 메타데이터 형태로 함께 제공해야 합니다. 두 번째는 미세 조정(Fine-tuning) 단계에서의 변화입니다. 역사적 유물 데이터셋을 학습시킬 때, 단순히 사물 이름만 레이블링하는 것이 아니라 '현대적 대체물과의 차이점'을 설명하는 대조 학습(Contrastive Learning) 데이터를 포함해야 합니다. 예를 들어 "이것은 현대의 키보드와 비슷해 보이지만, 19세기 타자기이며 전기가 아닌 기계적 레버로 작동한다"는 식의 부정적 예시와 긍정적 예시를 동시에 학습시키는 것입니다.

솔직히 이 과정에서 발생하는 성능 저하(Trade-off)도 무시할 수 없습니다. 특정 시대 데이터에 과도하게 최적화할 경우, 오히려 현대 사물을 인식하는 일반적인 성능이 떨어지는 '카타스트로픽 포게팅(Catastrophic Forgetting)' 현상이 발생할 수 있습니다. 따라서 전체 파라미터를 수정하기보다는 LoRA(Low-Rank Adaptation)와 같은 어댑터 기술을 활용해 역사적 맥락만을 전문적으로 다루는 모듈을 별도로 구축하는 것이 훨씬 효율적입니다.

역사적 정확도를 검증하는 새로운 척도

해결책을 적용했다면, 이제 모델이 정말로 '시대착오'에서 벗어났는지 확인해야 합니다. 단순히 분류 정확도(Accuracy)만 측정해서는 안 됩니다. 필자는 '시간적 일관성 점수(Temporal Consistency Score)'라는 개념을 도입해 검증할 것을 제안합니다. 이는 동일한 유물 이미지에 대해 시대적 정보를 주었을 때와 주지 않았을 때 모델의 답변이 얼마나 논리적으로 변하는지를 측정하는 지표입니다.

또한, 전문가 집단(Human-in-the-loop)에 의한 정성 평가가 반드시 병행되어야 합니다. 모델이 생성한 설명문 중에서 현대적인 단어(예: 스마트, 디지털, 플라스틱 등)가 시대에 맞지 않게 사용된 빈도를 추적하는 'Anachronism Rate'를 산출해 보십시오. 실제 테스트 환경에서 어댑터 적용 전후의 이 수치를 비교해 보면, 모델이 사물의 시각적 외형에만 집착하는지 아니면 그 이면의 역사적 맥락까지 이해하기 시작했는지를 명확히 파악할 수 있습니다.

인공지능은 우리가 가르친 데이터의 거울일 뿐입니다. VLM이 진정한 문화유산의 조력자가 되길 원한다면, 우리는 모델에게 현대의 안경을 벗고 과거를 바라보는 법을 가르쳐야 합니다. 기술적 정교함보다 중요한 것은 우리가 보존하고자 하는 역사의 무게를 데이터에 어떻게 녹여낼 것인가에 대한 고민입니다.

참고: arXiv CS.AI

역사적 맥락을 잃어버린 인공지능의 시선

데이터 편향이 만들어낸 시각적 왜곡의 근원

시대적 감각을 주입하는 기술적 처방전

역사적 정확도를 검증하는 새로운 척도

관련 글