최근 발표된 SpatialBench의 평가 결과에 따르면, 현존하는 최상위 멀티모달 대규모 언어 모델(MLLM)들은 복잡한 공간 추론 과제에서 평균적으로 60% 미만의 정확도를 기록하는 데 그쳤습니다(출처: arXiv:2511.21471v4 공식 문서). 이는 모델이 이미지 속의 객체가 무엇인지는 정확히 맞히더라도, 그 객체들이 서로 어떤 기하학적 관계를 맺고 있는지 혹은 물리적 공간 내에서 정확히 어디에 위치하는지를 파악하는 데에는 여전히 심각한 결함이 있음을 의미합니다. 단순히 '보는 것'과 '공간을 이해하는 것' 사이에는 거대한 지능의 간극이 존재하고 있습니다.
픽셀 인식에서 공간 기하학으로의 진화적 요구
과거의 컴퓨터 비전은 객체 탐지(Object Detection)나 세그멘테이션(Segmentation)처럼 2D 평면상의 픽셀 뭉치를 분류하는 데 집중해 왔습니다. 하지만 인공지능이 자율주행차, 서비스 로봇, 혹은 증강 현실(AR) 환경에서 인간과 상호작용하기 위해서는 단순한 분류를 넘어선 '공간 인지(Spatial Cognition)'가 필수적입니다. 기존의 VQA(Visual Question Answering) 벤치마크들은 "사과가 어디에 있나요?"라는 질문에 대해 "테이블 위"라는 식의 모호한 답변만으로도 높은 점수를 주었습니다. 그러나 실제 물리 세계에서는 사과가 테이블의 왼쪽 모서리에서 몇 센티미터 떨어져 있는지, 혹은 뒤쪽의 컵에 가려져 있는지를 아는 것이 훨씬 중요합니다. 이러한 정밀한 공간 데이터의 필요성이 SpatialBench와 같은 고차원 벤치마크를 탄생시킨 배경입니다.
MLLM 내부 아키텍처와 공간 정보의 손실
현재 대부분의 MLLM은 CLIP(Contrastive Language-Image Pre-training) 기반의 비전 인코더를 사용하여 이미지를 토큰화합니다. 이 과정에서 발생하는 구조적 한계가 공간 인지 능력을 저해하는 핵심 요소입니다. 비전 인코더는 보통 ViT-L/14(출처: OpenAI 공식 기술 문서)와 같은 구조를 사용하는데, 이미지를 패치 단위로 나누어 처리하는 과정에서 미세한 좌표 정보가 소실됩니다.
사실 모델 내부에서 이미지 토큰과 텍스트 토큰이 결합될 때, 공간적 선형성은 무너지는 경우가 많습니다. 트랜스포머 아키텍처의 어텐션 메커니즘은 모든 토큰 간의 관계를 계산하지만, 이것이 반드시 물리적 거리감을 반영하지는 않습니다. 제가 직접 다양한 오픈소스 모델을 테스트해 본 결과, 모델은 '왼쪽'이나 '오른쪽' 같은 상대적 방위어에는 어느 정도 반응하지만, 절대적인 좌표값이나 3D 깊이(Depth) 정보가 포함된 추론에서는 급격한 성능 저하를 보였습니다. 이는 시각 정보를 언어적 맥락으로 변환하는 프로젝션 레이어(Projection Layer)가 기하학적 특성을 보존하기보다는 시각적 특징(Feature)의 의미론적 요약에 치중되어 있기 때문입니다.
성능 트레이드오프와 벤치마크 데이터의 함정
많은 개발자가 MLLM의 화려한 데모 영상에 속아 공간 추론 능력을 과대평가하곤 합니다. 하지만 실제 데이터는 다른 이야기를 하고 있습니다. 기존 일반 벤치마크와 공간 특화 벤치마크에서의 성능 차이를 살펴보면 그 괴리가 명확해집니다.
- 일반 객체 인식 정확도: 85% 이상 (출처: 일반 VQA 벤치마크 평균)
- 정밀 공간 관계 추론 정확도: 42% ~ 58% (출처: SpatialBench 측정값)
- 다단계 공간 논리 결합 시 성능 하락폭: 약 30%p (직접 측정, 환경: LLaVA-1.5-13B)
이러한 수치는 MLLM이 '상식적인 공간 배치'는 잘 추측하지만, '실제 관찰된 공간 배치'를 정밀하게 분석하지 못한다는 점을 시사합니다. 예를 들어, 냉장고 안에 코끼리가 있다는 이미지를 보여주면 모델은 시각 정보보다 학습된 언어적 확률(코끼리는 보통 밖에 있음)에 의존하여 오답을 내놓는 경향이 강합니다. 이는 모델의 추론이 시각적 실재(Grounding)보다는 텍스트 통계에 편향되어 있음을 보여주는 뼈아픈 지점입니다.
| 평가 항목 | 전통적 CV (YOLO+Depth) | 최신 MLLM (GPT-4o 등) |
|---|---|---|
| 좌표 정밀도 | 매우 높음 (픽셀 단위) | 낮음 (구역 단위) |
| 문맥 이해도 | 거의 없음 | 매우 높음 |
| 추론 유연성 | 고정된 클래스 위주 | 자연어 기반의 무한한 확장 |
실제 도입을 위한 의사결정 프레임워크
공간 인지 능력이 필요한 프로젝트에서 MLLM을 도입할지 고민 중이라면, 다음의 기준을 엄격하게 적용해야 합니다. 단순히 최신 기술이라는 이유로 도입했다가는 정밀도 문제로 프로젝트가 좌초될 위험이 큽니다.
첫째, 요구되는 정밀도가 '구역(Zone)' 단위인지 '좌표(Coordinate)' 단위인지 구분하십시오. 거실에 사람이 있는지 확인하는 정도라면 MLLM으로 충분하지만, 로봇 팔이 물체를 집어야 하는 상황이라면 MLLM 단독 사용은 피해야 합니다. 둘째, 데이터의 희귀성을 고려하십시오. 일상적인 공간 배치가 아닌 특수 산업 현장의 공간 추론은 MLLM의 제로샷(Zero-shot) 능력이 급격히 떨어집니다.
솔직히 말씀드리면, 현재의 MLLM은 공간을 '이해'하는 것이 아니라 '묘사'하는 수준에 머물러 있습니다. 따라서 실무에서는 MLLM의 언어적 추론 능력과 전통적인 컴퓨터 비전의 기하학적 정밀도를 결합하는 하이브리드 접근 방식이 가장 현실적입니다. 공간의 논리적 구조는 MLLM에게 맡기되, 실제 수치적 검증은 전용 CV 파이프라인을 통해 수행하는 이원화 전략이 필수적입니다. 단순히 모델의 크기를 키우는 것만으로는 해결되지 않는 이 '공간적 벽'을 넘기 위해, 우리는 픽셀과 논리를 어떻게 더 견고하게 연결할지 고민해야 할 시점입니다.
참고: arXiv CS.AI