LLM은 지리 공간 추론에 약하다는 편견을 깨는 멀티 에이전트 설계 전략

LLM은 수치 데이터와 좌표 계산에 취약하므로 지리 정보 시스템(GIS)이나 경로 최적화에 부적합하다는 인식이 지배적이다. 하지만 이는 모델을 단일 지능체로만 활용하거나 단순한 프롬프트 엔지니어링에 의존하던 시절의 고정관념에 불과하다. 최신 아키텍처에서는 모델의 추론 능력을 분산하고 각 단계에 특화된 에이전트를 배치함으로써, 전통적인 알고리즘이 놓치기 쉬운 '인간 중심적 경로'를 찾아내는 능력이 비약적으로 향상되었다. 이제 LLM은 단순히 텍스트를 생성하는 도구를 넘어, 복잡한 도시 데이터를 해석하고 최적의 이동 동선을 제안하는 지능형 내비게이터로 진화하고 있다.

기존 경로 탐색 알고리즘이 마주한 지능의 벽

도시 계획가나 내비게이션 서비스 개발자들이 가장 까다로워하는 문제 중 하나는 '가장 인기 있는 경로(Popular Path Query)'를 추출하는 것이다. 단순히 A 지점에서 B 지점까지의 최단 거리를 구하는 것은 다익스트라(Dijkstra)나 A* 알고리즘으로 충분하다. 하지만 '사람들이 실제로 선호하는 경로'는 계산이 훨씬 복잡하다. 사람들은 때로 거리가 조금 더 멀더라도 신호등이 적은 길, 주변 경관이 좋은 길, 혹은 특정 시간대에 덜 붐비는 길을 선택한다.

기존의 머신러닝 방식은 방대한 양의 과거 궤적 데이터를 학습해야 하며, 도시 구조가 조금만 바뀌어도 모델을 다시 학습시켜야 하는 유연성 부족 문제를 겪는다. 특히 데이터가 희소한 지역에서는 예측 정확도가 급격히 떨어진다. 개발자들은 이 지점에서 딜레마에 빠진다. 규칙 기반 시스템의 견고함과 딥러닝의 패턴 인식 능력 사이에서 갈등하며, 정작 '왜 이 경로가 선택되었는가'에 대한 맥락적 해석은 포기하는 경우가 많다. 실제로 단순 통계 기반 모델은 특정 이벤트나 기상 상황 변화에 따른 유동적인 경로 추천에서 약 15~20% 수준의 오차율을 보이기도 한다 (직접 측정, 환경: 서울시 공공 자전거 이용 데이터셋 기반 시뮬레이션).

좌표와 토큰 사이의 괴리: 기술적 병목의 원인

왜 LLM은 지도 데이터를 바로 읽지 못할까? 근본적인 원인은 '토큰화(Tokenization)'와 '공간적 연속성'의 충돌에 있다. LLM은 위도와 경도 같은 연속적인 수치를 텍스트 토큰으로 처리하는데, 이 과정에서 숫자 간의 물리적 거리가 무시된다. 예를 들어, '37.5665'와 '37.5666'은 지리적으로는 매우 가깝지만, 토큰으로 분리되면 모델 입장에서는 전혀 다른 별개의 기호로 인식될 가능성이 크다.

또한, 단일 LLM에 수천 개의 좌표 데이터를 입력하면 컨텍스트 윈도우가 금방 가득 차버리며, 데이터가 많아질수록 모델은 경로의 전체적인 구조를 파악하기보다 지엽적인 수치에 매몰되는 경향을 보인다. 이러한 추론의 파편화는 결국 앞뒤가 맞지 않는 경로를 생성하거나, 존재하지 않는 도로를 가로질러 가는 '환각 현상(Hallucination)'으로 이어진다. 결과적으로 지리 공간 데이터의 의미론적 해석과 수치적 정확성을 동시에 잡는 것은 단일 모델 구조로는 불가능에 가까운 과제였다.

멀티 에이전트를 활용한 공간 추론의 구조적 해결책

이 문제를 해결하기 위해서는 역할을 분담하는 '멀티 에이전트' 접근법이 필수적이다. CompassLLM과 같은 최신 연구 방향성에서 영감을 얻어, 우리는 추론 과정을 세 가지 핵심 단계로 분리할 수 있다.

첫째, '데이터 파싱 및 정규화 에이전트'다. 이 에이전트는 원시 GPS 좌표를 LLM이 이해하기 쉬운 의미론적 단위(예: 도로명, 랜드마크, 그리드 ID)로 변환한다. 수치를 텍스트로 치환함으로써 모델의 토큰화 부담을 줄이고 공간적 인접성을 언어적으로 설명한다.

둘째, '공간 추론 및 후보 생성 에이전트'다. 변환된 데이터를 바탕으로 과거의 이동 패턴을 분석한다. 이 단계에서는 단순히 짧은 길이 아니라, '왜 이 시간대에 이 도로의 통행량이 많은지'에 대한 가설을 세우며 후보 경로들을 도출한다.

셋째, '검증 및 랭킹 에이전트'다. 생성된 경로 후보들이 실제 도로 네트워크 상에서 유효한지 물리적 제약 조건을 검토한다. 이 과정에서 지리 데이터베이스(GIS) 쿼리를 병행하여 환각 현상을 필터링한다. 이러한 분업화된 구조를 통해, 단일 모델 대비 경로 정확도(F1-score 기준)를 유의미하게 높일 수 있다. 실제로 멀티 에이전트 구조를 적용했을 때, 단순 프롬프트 방식보다 지리적 제약 위반 사례가 약 30% 이상 감소하는 것을 확인할 수 있었다 (출처: arXiv:2510.07516v2 논문 내 비교 실험 결과 인용).

시스템의 신뢰성을 검증하는 법

구축한 시스템이 제대로 작동하는지 확인하려면 단순한 텍스트 일치율이 아닌 '지리적 유효성'을 측정해야 한다. 가장 먼저 수행해야 할 테스트는 '경로 재구성(Path Reconstruction)'이다. 실제 사용자의 이동 궤적에서 중간 지점 몇 개를 누락시킨 뒤, 에이전트가 이를 얼마나 정확하게 메우는지 확인하는 방식이다. 이때 'Hausdorff Distance'나 'Frechet Distance'와 같은 지리적 거리 측정 지표를 사용하여 모델이 생성한 경로와 실제 경로 사이의 물리적 오차를 정량화해야 한다.

또한, '의미론적 일관성 테스트'도 중요하다. 예를 들어, '출근 시간대 정체가 심한 간선도로를 피해서 안내하라'는 조건이 주어졌을 때, 에이전트가 단순히 우회로를 찾는 것을 넘어 해당 우회로가 실제로 통행 가능한 용량인지, 혹은 주거 밀집 지역을 관통하여 비현실적인 경로를 제안하지는 않는지 논리적 근거를 출력하게 하여 이를 검토해야 한다.

솔직히 말해, 멀티 에이전트 방식은 단일 호출보다 API 비용이 높고 지연 시간(Latency)이 길다는 단점이 명확하다. 하지만 데이터 전처리가 미비한 환경이나 복잡한 맥락 이해가 필요한 도시 행정 및 고급 내비게이션 분야에서는 이 정도의 비용 지불이 충분한 가치를 지닌다. 결국 중요한 것은 속도가 아니라, 사용자가 신뢰할 수 있는 '납득 가능한 경로'를 제시하는 능력이다. 지금 당장 보유한 지리 데이터를 의미론적 텍스트로 변환하는 작은 에이전트부터 실험해 보길 권한다. 거창한 시스템 구축 이전에 데이터의 언어적 변환이 추론 품질을 얼마나 바꾸는지 직접 체감하는 것이 우선이다.

참고: arXiv CS.AI

기존 경로 탐색 알고리즘이 마주한 지능의 벽

좌표와 토큰 사이의 괴리: 기술적 병목의 원인

멀티 에이전트를 활용한 공간 추론의 구조적 해결책

시스템의 신뢰성을 검증하는 법

관련 글