LLM이 생성하는 문장이 갈수록 산으로 가는데, 그렇다고 Temperature를 낮추면 인공지능 특유의 딱딱한 말투만 반복되어 고민이 깊어졌다면 이제는 단순 확률 기반의 샘플링 방식을 의심해 볼 때입니다. 창의성과 논리성이라는 두 마리 토끼를 잡기 위해 우리는 그동안 Top-p나 Top-k 같은 파라미터를 수없이 조정해 왔습니다. 하지만 이 수치들을 아무리 만져봐도 특정 지점에서 발생하는 문맥 붕괴 현상은 해결되지 않았을 것입니다. 이는 우리가 사용해 온 도구들이 단어의 '확률'만 볼 뿐, 단어 사이의 '의미적 거리'는 완전히 무시하고 있었기 때문입니다.
확률의 함정에 빠졌던 기존의 샘플링 방식들
그동안 우리는 GPT-2 시절부터 이어져 온 Top-k나 2019년 등장한 Nucleus Sampling(Top-p)에 전적으로 의존해 왔습니다. 당시 이 방식들은 획기적이었습니다. 단순히 가장 확률이 높은 단어만 고르는 Greedy 방식의 단조로움을 피하면서도, 확률이 너무 낮은 '말도 안 되는 단어'들을 효과적으로 쳐낼 수 있었기 때문입니다. 개발자들은 이 방식이 합리적이라고 믿었습니다. 확률 분포의 상위권에 있는 단어들이라면 당연히 문맥상 적절할 것이라는 가정이 깔려 있었습니다.
하지만 대규모 언어 모델의 파라미터가 커지고 토큰 공간이 복잡해지면서 이 가정에 균열이 생기기 시작했습니다. 확률 분포상으로는 아주 근소한 차이로 상위에 랭크된 두 단어가, 실제 의미론적 공간(Embedding Space)에서는 완전히 정반대의 방향을 가리키는 경우가 허다했기 때문입니다. 기존 방식은 단어의 인덱스와 확률값만 계산할 뿐, 각 토큰이 가진 벡터 공간에서의 위치를 고려하지 않는 '기하학적 맹목성'을 가지고 있었습니다.
대규모 모델에서 드러난 휴리스틱의 한계
모델의 규모가 커질수록 확률 분포는 더욱 뾰족해지거나(Sharp), 혹은 반대로 모호한 평원(Flat)을 형성하기도 합니다. 이때 Top-p 방식을 사용하면 특정 확률 임계값 내에 포함된 단어들이 서로 논리적으로 전혀 연결되지 않음에도 불구하고 무차별적으로 선택 후보군에 오르게 됩니다. 예를 들어 '고양이' 다음에 올 단어로 '사료'와 '철학'이 비슷한 확률을 가졌다고 가정해 봅시다. 기존 샘플링은 이 두 단어를 동등한 후보로 취급합니다. 결과적으로 모델은 문장의 중간에 갑자기 생뚱맞은 개념을 끼워 넣게 되고, 우리는 이를 '환각(Hallucination)'이나 '논리적 비약'이라고 부르며 고통받았습니다.
실제로 확률 질량(Probability Mass)과 엔트로피에만 의존하는 방식은 텍스트의 다양성은 높여줄지언정, 그 다양성이 '논리적 일관성' 내에서 발현되도록 강제하지 못합니다. 벤치마크 결과에 따르면, 기존의 Nucleus Sampling은 문장이 길어질수록 의미적 일관성이 급격히 하락하는 경향을 보였습니다(출처: arXiv:2602.10346). 이는 단순히 확률이 높다고 해서 그 단어가 정답은 아니라는 사실을 방증합니다.
의미론적 기하학을 활용한 Top-W의 등장
이러한 문제를 해결하기 위해 제시된 것이 바로 Wasserstein 거리를 활용한 기하학적 인식 디코딩, 즉 Top-W 방식입니다. 이 접근법의 핵심은 토큰을 단순한 숫자가 아닌, 벡터 공간상의 점으로 보는 것입니다. Top-W는 단순히 확률이 높은 순서대로 단어를 자르는 것이 아니라, 선택된 단어들이 전체적인 의미의 흐름(Semantic Geometry)에서 얼마나 벗어나 있는지를 계산합니다.
여기서 사용되는 Wasserstein distance는 소위 '최적 운송 거리'로 불리는데, 한 확률 분포를 다른 분포로 옮기기 위해 필요한 최소한의 비용을 측정합니다. Top-W는 이 개념을 도입해 확률 질량에 '거리 페널티'를 부여합니다. 즉, 확률은 높더라도 기존 문맥의 의미적 중심점에서 너무 멀리 떨어진 토큰은 과감하게 탈락시키거나 확률을 깎아버리는 방식입니다. 이를 통해 모델은 창의적인 단어를 선택하면서도, 그 단어가 최소한 문맥의 기하학적 범주 안에 머물도록 보장받습니다. 연구 데이터에 따르면, Top-W는 MAUVE 점수(텍스트 품질 지표)에서 기존 방식 대비 유의미한 성능 향상을 보여주었습니다(출처: arXiv:2602.10346).
실전 적용을 위한 마이그레이션과 주의점
기존의 top_p나 temperature 파라미터 기반 환경에서 Top-W로 전환하는 것은 단순한 수치 변경 이상의 작업이 필요합니다. 가장 먼저 고려해야 할 것은 연산 비용입니다. 확률값만 정렬하면 되는 기존 방식과 달리, Top-W는 토큰 간의 거리를 계산하는 과정이 추가됩니다. 이는 추론 속도(Latency)에 영향을 줄 수 있습니다. 직접 체감해 본 결과, 실시간 채팅 서비스에 바로 적용하기에는 약간의 최적화가 필요할 정도로 연산 부하가 느껴졌습니다.
또한, 모든 모델에 동일한 페널티 계수를 적용할 수 없다는 점도 주의해야 합니다. 모델마다 사용하는 임베딩 공간의 차원이 다르고, 그 기하학적 특성이 제각각이기 때문입니다. 따라서 마이그레이션 시에는 다음과 같은 단계를 권장합니다.
- 기존의 Top-p 값을 유지한 상태에서 Wasserstein 페널티를 아주 약하게(0.1 이하) 설정하여 시작하십시오.
- 도메인 특화 데이터(예: 법률, 의료)에서는 기하학적 제약을 강하게 걸어 논리성을 확보하고, 창의적 글쓰기에서는 제약을 풀어주는 동적 설정이 필요합니다.
- 임베딩 레이어의 출력을 직접 참조해야 하므로, API 기반 서비스보다는 자체 호스팅 모델(vLLM, Hugging Face Transformers 등) 환경에서 구현이 수월합니다.
솔직히 말씀드리면, 확률만 따지던 시대는 이제 저물고 있다고 생각합니다. 기하학적 구조를 이해하지 못하는 디코딩은 결국 '통계적 앵무새'의 한계를 벗어날 수 없습니다. 단순히 다음 단어를 맞추는 게임이 아니라, 의미의 지도를 그리는 과정으로 디코딩을 바라봐야 합니다. 지금 당장 여러분의 프로젝트에서 가장 논리적 비약이 심한 구간을 찾아 Top-W의 개념을 대입해 보십시오. 단어들이 제자리를 찾아가는 놀라운 변화를 경험하게 될 것입니다.
참고: arXiv CS.LG (Machine Learning)