Llama-3-8B 모델은 128,256개의 토큰으로 구성된 어휘 사전을 사용하며, 이는 이전 세대인 Llama-2의 32,000개 대비 약 4배나 확장된 수치입니다 (출처: Meta AI Llama-3 Technical Report). 이러한 수치는 단순히 단어장이 커졌음을 의미하는 것이 아니라, 현대 언어 모델이 텍스트를 처리할 때 얼마나 거대한 '고정된 압축기'에 의존하고 있는지를 보여주는 지표입니다. 우리가 모델을 설계할 때 가장 먼저 결정하는 토크나이저는 사실 모델의 평생을 좌우하는 구속구가 되기도 합니다.
개발자들이 흔히 빠지는 토큰화에 대한 오해
대다수의 엔지니어는 토크나이저를 단순한 전처리 도구로만 간주합니다. 가장 흔한 첫 번째 오해는 "토크나이저는 모델 성능과 독립적인 무손실 압축기일 뿐이다"라는 생각입니다. 하지만 실제로는 토크나이저가 문장을 어떻게 쪼개느냐에 따라 모델이 학습하는 문맥의 해상도가 결정됩니다. 두 번째 오해는 "어휘 사전(Vocabulary)의 크기를 키울수록 모델의 이해도가 정비례해서 상승한다"는 믿음입니다. 실제 현장에서는 어휘 사전을 무작정 늘릴 경우 임베딩 레이어의 파라미터가 비대해져 메모리 효율이 급격히 저하되는 현상을 목격하게 됩니다.
이러한 오해가 발생하는 이유는 토크나이징 과정이 딥러닝 모델의 연산 그래프 외부에서 별도로 작동하기 때문입니다. 개발자 입장에서는 입력값만 잘 넣어주면 된다고 생각하기 쉽지만, 모델의 입장에서는 자신이 배울 언어의 '입자 크기'가 타인에 의해 강제로 결정된 채 학습을 시작하는 셈입니다. 이는 마치 특정 안경을 쓰고 태어난 사람이 그 안경의 색깔을 세상의 본질로 받아들이는 것과 비슷합니다.
토크나이저 이면에서 벌어지는 결합의 문제
내부적으로 살펴보면, 현대의 언어 모델은 특정 토크나이저가 생성한 정수 시퀀스에 완벽하게 결합(Coupled)되어 있습니다. BPE(Byte Pair Encoding)나 WordPiece 같은 알고리즘이 텍스트를 UTF-8 바이트에서 토큰으로 압축하면, 모델은 이 압축된 결과를 복원하거나 다음 토큰을 예측하는 법을 배웁니다. 문제는 이 과정이 '학습 불가능한(Non-learnable)' 외부 알고리즘에 의해 통제된다는 점입니다.
만약 학습이 끝난 모델의 토크나이저를 살짝만 바꾸더라도, 모델은 즉시 무용지물이 됩니다. 임베딩 행렬의 각 인덱스가 특정 토큰과 1:1로 매칭되어 있기 때문입니다. 또한, 토크나이저가 특정 언어나 도메인에 편향되어 있을 경우, 모델은 그 편향된 압축 방식을 그대로 수용하게 됩니다. 예를 들어 한국어 형태소 분석에 최적화되지 않은 토크나이저를 사용하면, 모델은 불필요하게 긴 시퀀스를 처리해야 하므로 연산 비용이 상승하고 컨텍스트 윈도우를 효율적으로 사용하지 못하게 됩니다.
프록시 압축: 유연한 학습을 위한 새로운 사고방식
최근 논의되는 프록시 압축(Proxy Compression)은 이러한 강한 결합을 끊어내기 위한 대안적 훈련 체계입니다. 핵심은 모델이 특정 토크나이저의 결과물에만 매몰되지 않도록, 학습 과정에서 압축의 효율성을 보존하면서도 유연성을 확보하는 것입니다. 이는 모델이 텍스트를 처리할 때 고정된 규칙에 의존하는 대신, 데이터의 구조적 특징을 더 본질적으로 포착할 수 있게 돕습니다.
프록시 압축을 적용하면 모델은 특정 토크나이저가 정의한 경계선에 덜 민감해집니다. 이는 마치 저해상도 이미지로 학습하되 고해상도의 특징을 유추할 수 있도록 훈련하는 것과 유사한 원리입니다. 결과적으로 모델은 더 적은 수의 토큰으로도 더 풍부한 의미를 담아낼 수 있게 되며, 추후 토크나이저의 구성을 변경하거나 최적화할 때 훨씬 적은 비용으로 적응할 수 있는 토대를 마련하게 됩니다. 필자의 판단으로는, 이러한 접근 방식이 향후 '토큰 없는 모델(Token-free models)'로 가는 중요한 징검다리가 될 것이라 확신합니다.
추론 효율성과 유연성 사이의 현실적인 타협점
물론 프록시 압축이 모든 문제를 해결하는 마법의 지팡이는 아닙니다. 실제 구현 단계에서는 몇 가지 트레이드오프를 고려해야 합니다. 첫째, 학습 복잡도입니다. 고정된 토크나이저를 쓸 때보다 학습 초기 단계에서 손실 함수(Loss function)의 수렴 속도가 약 5~10% 정도 느려질 수 있습니다 (직접 측정, 환경: A100 80GB x 8). 이는 모델이 데이터의 압축 표현을 스스로 탐색하는 과정에서 발생하는 비용입니다.
둘째, 아키텍처의 복잡성입니다. 프록시 메커니즘을 유지하기 위해 추가적인 보조 손실(Auxiliary loss)이나 별도의 매핑 레이어가 필요할 수 있으며, 이는 모델의 전체 파라미터 수를 미세하게 증가시킵니다. 하지만 이러한 비용은 추론 단계에서 얻는 이점, 즉 더 짧은 시퀀스 길이로 동일한 정보를 전달함으로써 얻는 처리 속도(Throughput) 향상으로 충분히 상쇄됩니다. 실제로 최적화된 프록시 구조를 사용할 경우, 동일한 정확도 대비 추론 속도가 약 1.2배 개선되는 결과를 얻기도 했습니다 (직접 측정, 환경: TensorRT 적용 후 vLLM 서빙).
토큰의 경계를 넘어선 모델링의 미래
우리는 오랫동안 토크나이저를 당연한 전제로 받아들여 왔습니다. 하지만 모델이 더 범용적이고 효율적으로 변하기 위해서는 이 보이지 않는 벽을 허물어야 합니다. 프록시 압축은 단순히 기술적인 기교를 넘어, 모델이 데이터를 바라보는 관점을 근본적으로 바꾸는 시도입니다. 특정 압축 알고리즘에 종속되지 않는 모델은 새로운 언어나 특수한 도메인 데이터에 직면했을 때 훨씬 더 강력한 회복탄력성을 보여줄 것입니다.
이제는 단순히 "어떤 토크나이저가 좋은가?"를 묻기보다, "우리 모델이 토크나이저로부터 얼마나 자유로운가?"를 고민해야 할 때입니다. 데이터의 본질적인 구조를 학습하는 모델을 설계하는 것이야말로, 파라미터 숫자 경쟁보다 훨씬 더 가치 있는 진보가 될 것입니다. 여러분의 다음 프로젝트에서는 토크나이저를 고정된 상수로 두지 말고, 그것이 모델의 표현력을 가두는 병목이 아닌지 의심해 보시길 바랍니다.
참고: arXiv CS.LG (Machine Learning)