검색 랭킹의 병목, 파라미터 증설보다 '범용 도메인' 통합이 시급한 이유

모델 파라미터 수의 확장에만 몰두하는 팀과 데이터의 도메인 간 경계를 허무는 팀의 성과는 임계점에서 극명하게 갈린다. 단순히 더 큰 신경망을 구축하는 것이 성능 향상의 보증수표였던 시절은 지나갔다. 이제는 모델의 크기와 그 모델이 학습하는 데이터의 분포를 어떻게 동기화하느냐가 실질적인 비즈니스 임팩트를 결정짓는 핵심 지표로 부상하고 있다.

모델 중심 스케일링이 지배했던 시대의 논리

과거의 검색 및 추천 시스템 개발자들은 모델의 복잡도를 높이는 데 사활을 걸었다. 트랜스포머 기반 아키텍처가 산업 전반에 확산되면서, 레이어를 쌓고 어텐션 헤드를 늘리는 방식은 가장 예측 가능한 성능 향상 경로였다. 당시 개발자들이 이 방식을 선호했던 이유는 명확하다. 아키텍처의 확장은 하드웨어 성능 향상에 따라 선형적인 이득을 가져다주었으며, 복잡한 데이터 정제 과정보다 모델 구조의 변경이 엔지니어링 측면에서 더 깔끔한 해결책처럼 보였기 때문이다.

실제로 많은 팀이 파라미터 수를 2배로 늘릴 때마다 발생하는 성능 이득에 열광했다. 이는 'Scaling Laws'라는 이름 아래 정당화되었고, 검색 랭킹 모델은 점점 더 무거워졌다. 특정 도메인 내에서는 이러한 방식이 유효했다. 예를 들어, 가전 제품 카테고리 내에서의 검색 정확도를 높이기 위해 해당 카테고리의 클릭 로그만으로 학습된 대형 모델을 투입하는 식이었다. 하지만 이러한 '단일 도메인 최적화'는 머지않아 거대한 벽에 부딪히게 된다.

대규모 시스템에서 드러난 데이터의 역설

모델의 덩치가 커질수록 추론 비용(Inference Cost)은 기하급수적으로 상승하지만, 성능 향상 폭은 점차 둔화되는 현상이 관찰되었다. 사실 산업계 현장에서 마주한 진짜 문제는 모델의 지능 부족이 아니었다. 특정 카테고리에 편향된 데이터, 즉 '데이터 사일로(Data Silo)' 현상이 모델의 범용성을 가로막고 있었던 것이다. 이커머스 환경에서 의류 데이터로만 학습된 모델은 신선식품의 구매 패턴을 이해하지 못하며, 이는 곧 전체 플랫폼 차원에서의 랭킹 효율 저하로 이어졌다.

경험상 가장 뼈아픈 지점은 모델 규모를 키워도 데이터의 질적 한계 때문에 NDCG(Normalized Discounted Cumulative Gain) 같은 핵심 지표가 정체될 때다. 연구에 따르면 산업용 검색 시스템의 성능은 모델 크기뿐만 아니라 학습 데이터의 분포와 질에 의해 강력하게 제약받는다 (출처: arXiv:2603.24226). 파라미터만 늘리는 방식은 결국 '똑똑하지만 경험이 부족한' 모델을 양산하는 꼴이었고, 이는 실제 사용자 경험에서의 괴리를 좁히지 못했다.

범용 도메인 데이터 통합과 조인트 스케일링의 등장

이러한 병목을 해결하기 위해 제시된 새로운 접근법은 모델 파라미터 확장과 범용 도메인 데이터 통합을 '동시에' 수행하는 것이다. 단순히 여러 도메인의 데이터를 섞는 수준을 넘어, 모델이 다양한 도메인 간의 공통적인 사용자 의도를 파악할 수 있도록 학습 구조를 설계하는 것이 핵심이다. 이를 통해 모델은 특정 카테고리에 국한되지 않는 보편적인 검색 패턴을 학습하게 된다.

이 방식의 핵심적인 차별점은 '데이터의 양'이 아니라 '데이터의 다양성'을 모델 규모와 연동시킨다는 점에 있다. 파라미터를 늘릴 때 그에 걸맞은 광범위한 도메인의 데이터를 주입함으로써, 모델이 커진 용량을 낭비하지 않고 더 풍부한 특징(Feature)을 추출하도록 유도한다. 필자가 판단하기에, 이 전략의 가장 큰 승부수는 개별 도메인의 특수성을 유지하면서도 전역적인 패턴을 학습시키는 균형 감각에 있다. 이는 단순히 모델을 키우는 것보다 훨씬 난이도가 높지만, 임계점을 돌파했을 때의 보상은 압도적이다.

마이그레이션 경로와 반드시 고려해야 할 트레이드오프

기존의 단일 도메인 모델에서 범용 도메인 통합 모델로 전환하려는 팀은 몇 가지 기술적 부채를 각오해야 한다. 첫째, 데이터 파이프라인의 복잡도가 수직 상승한다. 서로 다른 스키마를 가진 도메인 데이터를 통합하는 과정에서 데이터 정규화 및 가중치 조절에 상당한 리소스가 투입된다. 둘째, 학습 시간의 증가다. 범용 데이터를 모두 소화하기 위해서는 기존보다 훨씬 긴 트레이닝 시간이 소요되며, 이는 모델 업데이트 주기에 영향을 줄 수 있다.

또한, 특정 도메인에서의 성능이 미세하게 하락하는 '네거티브 트랜스퍼(Negative Transfer)' 현상을 경계해야 한다. 모든 데이터를 통합하는 과정에서 특정 카테고리의 고유한 특성이 희석될 위험이 있기 때문이다. 이를 방지하기 위해서는 도메인별 임베딩 층을 별도로 관리하거나, 혼합 전문가(MoE) 구조를 도입하는 등의 아키텍처적 보완이 필수적이다. 성공적인 마이그레이션을 위해서는 한 번에 모든 데이터를 합치기보다, 유사한 도메인부터 단계적으로 통합하며 지표 변화를 관찰하는 전략이 유효하다.

결국 검색 랭킹의 미래는 모델의 크기가 아니라, 그 모델이 얼마나 넓은 세상의 데이터를 품을 수 있느냐에 달려 있다. 지금 당장 당신의 모델 성능이 정체되어 있다면, 하이퍼파라미터를 튜닝하기 전에 우리가 외면했던 다른 도메인의 데이터 뭉치를 먼저 들여다보길 권한다.

참고: arXiv CS.LG (Machine Learning)

모델 중심 스케일링이 지배했던 시대의 논리

대규모 시스템에서 드러난 데이터의 역설

범용 도메인 데이터 통합과 조인트 스케일링의 등장

마이그레이션 경로와 반드시 고려해야 할 트레이드오프

관련 글