많은 데이터 사이언티스트들이 머신러닝 프로젝트의 성패가 어떤 아키텍처를 선택하느냐에 달려 있다고 믿는다. 트랜스포머 기반 모델이냐, MLP 기반이냐, 아니면 전통적인 트리 기반 모델이냐를 두고 치열하게 고민하지만, 실제 최신 연구 결과들을 들여다보면 결과는 다소 허무하다. 특정 수준 이상의 파라미터와 데이터를 확보한 표 형식 파운데이션 모델(Tabular Foundation Models, TFM)들은 아키텍처의 차이에도 불구하고 정확도 측면에서 거의 동일한 지점으로 수렴하기 때문이다. 즉, 우리가 공들여 선택한 '구조'가 실제 성능 차이를 만드는 핵심 변수가 아닐 수도 있다는 뜻이다.
리더보드 너머의 진실: 성능 수렴의 역설
최근 발표된 메커니즘 연구들에 따르면, 서로 다른 설계를 가진 TFM들이 다양한 분류 및 회귀 태스크에서 오차 범위 내의 정확도를 기록하고 있다. 이는 단순히 성능 지표(Accuracy, F1-score)만으로는 모델의 우열을 가리기 힘든 시대가 왔음을 시사한다. 여기서 중요한 의문이 생긴다. 성능이 같다면, 이 모델들은 내부적으로 동일한 알고리즘을 수행하고 있는 것일까? 아니면 서로 다른 길을 통해 같은 목적지에 도달한 것일까?
성능 수렴 현상은 모델 선택의 기준을 '정확도'에서 '내부 작동 방식'으로 옮기게 만든다. 예를 들어, 어떤 모델은 인컨텍스트(In-context) 학습을 통해 데이터의 통계적 특성을 파악하는 반면, 다른 모델은 데이터 간의 기하학적 관계에 집중할 수 있다. 필자가 직접 확인한 바에 따르면, 대규모 벤치마크에서 상위권을 차지하는 모델들은 데이터의 순서가 바뀌어도 결과가 변하지 않는 '불변성(Invariance)'을 확보하는 방식에서 큰 차이를 보였다.
선택지 분석: GBDT와 파운데이션 모델의 충돌
현재 표 형식 데이터 처리를 위한 선택지는 크게 두 가지로 나뉜다. 전통의 강자인 GBDT(Gradient Boosted Decision Trees) 계열과 새롭게 떠오르는 TFM 계열이다.
첫 번째 옵션인 GBDT(XGBoost 2.0.1 기준)는 여전히 강력한 기준점이다. 메모리 효율성이 극대화되어 대규모 데이터셋에서도 안정적인 학습이 가능하며, 특히 범주형 데이터 처리 속도가 매우 빠르다(출처: XGBoost 2.0 공식 릴리스 노트). 하지만 하이퍼파라미터 튜닝에 상당한 시간이 소요되며, 데이터의 비선형적인 관계를 포착하기 위해 복잡한 피처 엔지니어링이 선행되어야 한다는 단점이 명확하다.
두 번째 옵션인 TFM(TabPFN 0.1.9 등)은 '제로샷' 성능이 강력하다. 별도의 학습 없이도 새로운 데이터에 대해 즉각적인 추론이 가능하며, 1,000개 미만의 적은 샘플에서도 놀라운 정확도를 보여준다(출처: TabPFN 공식 문서 및 벤치마크). 그러나 데이터의 행(row)이나 열(column)의 순서가 바뀌었을 때 결과가 미세하게 요동치는 취약성이 관찰되기도 한다. 이는 모델이 데이터의 본질적인 구조가 아닌, 학습 데이터의 배치 순서에 의존하고 있을 가능성을 시사한다.
상황별 최적의 조합: 팀 규모와 데이터 전략
어떤 모델을 도입할지는 팀의 가용 자원과 데이터의 성격에 따라 명확히 갈린다. 단순히 '데이터가 많으니까 딥러닝'이라는 식의 접근은 위험하다.
- 소규모 팀 및 빠른 프로토타이핑: 데이터셋이 5,000행 미만이고 피처 엔지니어링에 쏟을 시간이 부족하다면 TabPFN 같은 TFM이 압도적으로 유리하다. 튜닝 없이도 평균 이상의 성능을 즉시 내주기 때문이다.
- 대규모 서비스 및 비용 최적화: 데이터가 수백만 건 이상이고 추론 비용(Inference Cost)이 중요하다면 여전히 XGBoost나 LightGBM이 정답이다. TFM은 추론 시 메모리 점유율이 데이터 크기에 비례해 급격히 상승하는 경향이 있어, 대규모 실시간 서비스에 적용하기에는 가성비가 떨어진다.
- 연구 및 고도화 단계: 모델의 해석 가능성(Interpretability)이 중요하다면, 아키텍처가 단순한 MLP 기반의 TFM을 선택하는 것이 유리하다. 트랜스포머 기반 모델은 내부 어텐션 맵을 분석하는 데 더 많은 비용이 들기 때문이다.
최종 판결: 구조보다 '불변성'에 주목하라
필자가 내린 결론은 명확하다. 이제는 모델의 이름이나 아키텍처 레이어의 개수에 매몰될 때가 아니다. 우리가 주목해야 할 진짜 차별점은 모델이 '데이터의 순환과 변형에 얼마나 견고한가(Invariance Robustness)'에 있다. 리더보드 상위권 모델들이 비슷한 점수를 내더라도, 실제 운영 환경에서 데이터 노이즈나 순서 변경에 따라 성능이 급격히 하락한다면 그 모델은 가치가 없다.
따라서 기술 스택을 결정할 때 정확도 수치만 보지 말고, 데이터 셔플링(Data Shuffling) 테스트를 반드시 병행할 것을 권장한다. 행과 열의 순서를 10회 이상 무작위로 섞었을 때 예측값의 표준편차가 0.01 이상 벌어지는 모델은 실전에서 배제해야 한다. 결국 표 형식 데이터 AI의 승자는 가장 복잡한 구조를 가진 모델이 아니라, 데이터의 본질적인 질서를 가장 정교하게 학습한 모델이 될 것이다.
지금 당장 여러분이 운영 중인 모델에 데이터 셔플링 테스트를 수행해 보라. 리더보드 점수 뒤에 숨겨진 모델의 진짜 실력이 드러날 것이다.
참고: arXiv CS.LG (Machine Learning)