고차원 데이터의 기하학적 함정: 확산 모델이 제안하는 새로운 반사실적 추론

대부분의 데이터 과학자들은 고차원 데이터에서 발생하는 노이즈를 해결하기 위해 '충분한 스무딩(Smoothing)'만 수행하면 일반화 성능이 확보될 것이라고 믿는다. 데이터가 복잡할수록 가우시안 커널 같은 등방성(Isotropic) 필터를 넓게 적용해 뾰족한 변동성을 깎아내는 것이 정석처럼 여겨졌다. 하지만 실제 고차원 반사실적(Counterfactual) 분석 현장에서 이 방식은 치명적인 독이 된다. 모든 방향으로 동일하게 노이즈를 섞는 행위는 데이터가 실제로 존재하는 저차원 매니폴드(Manifold)의 구조를 뭉개버리기 때문이다. 결국 우리가 얻는 '만약 ~했다면'의 결과값은 현실에 존재할 수 없는 기괴한 평균값으로 수렴하게 된다.

차원의 저주를 넘어선 기하학적 관점의 탄생

전통적인 인과 추론과 반사실적 학습은 주로 평균적인 처치 효과(ATE)를 구하는 데 집중해왔다. 그러나 정밀 의료나 고차원 이미지 합성, 금융 시뮬레이션처럼 결과값 자체가 수백, 수천 차원에 달하는 영역에서는 단순한 평균값만으로 부족하다. 우리는 결과의 '분포' 전체가 어떻게 변하는지 알아야 한다. 초기 연구들은 이를 위해 커널 밀도 추정(KDE)이나 단순한 회귀 모델을 사용했다.

문제는 데이터의 차원이 높아질수록 관측치가 존재하는 영역보다 비어 있는 '주변 공간(Ambient Space)'이 기하급수적으로 넓어진다는 점이다. 기존의 등방성 스무딩 기법은 데이터가 없는 허공에도 동일한 가중치를 부여하며 정보를 퍼뜨린다. 이 과정에서 국소적인 인과 관계의 신호가 희석되는 현상이 발생한다. 연구자들은 데이터가 실제로 밀집된 저차원 곡면, 즉 기하학적 구조(Geometry)를 따라가며 정보를 매끄럽게 연결할 방법이 필요했고, 이것이 바로 기하학 적응형 반사실 학습이 등장한 배경이다.

확산 모델이 스무딩의 방향을 결정하는 원리

최근 제안된 기술의 핵심은 확산 모델(Diffusion Model)을 스무딩의 '가이드'로 사용하는 것이다. 일반적인 스무딩이 안개처럼 사방으로 퍼진다면, 확산 가이드 방식은 마치 산맥의 능선을 따라 흐르는 물줄기와 같다. 내부 메커니즘을 뜯어보면 스코어 함수(Score Function)의 역할이 결정적이다.

스코어 함수는 데이터 밀도가 높아지는 방향을 가리키는 벡터 필드다. 확산 가이드 에스티메이터는 이 스코어를 활용해 데이터가 존재할 확률이 높은 방향으로는 스무딩을 강하게 적용하고, 데이터가 존재하지 않는 수직 방향으로는 스무딩을 억제한다. 결과적으로 반사실적 분포를 추정할 때, 관측되지 않은 가상의 시나리오에서도 데이터가 가진 본연의 기하학적 특성을 유지할 수 있게 된다. 이는 고차원 공간에서 국소적 추론(Local Inference)의 안정성을 비약적으로 높이는 결과를 가져온다. 필자가 직접 관찰한 바에 따르면, 이러한 적응형 방식은 데이터의 곡률이 급격히 변하는 경계 영역에서 예측 오차를 줄이는 데 탁월한 성능을 발휘한다.

등방성 스무딩 vs 기하학 적응형 스무딩

두 방식의 차이는 데이터의 복잡도가 올라갈수록 극명하게 갈린다. 기존의 표준 등방성 스무딩은 계산이 빠르고 구현이 간단하지만, 차원이 늘어날수록 유효 샘플 크기가 급격히 줄어드는 'Scaling' 문제에 봉착한다. 반면 확산 가이드 방식은 추가적인 연산 비용이 발생함에도 불구하고 고차원에서의 추정 안정성이 압도적이다.

추정 안정성(Variance): 등방성 방식은 주변 공간의 노이즈를 포함하므로 차원이 증가함에 따라 분산이 기하급수적으로 증가할 위험이 크다. 반면 기하학 적응형 방식은 데이터 매니폴드 내로 연산을 제한하여 분산을 억제한다.
편향(Bias): 등방성 방식은 매니폴드의 곡률을 무시하고 직선적으로 스무딩을 하므로 실제 데이터 분포와 괴리가 생기는 '기하학적 편향'이 발생한다. 확산 가이드 모델은 데이터의 곡률을 학습하므로 이러한 편향에서 자유롭다.

실제로 고차원 데이터셋을 대상으로 한 실험적 지표들을 살펴보면, 데이터의 내재 차원(Intrinsic Dimension)이 주변 공간 차원보다 현저히 낮을 때 확산 가이드 방식의 평균 제곱 오차(MSE) 개선 효과가 뚜렷하게 나타난다. 다만, 확산 모델 자체를 학습시켜야 하므로 초기 연산 자원 투입량이 기존 방식 대비 높다는 점은 명확한 단점이다.

실전 도입을 위한 의사결정 프레임워크

이 기술을 언제 도입해야 할까? 단순히 데이터가 많다고 해서 확산 가이드 스무딩이 정답은 아니다. 필자의 판단으로는 다음의 기준을 검토하는 것이 효율적이다. 먼저, 분석하고자 하는 결과값(Outcome)의 차원이 50차원 이상이며, 변수 간의 비선형적 상관관계가 강력할 때 이 모델은 비로소 제값을 한다. 이미지 데이터나 유전자 발현 패턴처럼 데이터가 특정 '패턴' 내에 갇혀 있는 경우가 이에 해당한다.

반대로 데이터의 차원이 낮거나(예: 10차원 미만), 모든 변수가 독립적으로 분포하여 기하학적 구조라고 부를만한 것이 없을 때는 굳이 무거운 확산 모델을 쓸 필요가 없다. 이때는 전통적인 커널 방식이나 가우시안 프로세스가 훨씬 경제적이다. 또한, 실시간 응답이 중요한 서비스 환경이라면 확산 가이드의 추론 속도가 병목이 될 수 있음을 인지해야 한다.

결국 데이터의 차원이 높아질수록 우리는 '얼마나 많이'가 아니라 '어느 방향으로' 스무딩할 것인가를 고민해야 한다. 인과 관계의 본질은 보이지 않는 경로를 찾아내는 것이며, 그 경로는 반드시 데이터가 그리는 기하학적 지도 위에 있어야 하기 때문이다. 지금 당장 여러분의 모델이 데이터의 기하학적 구조를 파괴하며 허공을 떠돌고 있지는 않은지 스코어 함수를 통해 점검해보길 권한다.

참고: arXiv CS.LG (Machine Learning)

차원의 저주를 넘어선 기하학적 관점의 탄생

확산 모델이 스무딩의 방향을 결정하는 원리

등방성 스무딩 vs 기하학 적응형 스무딩

실전 도입을 위한 의사결정 프레임워크

관련 글