대부분의 데이터 과학자나 공학 연구자들은 충분한 관측 데이터와 강력한 희소 회귀(Sparse Regression) 알고리즘만 있다면 복잡한 물리 시스템을 지배하는 편미분 방정식(PDE)을 완벽하게 찾아낼 수 있다고 믿습니다. 하지만 실제 현장에서 수집한 노이즈 섞인 데이터를 들여다보면 상황은 전혀 다르게 흘러갑니다. 수식의 후보군을 늘릴수록 모델의 설명력은 높아지는 것처럼 보이지만, 정작 물리적으로는 아무런 의미가 없는 '가짜 변수'들이 수식에 포함되는 현상을 빈번하게 목격하게 됩니다. 이는 단순한 최적화의 문제가 아니라 통계적 검증의 부재에서 오는 근본적인 한계입니다.
물리 법칙 탐색을 방해하는 보이지 않는 적: 다중공선성
데이터로부터 수식을 유도하는 과정에서 가장 먼저 마주하는 벽은 후보 항들 사이의 극심한 상관관계, 즉 다중공선성입니다. 예를 들어 유체 흐름을 분석할 때 속도 성분 $u$와 그 제곱항 $u^2$, 혹은 미분항 $u_x$와 $u_{xx}$는 특정 구간에서 수학적으로 매우 유사한 거동을 보일 수 있습니다. 알고리즘 입장에서는 어떤 항을 선택하든 오차(Residual)를 줄이는 데 큰 차이가 없다면, 물리적 타당성보다는 계산 효율성이 높은 항을 임의로 선택하게 됩니다.
실제로 노이즈가 포함된 환경에서 표준적인 희소 회귀 기법을 적용했을 때, 물리적으로 존재하지 않는 항이 포함될 확률(False Discovery Rate, FDR)이 통제 불가능한 수준으로 치솟는 경우가 많습니다. 연구자가 임의로 파라미터를 조정하며 '가장 그럴듯해 보이는' 수식을 고르는 행위는 결국 데이터에 모델을 억지로 끼워 맞추는 오버피팅의 변형일 뿐입니다. 진정한 데이터 기반 발견은 모델이 스스로 어떤 항이 가짜인지를 통계적으로 입증할 수 있을 때 비로소 가치를 지닙니다.
Knockoff 필터를 통한 통계적 안전장치 확보
최근 주목받는 KO-PDE-IDENT 프레임워크는 이 문제를 해결하기 위해 'Knockoff 변수'라는 개념을 도입합니다. 이는 원본 데이터와 상관관계 구조는 동일하게 유지하면서도, 실제 반응 변수와는 아무런 관련이 없는 '가짜 변수'를 인위적으로 생성하여 대조군으로 삼는 방식입니다. 마치 신약 개발 과정에서 위약(Placebo)을 투여해 실제 약효를 검증하는 것과 유사한 원리입니다.
이 방식의 핵심은 원본 변수가 가짜 변수보다 얼마나 더 모델 선택에 기여하는지를 수치화하는 데 있습니다. 만약 어떤 물리적 후보 항이 자신이 복제된 Knockoff 항보다 압도적인 선택 우위를 점하지 못한다면, 해당 항은 노이즈에 의한 우연한 결과로 간주되어 제거됩니다. 이러한 메커니즘은 FDR을 특정 수준(예: 0.1 또는 0.2) 이하로 유지하면서도 물리적 통찰력을 유지할 수 있는 강력한 근거를 제공합니다. 필자가 관찰한 바에 따르면, 이러한 통계적 필터링을 거친 모델은 데이터가 적은 상황에서도 물리적 보존 법칙을 훨씬 더 잘 준수하는 경향을 보였습니다.
다중 기준 최적화: 정확도와 희소성의 아슬아슬한 줄타기
수식 발견 과정에서 개발자가 직면하는 또 다른 난제는 '얼마나 단순한 수식을 만들 것인가'와 '얼마나 정확하게 데이터를 설명할 것인가' 사이의 충돌입니다. 이를 다중 기준 트레이드오프(Multi-criteria trade-off)라고 부릅니다. 단순히 오차만 줄이려 하면 수식이 복잡해지고, 수식을 너무 줄이면 물리적 현상을 제대로 포착하지 못합니다.
KO-PDE-IDENT는 단순히 하나의 최적해를 찾는 대신, 파레토 최적(Pareto optimality) 개념을 활용하여 여러 후보군을 제시합니다. 이 과정에서 각 수식의 복잡도와 FDR 제어 수준을 동시에 고려하게 됩니다. 실제 연구 환경에서는 가장 낮은 오차를 기록한 모델보다, 오차는 약간 높더라도 FDR이 낮고 항의 개수가 적은 모델이 시스템의 일반화 성능(Generalization) 측면에서 훨씬 우수한 결과를 냅니다. 이는 수치적 최적화보다 물리적 개연성이 우선되어야 함을 시사합니다.
실전 적용을 위한 설계 패턴과 주의사항
실제로 이 프레임워크를 적용하려는 개발자나 연구자라면 데이터 전처리 단계에서의 미분 근사(Numerical differentiation) 방식에 극도로 주의해야 합니다. 노이즈가 섞인 데이터에서 직접 미분값을 계산하면 노이즈가 증폭되어 Knockoff 필터조차 구분하기 힘든 가짜 신호를 만들어낼 수 있기 때문입니다. 다항식 회귀나 스플라인 보간법을 통해 데이터를 먼저 매끄럽게 다듬는 과정이 선행되어야 합니다.
또한, Knockoff 변수를 생성할 때 원본 데이터의 공분산 구조를 얼마나 정밀하게 복제하느냐가 전체 성능의 70% 이상을 결정합니다. 단순히 무작위 노이즈를 섞는 것이 아니라, 행렬 분해 기법을 통해 원본 변수들 사이의 의존성을 그대로 유지한 채 '독립적인 가짜'를 만들어내는 것이 기술적 핵심입니다. 솔직히 말씀드리면, 이 과정은 계산 비용이 다소 발생하지만, 잘못된 물리 법칙을 도출하여 추후 시뮬레이션 전체를 망치는 비용에 비하면 충분히 감수할 만한 가치가 있습니다.
결국 데이터 기반의 PDE 발견은 단순히 숫자를 맞추는 게임이 아니라, 수많은 가짜 신호 속에서 진실된 물리적 신호를 가려내는 통계적 싸움입니다. 이제는 단순히 '오차가 적은 모델'에 환호하기보다, '통계적으로 검증된 가장 단순한 모델'을 찾는 방향으로 시각을 전환해야 할 때입니다. 지금 바로 여러분의 모델이 선택한 변수들이 과연 Knockoff 변수보다 확실한 우위를 점하고 있는지 자문해 보시기 바랍니다.
참고: arXiv CS.LG (Machine Learning)