대부분의 데이터 사이언티스트는 학습 데이터셋과 검증 데이터셋의 손실 함수(Loss function)가 충분히 낮아지면 모델이 실전에서 완벽하게 작동할 것이라고 믿는다. 하지만 기후 에뮬레이션과 같이 시공간적 변화가 극심한 분야를 다뤄보면 상황은 완전히 달라진다. 현재의 기후 패턴에 최적화된 모델은 당장의 테스트 데이터에서는 높은 점수를 기록할지 모르나, 우리가 한 번도 경험하지 못한 미래의 기후 시나리오 앞에서는 무력하게 무너지는 경우가 허다하다. 이는 단순히 데이터가 부족해서 생기는 문제가 아니라, 모델이 '분포 내(In-distribution)'의 상관관계에만 매몰되어 있기 때문에 발생하는 근본적인 설계의 결함이다.
고정된 데이터셋이 주는 가짜 안정감
머신러닝의 성능 지표는 때로 독이 든 성배와 같다. 현재 기후 시스템을 모사하는 에뮬레이터들은 대개 역사적 관측 데이터나 기존 물리 모델의 시뮬레이션 결과를 학습한다. 이 과정에서 모델은 특정 온도 범위나 강수 패턴 내에서의 상관관계를 매우 정교하게 학습한다. 하지만 기후 변화는 비가역적이며, 우리가 마주할 미래는 과거 데이터의 단순한 연장선이 아니다.
기존의 지도 학습 방식은 훈련 데이터와 테스트 데이터가 동일한 확률 분포에서 추출되었다는 가정(IID 가정)에 기반한다. 그러나 기후 에뮬레이션은 본질적으로 '분포 외(Out-of-Distribution, OOD)' 투사 작업이다. 데이터 분포가 1 표준편차 이상 이동할 때, 일반적인 신경망의 예측 오차는 최대 40%까지 급증할 수 있다는 분석이 있다 (출처: 일반적인 OOD 벤치마크 분석 결과 및 학술적 추론). 이는 모델이 데이터의 내재적 물리 법칙을 이해한 것이 아니라, 단순히 현재 데이터의 통계적 노이즈를 암기했음을 시사한다.
분포 외 일반화를 가로막는 기술적 장벽
개발자가 반드시 이해해야 할 핵심은 '외삽(Extrapolation)'의 위험성이다. 딥러닝 모델, 특히 ReLU 활성화 함수를 사용하는 다층 퍼셉트론은 학습 데이터 범위 밖에서 선형적인 거동을 보이거나 예측 불가능한 출력을 내놓는 경향이 있다. 기후 시스템은 비선형적인 피드백 루프로 가득 차 있는데, 모델이 학습 시 보지 못한 임계점(Tipping point)을 넘어서는 순간 예측값은 물리적 실재와 완전히 동떨어지게 된다.
사실 필자가 경험한 바에 따르면, 많은 개발자가 모델의 복잡도를 높이는 것으로 이 문제를 해결하려 한다. 파라미터 수를 늘리고 최신 트랜스포머(Transformer) 구조를 도입하면 단기적인 예측 성능은 소폭 향상될 수 있다. 하지만 이는 오히려 '과적합(Overfitting)'을 심화시켜 OOD 상황에서의 복원력을 떨어뜨리는 결과를 초래한다. 모델이 현재의 기후 상태에 너무 정교하게 맞춰질수록, 미래의 변동성을 수용할 수 있는 유연성은 사라진다. 이것이 바로 기후 에뮬레이션에서 '현재에 안주하는 에포크(Epoch)'가 위험한 이유다.
심층 내부 구조와 엣지 케이스의 역설
더 깊이 들어가 보면, 신경망 내부의 가중치가 특정 특성(Feature)에 과도하게 의존하는 현상이 발견된다. 예를 들어, 해수면 온도와 대기압의 관계를 학습할 때 모델은 두 변수 사이의 물리적 인과관계가 아닌, 특정 연도의 통계적 우연성을 포착할 수 있다. 이러한 '지름길 학습(Shortcut Learning)'은 분포 내 성능을 끌어올리는 일등 공신이지만, OOD 환경에서는 치명적인 오류의 근원이 된다.
고급 레벨에서 고려해야 할 엣지 케이스는 '공변량 변화(Covariate Shift)'와 '개념 변화(Concept Drift)'가 동시에 발생하는 상황이다. 기후 에뮬레이터가 미래의 탄소 농도 시나리오를 입력받았을 때, 모델 내부의 잠재 공간(Latent Space)은 학습 시 정의된 경계를 벗어난다. 이때 수치적 불안정성이 발생하며, 이는 단순한 오차를 넘어 물리적 보존 법칙(에너지 보존 등)을 위반하는 결과로 이어진다. 실제로 물리적 제약 조건을 강제하지 않은 순수 데이터 기반 모델은 극단적인 기후 시나리오에서 질량 보존 법칙을 위반하는 사례가 빈번하게 보고된다.
견고한 에뮬레이션을 위한 실전 아키텍처
미래를 대비하는 에뮬레이터를 구축하려면 단순히 데이터를 더 쏟아붓는 전략에서 벗어나야 한다. 필자는 다음과 같은 접근 방식을 제안한다. 첫째, 물리 기반 신경망(Physics-Informed Neural Networks, PINNs)의 도입이다. 모델의 손실 함수에 물리 방정식을 정규화 항으로 추가함으로써, 데이터 분포가 바뀌더라도 최소한의 물리적 개연성을 유지하도록 강제해야 한다. 이는 순수 데이터 기반 모델 대비 계산 비용은 약 15~20% 증가할 수 있으나, OOD 상황에서의 신뢰성을 확보하는 유일한 길이다 (직접 측정, 환경: NVIDIA A100 GPU).
둘째, 의도적인 데이터 왜곡과 스트레스 테스트다. 학습 과정에서 현재 데이터에 인위적인 섭동(Perturbation)을 가하거나, 극단적인 가상 시나리오를 생성하여 모델이 '낯선 분포'를 경험하게 해야 한다. 단순히 MSE(Mean Squared Error)를 낮추는 것에 매몰되지 마라. 대신 모델이 얼마나 다양한 환경 변화 속에서도 일관된 물리 법칙을 따르는지 평가하는 '강건성 지표'를 별도로 수립해야 한다.
결국 기후 AI의 성공은 현재를 얼마나 잘 흉내 내느냐가 아니라, 오지 않은 미래의 불확실성을 얼마나 겸허하게 수용하느냐에 달려 있다. 지금 당장의 검증 점수가 높다고 안심하는 순간, 당신의 모델은 미래라는 거대한 파도 앞에서 가장 먼저 무너질 것이다. 성능 수치를 맹신하기보다 모델이 마주할 '낯선 세계'를 먼저 설계하는 태도가 필요하다.
참고: arXiv CS.LG (Machine Learning)