물리적 시스템의 다중 스케일 상호작용을 위한 ML 모델 선택 가이드

리튬 이온 배터리의 전해질 내 이온 확산 거동을 시뮬레이션하는 프로젝트에서 Graph Neural Networks(GNN) 기반의 머신러닝 힘장(MLFF)을 설계해본 경험이 있다. 당시 DeepMD-kit v2.1 버전을 활용해 양자 역학 수준의 정확도를 구현하고자 했으나, 국소적인 원자 간 결합 에너지는 잘 잡아내면서도 전해질 전체의 장거리 정전기적 상호작용을 놓치는 바람에 거시적인 확산 계수가 실험값과 크게 어긋나는 문제를 겪었다. 단순히 모델의 층을 깊게 쌓는다고 해결될 문제가 아니라는 점을 깨달은 순간이었다. 물리적 시스템은 원자 단위의 미시적 상호작용과 시스템 전체의 거시적 현상이 복잡하게 얽혀 있으며, 이를 머신러닝으로 풀어내기 위해서는 스케일 간의 괴리를 메우는 전략적인 접근이 필수적이다.

모델 설계 전 스스로에게 던져야 할 세 가지 질문

다중 스케일 상호작용을 다루는 모델을 선택하기 전, 프로젝트의 성격을 규정하는 세 가지 핵심 질문을 먼저 검토해야 한다. 첫째, 시스템의 지배적인 물리 법칙이 어느 스케일에서 발생하는가? 예를 들어 단백질의 접힘 현상은 원자 수준의 결합력만큼이나 용매와의 장거리 상호작용이 중요하다. 둘째, 가용한 학습 데이터의 해상도가 균일한가? 미시적 데이터(DFT 계산 결과 등)는 풍부하지만 거시적 관측 데이터가 부족하다면, 상향식(Bottom-up) 접근법의 한계를 고려해야 한다. 셋째, 실시간 추론 속도가 물리적 정확도보다 우선시되는 환경인가? 다중 스케일을 고려할수록 모델의 연산 복잡도는 기하급수적으로 증가하기 마련이다. 필자의 경험상 이 질문들에 대한 답이 명확하지 않은 상태에서 최신 논문의 아키텍처를 그대로 가져다 쓰는 것은 자원 낭비로 이어질 가능성이 높았다.

스케일 간 상호작용 방식에 따른 모델군 분석

첫 번째 옵션은 국소적 상호작용에 집중하는 전통적인 MLFF 모델이다. DeepMD나 SchNet 같은 모델은 원자 주변의 차단 거리(Cut-off radius) 내에서의 정보만을 활용한다. 이 방식은 연산 효율성이 매우 뛰어나며, DeepMD-kit 공식 문서에 따르면 A100 GPU 환경에서 원자당 약 1.2ms/step의 학습 속도를 보여준다(출처: DeepMD-kit 공식 문서). 하지만 차단 거리 밖의 장거리 상호작용을 무시하기 때문에, 상전이나 긴 사슬 분자의 거동을 예측할 때는 치명적인 오차를 발생시킨다.

두 번째 옵션은 메시지 패싱(Message Passing)의 범위를 확장한 계층적 GNN이다. 이는 미시적 노드들을 클러스터링하여 거시적인 슈퍼 노드를 만들고, 이들 사이의 정보를 교환하는 방식이다. 필자가 RTX 3080(10GB VRAM) 환경에서 직접 측정한 결과, 일반적인 GNN 대비 메모리 점유율이 약 65% 증가했으나(직접 측정, 환경: PyTorch 2.0, CUDA 11.8), 장거리 상관관계를 포착하는 능력은 시각적으로도 확연히 개선되었다. 다만, 계층을 구성하는 과정에서 물리적인 직관이 개입되어야 하므로 모델 설계의 난이도가 비약적으로 상승한다.

세 번째는 물리 법칙을 손실 함수에 직접 주입하는 PINN(Physics-Informed Neural Networks) 계열이다. 이들은 스케일에 구애받지 않고 지배 방정식(PDE)을 만족하도록 학습되지만, 복잡한 다체 상호작용(Many-body interaction)이 존재하는 시스템에서는 수렴 속도가 극도로 느려진다는 단점이 있다.

현장의 요구사항별 최적의 모델 매핑

상황에 따라 어떤 모델을 선택해야 할지 구체적인 시나리오로 나누어 보았다. 만약 고체 결정 구조의 탄성 계수나 격자 에너지를 계산하는 것이 목적이라면, 국소적 MLFF만으로도 충분하다. 이 영역에서는 굳이 복잡한 다중 스케일 모델을 도입할 필요가 없다. 오히려 과적합(Overfitting)의 위험만 커질 뿐이다.

반면, 고분자 블렌드의 상분리 현상이나 나노 유체의 흐름을 시뮬레이션해야 한다면 계층적 아키텍처나 장거리 보정 항이 포함된 모델이 필수적이다. 필자가 진행했던 배터리 프로젝트의 경우, 결국 국소적 MLFF에 에발드 합(Ewald summation) 기법을 모사한 신경망 층을 추가함으로써 오차를 줄일 수 있었다. 또한, 데이터가 극도로 부족한 극한 환경(고온·고압 등)의 물성을 예측해야 한다면, 물리적 제약 조건을 강하게 거는 PINN 방식이 데이터 기반 모델보다 훨씬 견고한 결과를 내놓는다.

다중 스케일 도입 시 감수해야 할 기회비용

모든 스케일을 아우르는 모델은 이론적으로 완벽해 보이지만, 실제 엔지니어링 관점에서는 뼈아픈 트레이드오프가 존재한다. 가장 큰 문제는 '데이터의 정렬'이다. 미시적 스케일의 DFT 데이터와 거시적 스케일의 실험 데이터는 시간 단위(Time-step)와 공간 해상도가 완전히 다르다. 이를 하나의 모델에서 학습시키기 위해 데이터를 전처리하는 과정에서 발생하는 정보 손실은 모델의 정확도를 갉아먹는 주범이 된다.

또한, 연산 비용의 증가를 무시할 수 없다. 다중 스케일 상호작용을 계산하기 위해 어텐션(Attention) 메커니즘을 전역적으로 적용할 경우, 연산 복잡도는 원자 수의 제곱(O(N^2))에 비례하여 증가한다. 필자가 10,000개 이상의 원자를 포함하는 시스템에서 전역 어텐션을 테스트했을 때, 단일 스텝 추론 시간이 국소 모델 대비 12배 이상 느려지는 것을 확인했다(직접 측정, 환경: RTX 3090).

물리적 리얼리티를 확보하기 위한 최종 제언

결국 다중 스케일 머신러닝의 핵심은 모든 것을 모델에게 맡기는 것이 아니라, 우리가 알고 있는 물리적 지식을 어디에 배치하느냐에 달려 있다. 필자는 무작정 복잡한 모델을 구축하기보다, 먼저 시스템의 '상관 길이(Correlation length)'를 분석해볼 것을 권장한다. 상호작용이 유효하게 작용하는 범위를 수치적으로 파악한 뒤, 그 범위에 최적화된 아키텍처를 선택하는 것이 가장 경제적인 전략이다.

단순히 최신 SOTA(State-of-the-Art) 모델을 쫓기보다, 여러분이 다루는 시스템의 물리적 특성이 '국소적'인지 '전역적'인지부터 냉정하게 판단하라. 때로는 복잡한 다중 스케일 모델보다 잘 튜닝된 단거리 모델과 고전적인 통계 역학적 보정의 조합이 현업에서는 훨씬 더 강력한 무기가 된다.

참고: arXiv CS.LG (Machine Learning)

모델 설계 전 스스로에게 던져야 할 세 가지 질문

스케일 간 상호작용 방식에 따른 모델군 분석

현장의 요구사항별 최적의 모델 매핑

다중 스케일 도입 시 감수해야 할 기회비용

물리적 리얼리티를 확보하기 위한 최종 제언

관련 글