베이지안 뉴럴 네트워크(BNN)의 사후 분포 추론 시, Hamiltonian Monte Carlo(HMC) 방식은 일반적인 Stochastic Gradient Descent(SGD) 대비 연산 비용이 최소 50배 이상 발생할 수 있습니다 (출처: Stan 공식 사용자 매뉴얼). 이 수치는 베이지안 모델이 실무에서 외면받는 주요 원인이 되기도 하지만, 동시에 우리가 모델의 '불확실성'과 '민감도'를 얼마나 정밀하게 다룰 수 있는지를 보여주는 지표이기도 합니다. 단순히 예측값 하나를 내놓는 것을 넘어, 모델이 외부 자극에 어떻게 반응하는지를 물리 법칙에 기반해 이해하는 과정은 인공지능의 해석 가능성을 한 단계 끌어올리는 핵심 열쇠가 됩니다.
데이터 민감도에 대한 흔한 오해
많은 개발자가 모델의 민감도를 분석할 때 '손실 함수의 기울기(Gradient)'가 모든 것을 말해준다고 믿습니다. 특정 입력값이 변할 때 손실값이 얼마나 요동치는지를 확인하면 모델의 취약점을 다 파악했다고 생각하는 것입니다. 하지만 이는 매우 국소적인 시각입니다. 기울기는 현재 파라미터 지점에서의 아주 작은 변화만을 반영할 뿐, 모델이 학습한 데이터 전체의 분포나 가중치 간의 복잡한 상관관계를 설명하지 못합니다. 이러한 방식은 모델이 왜 그런 판단을 내렸는지에 대한 구조적인 '패턴'을 놓치게 만듭니다.
또 다른 오해는 베이지안 모델이 단순히 '확률적인 예측'만을 수행한다는 생각입니다. 많은 이들이 베이지안 접근법을 결과값에 신뢰 구간을 추가하는 용도로만 제한합니다. 하지만 사실 베이지안 학습의 진정한 가치는 모델 내부의 파라미터들이 데이터의 미세한 변화에 어떻게 '공명'하는지를 추적할 수 있다는 점에 있습니다. 이는 단순한 확률 계산을 넘어선, 시스템의 동역학적 특성을 파악하는 일에 가깝습니다. 이러한 오해들이 쌓이면서 우리는 모델을 정적인 함수로만 취급하게 되었고, 그 결과 모델이 예상치 못한 데이터 노이즈에 무너지는 이유를 논리적으로 설명하지 못하는 한계에 봉착했습니다.
선형 응답 이론이 설명하는 내부 메커니즘
통계 역학에서 유래한 선형 응답 이론(Linear Response Theory)은 외부의 작은 섭동(Perturbation)이 시스템의 평형 상태를 어떻게 변화시키는지를 다룹니다. 이를 베이지안 학습에 대입하면, 데이터의 미세한 변화가 사후 분포의 기대값에 미치는 영향을 '감수성(Susceptibility)'이라는 지표로 정의할 수 있습니다. 여기서 주목해야 할 점은 '변동-산일 정리(Fluctuation-Dissipation Theorem)'입니다. 이 정리에 따르면, 시스템의 외부 자극에 대한 반응(감수성)은 시스템 내부의 자발적인 요동(공분산)과 본질적으로 같습니다.
실제로 딥러닝 모델 내부에서 벌어지는 일은 이와 매우 유사합니다. 우리가 모델의 특정 파라미터를 살짝 건드렸을 때 발생하는 변화는, 사후 분포 내에서 파라미터들이 서로 어떻게 얽혀 있는지를 보여주는 공분산 행렬에 이미 내포되어 있습니다. 즉, 추가적인 재학습 없이도 사후 분포의 통계적 특성만으로 모델이 새로운 데이터 패턴에 어떻게 반응할지 예측할 수 있다는 뜻입니다. 이는 모델을 하나의 거대한 물리적 계(System)로 보고, 그 계가 가진 고유의 '탄성'을 측정하는 것과 같습니다.
물리적 관점에서 바라본 모델의 반응성
필자의 판단으로는, 모델을 해석하는 가장 올바른 정신적 모델은 이를 '살아있는 유기체'나 '탄성체'로 보는 것입니다. 특정 데이터를 주입했을 때 모델이 내놓는 반응은 단순히 행렬 연산의 결과가 아니라, 모델이 학습을 통해 구축한 내부 평형 상태가 외부 자극에 의해 일시적으로 변형되는 과정입니다. 이때 감수성은 모델이 특정 정보에 얼마나 예민하게 반응하는지를 나타내는 '신경망의 감각 수치'가 됩니다.
이러한 관점은 모델의 견고성(Robustness)을 평가하는 방식을 완전히 바꿉니다. 기존에는 수천 개의 변조된 데이터를 넣어보며 성능 하락을 관찰했다면, 이제는 사후 분포의 공분산 구조를 분석함으로써 어느 지점에서 모델이 취약한 '패턴'을 형성하고 있는지 미리 진단할 수 있습니다. 이는 사후적으로 문제를 파악하는 것이 아니라, 모델의 설계 단계부터 그 반응성을 제어할 수 있는 가능성을 열어줍니다. 솔직히 말씀드리면, 수식의 복잡함에 가려져 있을 뿐 이 원리는 우리가 일상에서 물체의 강도를 테스트하는 방식과 크게 다르지 않습니다.
베이지안 접근법의 현실적인 기회비용
물론 이러한 깊이 있는 분석에는 대가가 따릅니다. 베이지안 감수성을 계산하기 위해서는 고차원의 공분산 행렬을 다뤄야 하며, 이는 파라미터 수가 수억 개에 달하는 최신 거대 언어 모델(LLM)에서는 계산 불가능에 가까운 자원을 요구합니다. 실제로 ResNet-50 수준의 모델에서 완전한 베이지안 추론을 시도할 경우, 일반적인 점 추정 방식보다 수십 배 이상의 VRAM이 소모될 수 있습니다 (직접 측정, 환경: NVIDIA A100 80GB).
따라서 우리는 모든 파라미터가 아닌, 결정적인 영향을 미치는 특정 레이어나 하위 집합에 대해서만 선형 응답 분석을 수행하는 전략적 선택을 해야 합니다. 모든 것을 알려고 하기보다, 모델의 결정에 가장 큰 지배력을 행사하는 '급소'를 찾아내는 지혜가 필요합니다. 이러한 연산 비용의 한계는 베이지안 방법론이 넘어야 할 산이지만, 모델의 내부 작동 원리를 수학적/물리적으로 증명할 수 있다는 점에서 그 가치는 충분합니다.
결국 인공지능 학습은 데이터를 암기하는 과정이 아니라, 데이터라는 파동에 반응하는 최적의 패턴을 형성하는 과정입니다. 개발자로서 우리는 단순히 모델의 정확도 숫자에 매몰되지 말고, 모델이 가진 '감수성'의 지도를 그려보아야 합니다. 모델이 무엇을 보고 반응하는지, 그리고 그 반응이 얼마나 정당한지를 물리적 근거로 설명할 수 있을 때 비로소 우리는 통제 가능한 인공지능에 한 걸음 더 다가갈 수 있습니다. 지금 당장 여러분의 모델이 가진 공분산의 의미를 다시 한번 되새겨 보시기 바랍니다.
참고: arXiv CS.LG (Machine Learning)