분자 설계에서 MILP는 너무 무겁다는 편견을 깨다: 공중합체 추론의 정밀화

혼합 정수 선형 계획법(MILP)을 이용한 분자 설계는 연산 부하가 너무 커서 실무에 적용하기 어렵다고들 하지만, 그건 이제 옛날 얘기다. 과거에는 단순한 분자 하나를 최적화하는 데도 수십 시간이 걸렸을지 모르나, 구조적 계층을 분리하고 수리적 모델을 정교화한 최근의 접근 방식은 최적성과 정확성을 동시에 보장하면서도 추론 속도를 실용적인 수준으로 끌어올렸다. 단순히 확률적으로 유사한 구조를 생성하는 생성형 모델의 한계를 넘어, 물리적으로 존재 가능하며 목표 물성을 정확히 타격하는 분자를 '계산'해내는 시대가 온 것이다.

실험실의 병목: 원하는 물성을 가진 공중합체는 왜 찾기 힘든가

신소재를 개발하는 엔지니어들이 현장에서 마주하는 가장 큰 고충은 '역설계(Inverse Design)'의 불확실성이다. 예를 들어 특정 온도에서 변형되지 않으면서도 특정 용매에 잘 녹는 공중합체(Copolymer)를 설계해야 한다고 가정해 보자. 기존 방식으로는 수만 가지의 모노머 조합과 배열을 일일이 시뮬레이션하거나, 숙련된 연구자의 직관에 의존해 실험을 반복해야 했다. 하지만 공중합체는 그 구조적 복잡성 때문에 탐색해야 할 경우의 수가 기하급수적으로 늘어난다. 딥러닝 기반의 생성 모델을 도입하더라도, 모델이 내뱉은 분자 구조가 실제로 합성이 가능한지 혹은 목표한 물성 수치를 정확히 만족하는지 검증하는 과정에서 다시 수많은 실패를 겪게 된다. 결국 '그럴듯해 보이는' 구조는 많지만, '정확히 작동하는' 구조를 찾는 데는 여전히 막대한 비용이 소모되는 상황이다.

이산적 구조와 연속적 물성 사이의 괴리

이러한 문제가 발생하는 기술적인 근본 원인은 분자의 '이산적(Discrete) 특성'과 물성의 '연속적(Continuous) 특성' 사이의 결합이 매끄럽지 않기 때문이다. 대부분의 머신러닝 모델은 연속적인 벡터 공간에서 데이터를 처리한다. 하지만 실제 화학 구조는 원자와 결합이라는 이산적인 요소로 구성된다. 공중합체의 경우 모노머의 종류, 개수, 연결 순서가 모두 정수 단위로 결정되어야 한다. 기존의 'Soft'한 근사 방식은 이 과정을 확률적으로 처리하기 때문에, 결과값이 실제 화학 법칙을 위반하거나 물성 예측 오차가 커지는 현상이 발생한다. 특히 공중합체의 혼합 비율을 결정하는 벡터 모델이 정교하지 않으면, 수리적으로는 최적일지 몰라도 화학적으로는 구현 불가능한 결과가 도출되는 구조적 모순에 빠지게 된다.

2단계 프레임워크를 통한 구조적 추론의 정밀화

이 문제를 해결하기 위해서는 추론 과정을 두 개의 층(Two-layered)으로 분리하는 전략이 필요하다. 필자가 주목한 방식은 먼저 추상적인 구조적 특징과 목표 물성 사이의 관계를 MILP로 정형화한 뒤, 이를 기반으로 구체적인 화학 그래프를 복원하는 2단계 접근법이다.

첫 번째 단계에서는 공중합체의 구성 요소와 혼합 비율을 나타내는 '혼합 벡터(Mixing Vector)'를 정의한다. 이때 MILP는 주어진 물성 예측 모델을 제약 조건으로 삼아, 이론적으로 가능한 모든 조합 중 최적의 벡터를 찾아낸다. 두 번째 단계에서는 결정된 벡터를 바탕으로 실제 원자 단위의 연결 구조(Chemical Graph)를 추론한다. 이 과정에서 MILP는 단순히 '추천'을 하는 것이 아니라, 설정된 제약 조건 내에서 수학적으로 가장 완벽한 해를 찾아내기 때문에 결과의 '정확성(Exactness)'이 보장된다. 이는 블랙박스 모델이 주는 불안정성을 제거하고, 연구자가 신뢰할 수 있는 설계도를 제공한다는 점에서 결정적인 차이를 만든다.

최적성 검증과 실질적인 트레이드오프

이 프레임워크가 실제로 작동하는지 확인하려면 '최적성 간극(Optimality Gap)'을 분석해야 한다. MILP 해결사(Solver)가 찾아낸 해가 이론적 최댓값 또는 최솟값에 얼마나 근접했는지를 수치로 확인하는 과정이다. 또한, 추론된 분자 구조를 다시 표준적인 물성 예측 시뮬레이션에 대입했을 때, MILP가 예측했던 수치와 일치하는지를 대조함으로써 '정확성'을 검증할 수 있다.

물론 모든 기술에는 비용이 따른다. MILP 기반의 방식은 탐색 공간이 지나치게 넓어질 경우 연산 시간이 급격히 증가하는 단점이 있다. 실제로 복잡한 고분자 체인을 설계할 때 제약 조건을 너무 느슨하게 잡으면 솔버가 해를 찾는 데 수 시간이 소요될 수 있다. 따라서 실무에서는 모든 변수를 최적화하려 하기보다, 핵심적인 물성에 영향을 주는 변수 위주로 제약 조건을 타이트하게 설정하는 '모델 경량화' 전략이 병행되어야 한다. 솔직히 말해서, 데이터가 부족한 상태에서의 MILP는 '정확하게 틀린 답'을 내놓을 위험도 있다. 예측 모델의 신뢰도가 MILP 결과의 품질을 결정짓는 핵심 변수라는 점을 잊어서는 안 된다.

단순히 데이터를 많이 쌓는 것보다 중요한 것은, 그 데이터가 흐르는 구조를 수학적으로 얼마나 엄밀하게 설계하느냐에 있다. 이제 분자 설계를 확률에 맡기는 시대는 지나가고 있다. 복잡한 공중합체 설계로 골머리를 앓고 있다면, 생성형 AI의 환각(Hallucination)에 기대기보다 MILP의 단단한 논리 구조를 도입해 보길 권한다. 수학적 최적성은 때로 수만 번의 실험보다 더 강력한 확신을 줄 수 있기 때문이다.

참고: arXiv CS.LG (Machine Learning)

실험실의 병목: 원하는 물성을 가진 공중합체는 왜 찾기 힘든가

이산적 구조와 연속적 물성 사이의 괴리

2단계 프레임워크를 통한 구조적 추론의 정밀화

최적성 검증과 실질적인 트레이드오프

관련 글