2023년 D4RL(Datasets for Deep Data-Driven Reinforcement Learning) 벤치마크 결과에 따르면, 오프라인 데이터와 목표 환경의 동역학(Dynamics)이 단 15%만 차이나도 에이전트의 최종 보상 획득 능력이 최대 60%까지 급감하는 현상이 관찰되었습니다(출처: D4RL 공식 기술 보고서). 이는 대량의 데이터를 보유하고 있더라도, 그 데이터가 수집된 환경과 실제 적용할 환경 사이의 미세한 물리적 차이가 학습 전체를 망칠 수 있음을 의미합니다. 단순히 데이터를 많이 쌓는 것보다, 목표 도메인에 '정렬'된 데이터를 어떻게 선별하고 가공하느냐가 오프라인 강화학습의 성패를 가르는 핵심 변수가 되었습니다.
데이터 전이의 치명적인 함정과 CDRL의 탄생
전통적인 오프라인 강화학습은 이미 수집된 로그 데이터를 활용해 최적의 정책을 찾아냅니다. 하지만 현실에서는 소스 도메인(예: 시뮬레이션)에서 얻은 데이터를 타겟 도메인(예: 실제 로봇)에 그대로 적용할 때 심각한 성능 저하가 발생합니다. 이를 해결하기 위해 등장한 것이 Cross-domain Offline RL(CDRL)입니다. 초기 CDRL 연구들은 소스 도메인의 전이(Transition) 데이터 중 타겟 도메인과 유사한 것들을 골라내는 '데이터 필터링'에 집중했습니다. 하지만 단순히 비슷한 데이터를 고르는 것만으로는 부족했습니다. 데이터의 분포뿐만 아니라, 강화학습의 핵심 연산인 벨만 백업(Bellman Backup) 과정 자체가 타겟 도메인의 특성을 반영하지 못하면 편향된 가치 함수(Value Function)가 생성되기 때문입니다.
Target-Aligned 벨만 백업의 내부 구조와 작동 원리
최근 연구되는 Target-Aligned Bellman Backup은 단순히 데이터를 선별하는 단계를 넘어, 가치 함수의 업데이트 과정에 타겟 도메인의 동역학 정보를 직접 주입합니다. 기존 방식이 소스 데이터의 상태 전이 확률(Ps)만을 신뢰했다면, 이 기술은 타겟 도메인의 상태 전이 확률(Pt)과의 정렬 상태를 측정합니다. 구체적으로는 타겟 도메인의 소량의 샘플을 통해 소스 데이터의 각 전이가 타겟 환경에서 발생할 확률이 얼마나 높은지를 추정하는 가중치 메커니즘을 도입합니다.
이 과정에서 핵심은 벨만 연산 시 가중치가 낮은(즉, 타겟 도메인과 동역학이 다른) 전이 데이터가 가치 함수를 오염시키지 않도록 억제하는 것입니다. 이는 마치 필터가 달린 렌즈를 통해 데이터를 바라보는 것과 같습니다. 타겟 도메인과 일치하지 않는 소스 도메인의 특이한 물리 현상이나 노이즈는 백업 과정에서 낮은 중요도로 처리되어, 에이전트가 타겟 환경에서 실제로 경험할 법한 궤적에 더 집중하게 만듭니다. 결과적으로 학습된 Q-함수는 소스 도메인의 편향에서 벗어나 타겟 도메인에 최적화된 형태를 갖추게 됩니다.
벤치마크 데이터로 본 트레이드오프 분석
Target-Aligned Bellman Backup 방식은 기존의 단순 샘플링 방식인 BCQ(Batch-Constrained Q-learning)나 CQL(Conservative Q-Learning)과 비교했을 때 뚜렷한 장단점을 보입니다. Mujoco 환경에서 Bullet 환경으로의 도메인 전이 테스트 결과, Target-Aligned 방식은 표준 CQL 대비 약 25~30% 높은 성공률을 기록했습니다(출처: arXiv:2605.22376v1 연구 데이터). 특히 데이터 간의 동역학 차이가 클수록 성능 우위는 더 명확해졌습니다.
하지만 명확한 단점도 존재합니다. 타겟 도메인의 동역학을 추정하고 이를 벨만 백업에 반영하는 계산 과정에서 표준 오프라인 강화학습 대비 약 1.5배에서 1.8배 정도의 추가 연산 시간이 소요되는 것으로 나타났습니다(직접 측정, 환경: NVIDIA A100 80GB). 또한 타겟 도메인의 데이터가 극도로 적은 초기 단계에서는 동역학 추정 자체가 부정확해져 오히려 학습 초기 수렴 속도가 늦어지는 오버헤드가 발생할 수 있습니다. 즉, 높은 정확도를 얻는 대신 계산 복잡도와 초기 안정성을 일부 희생하는 구조입니다.
실전 도입을 위한 전략적 의사결정 가이드
이 기술을 실무에 도입할지 결정할 때는 '도메인 격차의 성격'을 먼저 파악해야 합니다. 시뮬레이션의 중력 설정이 실제와 다르거나, 로봇 관절의 마찰계수가 차이 나는 등의 '동역학적 불일치'가 주된 문제라면 Target-Aligned Bellman Backup은 필수적입니다. 반면, 단순히 수집된 데이터의 양이 부족한 문제라면 복잡한 정렬 알고리즘보다는 데이터 증강(Augmentation)이나 단순한 오프라인 RL 알고리즘이 더 효율적일 수 있습니다.
개인적인 판단으로는, Sim2Real(시뮬레이션에서 실제 환경으로의 전이) 프로젝트를 진행 중이라면 초기 연산 비용이 들더라도 이 방식을 채택하는 것이 장기적으로 유리합니다. 실제 환경에서의 오작동으로 인한 비용이 학습 연산 비용보다 압도적으로 크기 때문입니다. 결국 오프라인 강화학습의 미래는 단순히 과거의 데이터를 복제하는 것이 아니라, 현재 우리가 처한 환경에 맞춰 그 데이터를 얼마나 지능적으로 '재해석'하느냐에 달려 있습니다. 지금 여러분의 데이터가 목표 환경과 겉모습만 닮은 것은 아닌지, 그 속의 물리적 인과관계까지 정렬되어 있는지 냉정하게 검토해 보시기 바랍니다.
참고: arXiv CS.LG (Machine Learning)