범용 로봇 보상 모델의 확장: 절대적 점수보다 상대적 비교가 중요한 이유

로봇이 복잡한 환경에서 스스로 학습하게 만들려면 전문가의 완벽한 시연을 따라 하게 하는 기존의 '절대적 진행도' 방식에서 벗어나, 서로 다른 시도들을 비교하여 우열을 가리는 '궤적 비교' 기반의 보상 모델을 도입해야 합니다. 대규모 로봇 데이터셋의 특성상 성공한 사례보다 실패하거나 불완전한 사례가 훨씬 더 많기 때문입니다. 완벽한 정답지만을 강요하는 모델은 데이터의 양이 늘어날수록 오히려 학습 효율이 급격히 떨어지는 한계를 보입니다.

이러한 결론은 로봇 학습의 핵심인 '보상 함수(Reward Function)'를 어떻게 정의하느냐에 대한 근본적인 시각 차이에서 기인합니다. 과거에는 로봇이 특정 시점에 목표에 얼마나 근접했는지를 0에서 1 사이의 수치로 예측하는 모델이 주를 이루었습니다. 하지만 실제 현장에서 수집되는 데이터는 노이즈가 심하고, 전문가의 개입이 없는 실패 사례가 대부분입니다. 이를 효과적으로 활용하기 위해서는 무엇이 정답인지 알려주는 대신, 'A 시도가 B 시도보다 낫다'라는 상대적 피드백을 통해 모델 스스로가 좋은 행동의 기준을 정립하게 유도하는 것이 훨씬 강력한 확장성을 제공합니다.

보상 모델 아키텍처를 결정하는 세 가지 기준

새로운 로봇 제어 프로젝트를 시작하거나 기존 시스템을 고도화할 때, 어떤 보상 모델을 채택할지 결정하기 위해서는 다음 세 가지 질문을 먼저 던져야 합니다.

첫째, 보유한 데이터셋에 실패하거나 불완전한 궤적(Trajectory)이 얼마나 포함되어 있는가? 전문가의 시연 데이터만으로 구성된 정제된 데이터셋이라면 절대적 진행도 예측 모델이 유리할 수 있습니다. 그러나 대규모 야생 데이터(In-the-wild data)를 활용해야 한다면 비교 기반 모델이 필수적입니다.

둘째, 태스크의 성공 기준이 이진(Binary)적인가, 아니면 연속적인가? 문을 여는 것처럼 성공과 실패가 명확한 작업과 달리, 물체를 부드럽게 옮기는 것과 같은 작업은 '얼마나 더 잘했는가'를 판단하는 상대적 기준이 모델의 성능을 좌우합니다.

셋째, 실시간 추론 시의 연산 비용을 어디까지 감당할 수 있는가? 프레임 단위의 절대 평가 모델은 연산량이 적지만, 궤적 전체를 훑어야 하는 비교 모델은 학습 시 더 많은 조합의 데이터를 처리해야 하므로 더 높은 컴퓨팅 자원을 요구합니다.

절대적 평가 모델과 궤적 비교 모델의 실무적 분석

절대적 진행도 예측 모델(Absolute Progress Models)은 각 프레임마다 점수를 매깁니다. 이는 로봇에게 즉각적인 피드백을 줄 수 있다는 장점이 있지만, 전문가가 수행하지 않은 행동에 대해서는 점수를 줄 근거가 부족해집니다. 결과적으로 로봇은 학습하지 않은 상황에 직면했을 때 급격히 성능이 저하되는 '분포 외(Out-of-distribution)' 문제에 취약해집니다. 실제로 전문가 데이터의 양이 제한적인 환경에서는 이러한 모델이 로봇의 창의적인 문제 해결 능력을 제한하는 요소가 되기도 합니다.

반면, Robometer와 같은 궤적 비교 모델(Trajectory Comparison Models)은 두 개의 실행 과정을 놓고 어느 쪽이 더 목표에 부합하는지를 학습합니다. 이 방식은 실패한 시도들 사이에서도 '덜 나쁜' 행동을 구분해낼 수 있게 합니다. 이는 데이터 효율성 측면에서 압도적인 우위를 점합니다. 실패 데이터조차도 로봇에게 '이렇게 하면 안 된다' 혹은 '이 실패가 저 실패보다는 낫다'라는 정보를 제공하는 유중한 자산이 되기 때문입니다. 다만, 이 방식은 학습 단계에서 비교 가능한 쌍(Pair)을 생성해야 하므로 데이터 전처리 과정이 복잡해지고 학습 시간이 길어지는 트레이드오프가 존재합니다.

데이터 환경에 따른 모델 매핑 전략

보유한 자원과 목표하는 환경에 따라 다음과 같은 전략적 선택이 가능합니다.

정제된 산업용 로봇 환경: 자동화 공정처럼 전문가의 동작이 표준화되어 있고 변수가 적은 경우에는 프레임 단위의 절대 평가 모델이 효율적입니다. 굳이 복잡한 비교 연산을 수행하지 않아도 높은 정확도로 목표를 달성할 수 있습니다.
가정용 서비스 로봇 및 범용 AI: 집안일처럼 환경 변수가 많고 수많은 실패 데이터가 발생하는 환경에서는 궤적 비교 모델이 유일한 대안입니다. 다양한 실패 사례를 통해 로봇이 스스로 복구(Recovery) 전략을 학습할 수 있도록 유도해야 하기 때문입니다.
데이터 증강이 필요한 초기 단계: 학습 데이터가 절대적으로 부족한 상황에서는 기존 데이터를 비교 방식으로 재구성하여 학습 신호를 극대화하는 전략이 유효합니다. 하나의 성공 궤적을 여러 실패 궤적과 교차 비교함으로써 모델이 정답의 경계를 더 명확히 파악하게 할 수 있습니다.

결론: 실패를 학습의 동력으로 전환하기

결국 로봇 학습의 확장은 '얼마나 많은 성공을 보여주느냐'가 아니라 '얼마나 많은 실패를 의미 있게 해석하느냐'에 달려 있습니다. 궤적 비교 방식은 단순히 보상 점수를 매기는 도구를 넘어, 로봇이 세상의 인과관계를 이해하게 만드는 기초가 됩니다.

솔직히 현업에서 보상 모델을 설계하다 보면 당장 눈에 보이는 성공 확률에 집착해 절대 평가 방식에 의존하기 쉽습니다. 하지만 모델의 범용성을 확보하고 대규모 데이터의 힘을 온전히 누리고 싶다면, 지금 바로 데이터셋 내의 실패 궤적들을 어떻게 서로 비교하고 순위를 매길 것인지 고민해야 합니다. 로봇에게 정답을 가르치려 하지 말고, 더 나은 선택을 할 수 있는 안목을 길러주는 것이 진정한 지능형 로봇으로 가는 지름길입니다.

참고: arXiv CS.LG (Machine Learning)

보상 모델 아키텍처를 결정하는 세 가지 기준

절대적 평가 모델과 궤적 비교 모델의 실무적 분석

데이터 환경에 따른 모델 매핑 전략

결론: 실패를 학습의 동력으로 전환하기

관련 글