추론형 RL의 수다를 잠재우는 기술: BPPO가 해결하는 GRPO의 한계

추론 모델을 학습시킬 때 데이터가 많을수록, 그리고 모델이 더 길게 생각할수록 결과가 좋아진다고 믿는 경우가 많습니다. '생각의 사슬(Chain of Thought)'이 길어지면 복잡한 논리 문제를 더 잘 풀 것이라는 기대 때문입니다. 하지만 실제 현장에서 대규모 강화학습(RL)을 돌려보면, 모델의 '수다'가 늘어날수록 성능 효율은 오히려 급격히 떨어지는 현상을 목격하게 됩니다. 모델이 정답을 맞히기 위해 논리를 전개하는 것이 아니라, 보상을 더 받기 위해 불필요한 문장을 반복하며 길게 늘어지는 'Verbosity Trap'에 빠지기 때문입니다.

GRPO가 선택받았던 이유와 그 시절의 논리

불과 얼마 전까지 많은 개발자와 연구자들은 DeepSeek에서 제안한 GRPO(Group Relative Policy Optimization) 방식에 열광했습니다. 그 이유는 명확했습니다. 기존의 PPO(Proximal Policy Optimization) 방식은 정책 모델(Policy) 외에도 가치 모델(Value Function, Critic)을 별도로 유지해야 했기에 메모리 점유율이 매우 높았습니다. 반면 GRPO는 동일한 프롬프트에서 여러 개의 답변(Group)을 생성하고, 그 그룹 내에서의 상대적인 보상을 계산함으로써 별도의 Critic 모델 없이도 학습이 가능하게 만들었습니다.

당시 이 방식은 VRAM이 부족한 환경에서도 대규모 추론 모델을 학습시킬 수 있는 유일한 탈출구처럼 보였습니다. 필자 역시 GRPO를 처음 도입했을 때, 추가적인 모델 파라미터를 로드하지 않고도 정책 업데이트가 가능하다는 점에 큰 매력을 느꼈습니다. 하지만 이 방식은 모든 샘플링된 답변을 동일한 비중으로 업데이트한다는 태생적인 특징을 가지고 있었습니다.

대규모 스케일에서 드러난 '그룹 업데이트'의 고통

문제는 모델이 고도화되고 학습 규모가 커지면서 발생했습니다. GRPO는 한 그룹 내에서 생성된 모든 답변(Completion)을 대상으로 업데이트를 수행합니다. 만약 한 그룹에 8개의 답변이 있다면, 그중 정답에 가까운 것과 그렇지 않은 것 모두가 연산 과정에 포함됩니다. 이 과정에서 모델은 정답을 맞히는 것뿐만 아니라, 보상 함수가 선호하는 특정한 패턴—주로 문장이 길고 상세한 패턴—을 학습하게 됩니다.

실제로 학습 과정을 모니터링해보면, 모델이 논리적 오류를 범하면서도 단순히 '설명하는 척'을 하느라 토큰을 낭비하는 비중이 늘어나는 것을 볼 수 있습니다. 이는 곧 학습 시간의 증가와 추론 비용의 상승으로 직결됩니다. 모든 답변을 매번 업데이트 신호로 사용하는 것은 계산 자원 측면에서 매우 사치스러운 일이며, 특히 하드웨어 자원이 한정된 상황에서는 학습 속도를 50% 이상 저하시키는 원인이 되기도 합니다 (출처: arXiv:2605.28028 관련 벤치마크 분석).

BPPO: 이진 접두사(Binary Prefix)를 통한 효율의 재정의

이러한 비효율을 해결하기 위해 등장한 개념이 바로 BPPO(Binary Prefix Policy Optimization)입니다. BPPO의 핵심 아이디어는 간단하면서도 강력합니다. 그룹 내의 모든 답변을 무차별적으로 학습하는 대신, 답변의 '접두사(Prefix)' 단계에서 이진적인 판단을 내리는 것입니다. 즉, 모델이 추론을 시작하는 초기 단계에서 이 경로가 정답으로 향하는지 아니면 오답으로 향하는지를 빠르게 판별하여 업데이트 신호를 집중시킵니다.

이 방식은 모델이 불필요하게 긴 문장을 생성하기 전에 이미 유용한 학습 신호를 제공합니다. BPPO는 답변 전체를 비교하는 대신, 특정 지점(Prefix)에서 갈라지는 경로들의 상대적 우위를 평가합니다. 이를 통해 모델은 '어떻게 하면 길게 말할까'가 아니라 '어느 지점에서 올바른 논리적 선택을 할까'에 집중하게 됩니다. 결과적으로 추론 과정은 훨씬 간결해지며, 학습에 필요한 연산량은 대폭 감소합니다. 필자의 판단으로는, 이는 강화학습의 탐색(Exploration) 범위를 논리적 핵심 지점으로 좁혀주는 매우 영리한 최적화 기법입니다.

마이그레이션 경로와 주의해야 할 함정들

기존 GRPO 기반 파이프라인을 BPPO 스타일로 전환하려는 팀이라면 몇 가지 기술적 부채를 점검해야 합니다. 가장 먼저 고려해야 할 것은 '접두사 추출(Prefix Extraction)' 로직의 구현입니다. 답변의 어느 지점까지를 유효한 접두사로 볼 것인지에 대한 하이퍼파라미터 튜닝이 필수적입니다.

또한, 답변이 너무 간결해지다 보면 복잡한 다단계 추론(Multi-step Reasoning)에서 필요한 중간 단계까지 생략해버리는 '과소 추론' 현상이 발생할 수 있습니다. 이를 방지하기 위해서는 보상 함수(Reward Function) 설계 시 논리적 완결성과 간결함 사이의 균형을 정교하게 설계해야 합니다. 단순히 짧은 답변에 가산점을 주는 방식은 위험합니다. 오히려 논리적 비약이 없는 선에서 가장 효율적인 경로를 택했을 때 보상을 극대화하는 구조가 필요합니다.

결국 미래의 AI 학습은 더 많은 데이터를 들이붓는 방식에서, 가장 가치 있는 데이터 조각(Signal)만을 골라내는 방식으로 진화할 것입니다. BPPO는 그 진화의 중심에 있는 기술입니다. 간결함은 단순히 짧은 문장이 아니라, 불필요한 연산을 걷어낸 사고의 정수임을 잊지 말아야 합니다.

참고: arXiv CS.LG (Machine Learning)

GRPO가 선택받았던 이유와 그 시절의 논리

대규모 스케일에서 드러난 '그룹 업데이트'의 고통

BPPO: 이진 접두사(Binary Prefix)를 통한 효율의 재정의

마이그레이션 경로와 주의해야 할 함정들

관련 글