대부분의 엔지니어는 LLM의 추론 능력을 극대화하기 위해 GRPO(Group Relative Policy Optimization)와 같은 실시간 온라인 강화학습이 반드시 필요하다고 믿습니다. 모델이 직접 답안을 생성하고 즉각적인 피드백을 받는 과정이 성능 향상의 핵심이라고 생각하기 때문입니다. 하지만 실제 대규모 학습 환경에서 이를 구현해 보면, 모델의 성능이 임계점에 도달하기도 전에 실시간 롤아웃(Rollout) 생성에 소요되는 연산 비용과 지연 시간 때문에 프로젝트의 경제성이 먼저 무너지는 현실을 마주하게 됩니다. 무조건적인 '실시간성'이 정답은 아니라는 뜻입니다.
검증 가능한 보상과 추론 모델의 진화 배경
최근 LLM 연구의 화두는 단순히 말을 잘하는 모델이 아니라, 수학적 증명이나 프로그래밍 코드처럼 논리적 완결성을 갖춘 답안을 내놓는 '추론 모델'입니다. 이를 위해 등장한 개념이 RLVR(Reinforcement Learning from Verifiable Rewards)입니다. 인간의 주관적인 피드백(RLHF) 대신, 컴파일러나 수학 솔버처럼 정답 여부를 명확히 판별할 수 있는 '검증 도구'를 보상의 근거로 삼는 방식입니다.
기존의 PPO(Proximal Policy Optimization)는 가치 함수(Value Function)를 위한 별도의 모델을 유지해야 했기에 메모리 점유율이 매우 높았습니다. 이를 해결하기 위해 등장한 GRPO는 그룹 내 상대적 보상을 계산함으로써 가치 모델 없이도 효율적인 학습을 가능하게 했습니다. 하지만 GRPO 역시 '온라인' 방식이라는 태생적 한계를 가집니다. 학습 루프가 돌아갈 때마다 모델이 수많은 샘플을 직접 생성해야 하므로, GPU 자원의 상당 부분이 학습이 아닌 '추론'에 낭비되는 구조적 모순이 발생한 것입니다.
정보 밀도가 높은 롤아웃의 내부 작동 원리
최신 연구인 arXiv:2605.21266v1은 이 지점에서 중요한 질문을 던집니다. "과연 모든 롤아웃을 실시간으로 생성해야 하는가?" 연구의 핵심은 '정보량이 풍부한(Informative) 롤아웃'을 선별하여 오프라인 선호도 최적화(DPO, Direct Preference Optimization)에 활용하는 것입니다.
이 메커니즘의 밑바닥을 들여다보면, 모델이 이미 잘 알고 있는 쉬운 문제에 대한 샘플은 과감히 버리고, 정답과 오답 사이의 경계가 모호하여 학습 신호가 강하게 발생하는 샘플만을 추출하는 과정을 거칩니다. 온라인 RL이 실시간으로 정책을 업데이트하며 '탐색'을 수행한다면, 이 방식은 탐색의 결과물 중 가치 있는 데이터만 골라 오프라인 데이터셋으로 구축합니다. 결과적으로 DPO가 가지는 고정 데이터셋의 한계(데이터 편향)를 온라인 RL의 탐색 능력으로 보완하면서도, 실시간 생성 비용은 획기적으로 줄이는 하이브리드 구조를 취하게 됩니다.
DPO와 GRPO 사이의 트레이드오프와 벤치마크
전통적인 DPO는 고정된 데이터셋에서 동작하므로 연산 효율은 극도로 높지만, 모델이 학습 과정에서 새로운 오류 패턴을 발견하고 수정할 기회가 없습니다. 반면 GRPO는 최신 정책에 기반한 데이터를 생성하므로 학습의 질은 높지만 속도가 느립니다.
두 방식의 격차를 보여주는 구체적인 지표를 살펴보면, 온라인 생성 과정이 포함된 RLVR 학습은 순수 오프라인 학습 대비 GPU 시간당 샘플 처리량이 현저히 낮습니다. 특정 실험 환경에서 온라인 RL은 오프라인 방식에 비해 전체 학습 시간을 수배 이상 증가시키는 것으로 나타났습니다 (출처: arXiv:2605.21266v1 내 분석 내용). 특히 수천 개의 프롬프트를 처리할 때, 매 스텝마다 수십 개의 응답을 생성해야 하는 GRPO의 특성은 추론 서버의 부하를 기하급수적으로 높입니다.
필자가 판단하기에 이 기술의 진정한 가치는 '데이터 효율성'에 있습니다. 단순히 많은 데이터를 넣는 것이 아니라, 모델의 정책을 변화시킬 수 있는 '결정적인 샘플'을 얼마나 보유했느냐가 모델의 최종 추론 점수를 결정짓기 때문입니다. 무의미한 롤아웃 1,000개보다 정보 밀도가 높은 10개의 샘플이 모델의 가중치를 더 올바른 방향으로 밀어넣습니다.
효율적인 추론 모델 학습을 위한 의사결정 프레임워크
그렇다면 우리는 언제 온라인 GRPO를 고수하고, 언제 오프라인 최적화로 전환해야 할까요? 프로젝트의 목적과 자원 상황에 따라 명확한 기준이 필요합니다.
첫째, 초기 학습 단계(Warm-up)에서는 오프라인 데이터셋을 활용한 DPO나 SFT(Supervised Fine-Tuning)가 압도적으로 유리합니다. 모델이 기본적인 논리 구조를 갖추지 못한 상태에서 무작위 롤아웃을 생성하는 것은 GPU 자원 낭비에 불과합니다.
둘째, 모델의 성능이 정체되는 구간(Plateau)에 진입했을 때 비로소 온라인 롤아웃을 도입해야 합니다. 이때도 모든 데이터를 온라인으로 처리하기보다는, 검증기(Verifier)를 통해 '실패한 케이스'와 '아깝게 실패한 케이스'를 수집하여 정보 밀도가 높은 데이터셋을 재구성하는 전략이 필요합니다.
셋째, 실시간 피드백의 비용이 모델 성능 향상으로 얻는 가치보다 크다면, 연구에서 제시한 것처럼 '최소한의 온라인 롤아웃'만을 수행하고 이를 즉시 오프라인 데이터로 변환하여 DPO로 재학습시키는 루프를 구축하십시오.
결국 고성능 AI 모델 개발은 무한한 자원 싸움이 아니라, 한정된 GPU 시간을 얼마나 '의미 있는 변화'에 집중시키느냐의 싸움입니다. 실시간성에 집착하기보다 데이터의 정보 가치를 먼저 측정하는 설계가 우선되어야 합니다.
참고: arXiv CS.LG (Machine Learning)