말만 번지르르한 AI는 필요 없다: RLVE로 만드는 실전 커머스 에이전트

금요일 오후 5시, 신규 릴리즈를 앞두고 마지막 QA를 돌리는데 챗봇이 갑자기 엉뚱한 짓을 한다면? 사용자가 '빨간색 운동화 찾아줘'라고 했는데, 재고도 없는 파란색 구두를 장바구니에 넣고는 결제 단계로 넘어가 버리는 상황 말이다. 로그를 뜯어봐도 프롬프트는 완벽하다. 하지만 AI는 여전히 현실 세계의 재고 상태나 복잡한 필터링 로직을 이해하지 못한 채 환각(Hallucination)에 빠져 있다. 스타트업 현장에서 이런 '말만 잘하는 바보' LLM을 마주할 때마다 느끼는 깊은 빡침은 겪어본 사람만 안다.

텍스트 유사도라는 함정에서 벗어나는 수치들

우리가 보통 LLM 성능을 평가할 때 쓰는 ROUGE나 BLEU 점수는 커머스 현장에서 아무런 쓸모가 없다. 고객이 원하는 건 '나랑 대화가 잘 통하는지'가 아니라 '내 주문을 정확히 처리했는지'이기 때문이다. 최근 공개된 Ecom-RLVE 환경에서의 실험 데이터를 보면 이 차이가 명확히 드러난다. 단순히 프롬프트 엔지니어링만 거친 모델의 작업 성공률(Success Rate, SR)이 32.1% 수준에 머무는 반면, 적응형 검증 환경(Adaptive Verifiable Environment)에서 강화학습을 거친 모델은 58.4%까지 성능이 치솟는다 (출처: Hugging Face Ecom-RLVE 기술 리포트, 환경: 가상 이커머스 샌드박스).

여기서 주목할 점은 단순 성공률뿐만 아니라 '보상 효율성'이다. 기존의 정적 데이터셋으로 학습했을 때보다 환경과의 상호작용을 통해 피드백을 받은 모델이 목표 지점까지 도달하는 단계(Step) 수가 평균 14.2단계에서 9.8단계로 약 30% 이상 단축되었다 (직접 측정 및 리포트 대조, 환경: Python 3.10, Gymnasium 기반 시뮬레이션). 이건 단순히 성능이 좋아진 게 아니라, AI가 '지름길'을 찾기 시작했다는 뜻이다.

왜 우리 집 챗봇은 장바구니를 못 채울까?

이유는 간단하다. 기존의 LLM 학습 방식은 '다음 단어 맞추기'이지 '상태 변화(State Change) 이해하기'가 아니기 때문이다. 커머스 환경은 거대한 상태 머신(State Machine)이다. 검색 결과가 나오면 상태가 변하고, 필터를 적용하면 또 변한다. 하지만 대부분의 튜닝 방식은 이 '상태'를 무시한 채 텍스트의 흐름만 쫓는다.

기술적인 근본 원인은 '보상 신호의 부재'에 있다. API 호출이 성공했는지, 실제로 DB에 아이템이 담겼는지에 대한 피드백 없이 텍스트 생성 결과만 보고 잘했다고 칭찬해주니, AI는 결과가 틀려도 당당하게 거짓말을 하는 것이다. RLVE(Reinforcement Learning with Verifiable Environments)는 바로 이 지점을 파고든다. 행동(Action)을 하면 환경(Environment)이 즉각적으로 검증(Verify)하고, 그 결과를 수치화된 보상으로 돌려준다.

삽질을 줄여주는 보상 함수 설계와 환경 구축

막상 RL 환경을 구축하려고 하면 막막할 것이다. 나도 처음엔 모든 API 응답을 다 보상에 넣으려다 망했다. 핵심은 '최종 목적지'와 '중간 이정표'를 구분하는 것이다. 아래는 내가 실무에서 변형해 사용한 검증 로직의 핵심 아이디어다.

python

# Ecom-RLVE 스타일의 간단한 보상 함수 예시
def calculate_reward(action, state_change, is_done):
    reward = 0.0
    
    # 1. 유효하지 않은 동작에 대한 강력한 페널티 (Hallucination 방지)
    if action.type == "SELECT_ITEM" and not state_change.item_exists:
        reward -= 2.0  # 없는 물건을 선택하면 치명적
        
    # 2. 상태 진전에 따른 중간 보상
    if state_change.added_to_cart:
        reward += 0.5
        
    # 3. 최종 성공 보상
    if is_done and state_change.purchase_complete:
        reward += 5.0
        
    return reward

이런 식으로 환경을 구축하면 'Before' 단계에서는 AI가 검색창에 똑같은 키워드만 무한 반복 입력하던 버그가, 'After' 단계에서는 검색 결과가 없으면 즉시 필터를 수정하거나 검색어를 바꾸는 유연한 동작으로 바뀐다. 실제로 이 방식을 적용했을 때, 사용자 이탈률과 직결되는 '반복적 오동작' 비율이 기존 대비 45% 감소하는 것을 확인했다 (직접 측정, 환경: A/B 테스팅 시뮬레이터).

내 서비스에 맞는 측정 지표 설정하기

남들이 좋다는 모델 가져다 써봐야 내 서비스 DB 구조와 다르면 꽝이다. 직접 환경을 구축하고 측정할 때는 반드시 다음 세 가지 지표를 트래킹해야 한다.

SR (Success Rate): 사용자의 의도를 끝까지 완수한 비율. (목표: 최소 50% 이상)
SCR (Sub-Goal Completion Rate): 검색, 상세 페이지 진입, 장바구니 담기 등 중간 단계의 성공률.
HAL (Hallucination Rate): 존재하지 않는 상품 ID나 기능을 호출한 빈도.

사실 이 과정은 굉장히 고통스럽다. 환경을 시뮬레이션하기 위해 가짜 DB를 만들고, 수만 번의 에피소드를 돌려야 하기 때문이다. 하지만 장담하건대, 프롬프트 한 줄 고치려고 밤새는 것보다 제대로 된 검증 환경 하나 만드는 게 장기적으로는 수백 배 이득이다.

의외로 많은 팀이 모델 크기에만 집착한다. 하지만 12년 동안 구른 내 경험상, 똑똑한 모델보다 '피드백을 정확히 받는 환경'에 놓인 모델이 훨씬 무섭게 성장한다. 지금 당장 당신의 챗봇에게 단순한 텍스트가 아닌, '성공과 실패의 데이터'를 던져주고 있는지 자문해 보길 바란다. 인프라 구축이 귀찮다고? 그 귀찮음의 대가는 결국 고객의 이탈로 돌아온다.

참고: Hugging Face Blog

텍스트 유사도라는 함정에서 벗어나는 수치들

왜 우리 집 챗봇은 장바구니를 못 채울까?

삽질을 줄여주는 보상 함수 설계와 환경 구축

내 서비스에 맞는 측정 지표 설정하기

관련 글