LLM을 넘어선 에이전트 설계: 스캐폴딩과 하니스의 실체

GAIA(General AI Assistants) 벤치마크의 레벨 3 작업에서 GPT-4 기반 에이전트들의 성공률이 30%를 넘기기 어렵다는 결과는 시사하는 바가 큽니다 (출처: GAIA 공식 리더보드, 2024년 기준). 이 수치는 아무리 강력한 언어 모델을 사용하더라도, 적절한 실행 환경과 제어 로직이 뒷받침되지 않으면 복잡한 문제를 해결하는 '에이전트'로서의 기능을 수행할 수 없음을 의미합니다. 단순히 똑똑한 뇌를 가졌다고 해서 숙련된 기술자가 될 수 없는 것과 같은 이치입니다.

개발자들이 흔히 빠지는 에이전트의 환상

현장에서 에이전트 시스템을 구축하는 개발자들을 만나보면 크게 두 가지 오해를 자주 접하게 됩니다. 첫째는 'LLM에 도구(Tool) 호출 권한만 부여하면 그것이 곧 에이전트'라는 생각입니다. 하지만 이는 마치 요리사에게 칼만 쥐여주고 주방 시스템은 구축하지 않은 것과 같습니다. 둘째는 '에이전트의 모든 추론 과정은 모델 내부에서 자율적으로 일어난다'는 믿음입니다. 사실 이 오해들은 에이전트를 하나의 독립된 인격체로 의인화하는 경향 때문에 발생하는데, 실제로는 매우 정교하게 설계된 소프트웨어 아키텍처가 필요합니다.

이러한 오해가 생기는 이유는 대화형 인터페이스인 ChatGPT의 경험이 너무나 강렬하기 때문입니다. 사용자는 모델이 스스로 생각하고 행동하는 것처럼 느끼지만, 실제 프로덕션 환경에서의 에이전트는 모델의 출력값을 파싱하고, 상태를 관리하며, 다음 단계를 결정하는 외부 로직에 의해 강하게 제어됩니다. 이 제어 장치가 부실하면 모델은 무한 루프에 빠지거나 엉뚱한 도구를 반복 호출하는 '환각의 늪'에서 헤어나오지 못합니다.

껍데기 아래에서 벌어지는 실제 메커니즘

에이전트의 내부를 들여다보면 크게 '스캐폴딩(Scaffold)'과 '하니스(Harness)'라는 두 가지 핵심 축이 움직이고 있습니다. 스캐폴딩은 에이전트의 사고 흐름을 규정하는 뼈대입니다. 예를 들어 ReAct(Reasoning and Acting) 패턴을 구현할 때, 모델이 '생각-행동-관찰'의 단계를 밟도록 강제하는 제어 루프가 바로 스캐폴딩입니다. 실제 측정 결과, 복잡한 다단계 추론에서 스캐폴딩 없이 단순 프롬프트만 사용했을 때보다 ReAct 프레임워크를 적용했을 때 성공률이 약 25% 향상되는 사례를 확인했습니다 (출처: ReAct: Synergizing Reasoning and Acting in Language Models 논문 벤치마크 데이터).

반면 하니스는 에이전트가 안전하게 활동할 수 있는 '울타리'이자 '인터페이스'입니다. 에이전트가 외부 API를 호출하거나 데이터베이스에 접근할 때, 그 범위와 권한을 제한하고 입력값을 검증하는 환경 전체를 의미합니다. 하니스가 제대로 설계되지 않으면 에이전트는 시스템 전체를 마비시킬 수 있는 위험한 명령을 내릴 수도 있습니다. 실제로 샌드박스 환경이 없는 상태에서 에이전트에게 파일 시스템 접근 권한을 주었을 때, 의도치 않은 시스템 파일 삭제 시도가 발생할 확률이 비약적으로 높아진다는 점은 보안 전문가들이 끊임없이 경고하는 지점입니다.

신뢰할 수 있는 에이전트를 위한 멘탈 모델

이제 우리는 에이전트를 '자율적인 지능체'가 아닌 '루프를 도는 상태 머신(State Machine)'으로 바라봐야 합니다. 모델은 이 상태 머신에서 '다음 상태를 결정하기 위한 확률적 엔진' 역할을 할 뿐입니다. 따라서 개발자의 핵심 역량은 프롬프트를 화려하게 쓰는 것이 아니라, 모델의 출력을 어떻게 구조화된 데이터로 변환하고, 예외 상황에서 어떻게 다시 루프로 복귀시킬지 설계하는 '스캐폴딩 설계 능력'에 집중되어야 합니다.

제가 직접 다양한 에이전트 프레임워크를 테스트해 본 결과, 성공적인 프로젝트들은 공통적으로 모델에 의존하는 비중을 줄이고 시스템적인 제어권을 강화하는 추세를 보였습니다. 모델이 내뱉는 자연어에 의존하기보다 JSON이나 XML 같은 구조화된 형식을 강제하고, 각 단계마다 하니스에서 엄격한 유효성 검사를 수행하는 방식입니다. 이는 유연성을 조금 희생하더라도 예측 가능성과 안정성을 확보하려는 현실적인 선택입니다.

트레이드오프와 설계의 균형

물론 강력한 스캐폴딩과 하니스를 구축하는 데는 비용이 따릅니다. 제어 로직이 복잡해질수록 전체 시스템의 지연 시간(Latency)은 늘어납니다. 단일 LLM 호출이 2~3초 내에 끝난다면, 여러 번의 루프와 검증 과정을 거치는 에이전트 작업은 30초 이상 소요되기도 합니다. 또한 하니스를 너무 좁게 설정하면 모델의 창의적인 문제 해결 능력이 제한되어, 정해진 시나리오 외의 상황에서는 대응하지 못하는 경직된 시스템이 될 위험이 있습니다.

결국 에이전트 구축의 핵심은 '모델의 지능'과 '시스템의 제어' 사이에서 최적의 균형점을 찾는 것입니다. 단순히 최신 모델인 Llama 3 70B나 GPT-4o를 사용하는 것에 안주하지 마십시오. 여러분의 시스템이 모델의 실수를 얼마나 견고하게 처리할 수 있는지, 그리고 모델이 활동할 운동장이 얼마나 안전하게 설계되었는지를 먼저 점검해야 합니다. 지금 바로 여러분이 만든 에이전트의 로그를 열어보십시오. 모델이 길을 잃었을 때 시스템이 어떤 가이드를 제공하고 있는지 확인하는 것부터가 시작입니다.

참고: Hugging Face Blog

개발자들이 흔히 빠지는 에이전트의 환상

껍데기 아래에서 벌어지는 실제 메커니즘

신뢰할 수 있는 에이전트를 위한 멘탈 모델

트레이드오프와 설계의 균형

관련 글