-
최신 대형 언어 모델에서 1백만 토큰까지 지원하는 긴 컨텍스트 윈도우가 도입되며, 에이전트 성능의 비약적 향상이 기대감으로 이어짐
- 실제로는 긴 컨텍스트가 더 나은 답변을 만들지 않으며, 오히려 컨텍스트 중독, 오류, 혼란, 충돌 등으로 인해 시스템 실패를 유발함
-
컨텍스트 오염(포이즈닝) , 컨텍스트 산만(디스트랙션) , 컨텍스트 혼란(컨퓨전) , 컨텍스트 충돌(클래시) 이 대표적인 문제점임
- 이러한 문제는 특히 다수의 정보 소스, 도구 연결, 다단계 추론 등 복잡한 흐름에서 에이전트에 더 큰 영향을 미침
- 향후 글에서 실질적인 해결법과 피하는 전략이 다뤄질 예정임
컨텍스트 관리의 중요성
- 최근의 대형 프론티어 모델들은 1백만 토큰까지 지원하는 장문의 컨텍스트 윈도우를 제공함
- 많은 사람들이 큰 윈도우에 모든 도구, 문서, 지시사항을 입력해도 문제없다는 기대를 가짐
- 그러나 실제로는 컨텍스트 과부하가 다양한 실패를 초래하며, 특히 에이전트형 애플리케이션에서 치명적인 문제로 작용함
컨텍스트 오염 (Context Poisoning)
- 컨텍스트 오염은 환각(hallucination)이나 오류가 컨텍스트에 유입되어 반복적으로 참조되는 현상임
- Deep Mind의 Gemini 2.5 기술 보고서는 게임 도중 잘못된 게임 상태가 목표나 요약 섹션에 남아 무의미한 전략과 불가능한 목표로 에이전트가 잘못된 행동을 반복하는 사례를 설명함
- 이러한 오염된 컨텍스트는 일시적으로 또는 장기간 에이전트의 판단을 흐리게 만듦
컨텍스트 산만 (Context Distraction)
- 컨텍스트 산만은 컨텍스트가 너무 길어져서 모델이 훈련 중 배운 내용보다 컨텍스트에 과하게 집중하는 현상임
- Gemini 2.5 Pro의 1M+ 토큰 윈도우에서도 실제로는 컨텍스트가 100,000 토큰을 넘어서면 모델이 과거 이력을 반복만 하며 창의적 계획 수립이 어려워짐
- Databricks 연구는 Llama 3.1 405b의 경우 32,000 토큰에서 이미 정확성이 급락함을 확인함
- 이처럼 극도로 큰 윈도우가 현실적으로는 요약(summarization), 팩트 검색(retrieval)에만 유용함을 시사함
컨텍스트 혼란 (Context Confusion)
- 너무 많은 툴이나 정의를 컨텍스트에 넣으면 모델이 불필요하거나 부적절한 도구 호출 등 저품질 응답을 생성함
- Berkeley의 Function-Calling Leaderboard에 따르면, 여러 도구가 제공될수록 모든 모델의 성능이 하락하며, 불필요한 호출이 빈번히 발생함
- GeoEngine 벤치마크 논문에선 Llama 3.1 8b 모델이 46개 툴이 주어진 상황에서 실패했으나, 19개만 주어질 때 성공함
- 컨텍스트에 들어간 정보는 모델이 반드시 고려해야만 하는 정보로 인식되어 불필요한 노이즈가 문제를 야기함
컨텍스트 충돌 (Context Clash)
-
컨텍스트 충돌은 다단계로 수집된 정보나 툴 설명 사이에 서로 모순되거나 상충하는 내용이 존재하는 상태임
- Microsoft와 Salesforce의 연구는 멀티턴 대화에서 이 현상이 평균 39% 성능 하락으로 이어짐을 보여줌
- 이는 초기 응답에서 잘못된 가정이 만들어지고 이후에도 그 답변에 과하게 의존하는 구조 때문임
- MCP 등 외부 도구와 연결할 때 충돌 위험성이 증가함
결론 및 전망
-
백만 토큰 컨텍스트의 등장이 혁신으로 여겨졌으나, 실제로는 오염, 산만, 혼란, 충돌 등 새로운 유형의 에러가 증가함
- 이런 문제들은 특히 복수 정보 수집, 단계적 도구 연계, 긴 대화 기록이 누적되는 에이전트 시스템에 치명적임
- 해결책으로는 동적 도구 로딩, 컨텍스트 격리 등 다양한 전략이 제안될 수 있으며, 후속 글에서 구체적으로 다뤄질 예정임
다음 글: “당신의 컨텍스트를 고치는 방법”