긴 컨텍스트가 실패하는 이유

17 hours ago 1

최신 대형 언어 모델에서 1백만 토큰까지 지원하는 긴 컨텍스트 윈도우가 도입되며, 에이전트 성능의 비약적 향상이 기대감으로 이어짐
실제로는 긴 컨텍스트가 더 나은 답변을 만들지 않으며, 오히려 컨텍스트 중독, 오류, 혼란, 충돌 등으로 인해 시스템 실패를 유발함
컨텍스트 오염(포이즈닝) , 컨텍스트 산만(디스트랙션) , 컨텍스트 혼란(컨퓨전) , 컨텍스트 충돌(클래시) 이 대표적인 문제점임
이러한 문제는 특히 다수의 정보 소스, 도구 연결, 다단계 추론 등 복잡한 흐름에서 에이전트에 더 큰 영향을 미침
향후 글에서 실질적인 해결법과 피하는 전략이 다뤄질 예정임

컨텍스트 관리의 중요성

최근의 대형 프론티어 모델들은 1백만 토큰까지 지원하는 장문의 컨텍스트 윈도우를 제공함
많은 사람들이 큰 윈도우에 모든 도구, 문서, 지시사항을 입력해도 문제없다는 기대를 가짐
그러나 실제로는 컨텍스트 과부하가 다양한 실패를 초래하며, 특히 에이전트형 애플리케이션에서 치명적인 문제로 작용함

컨텍스트 오염 (Context Poisoning)

컨텍스트 오염은 환각(hallucination)이나 오류가 컨텍스트에 유입되어 반복적으로 참조되는 현상임
Deep Mind의 Gemini 2.5 기술 보고서는 게임 도중 잘못된 게임 상태가 목표나 요약 섹션에 남아 무의미한 전략과 불가능한 목표로 에이전트가 잘못된 행동을 반복하는 사례를 설명함
이러한 오염된 컨텍스트는 일시적으로 또는 장기간 에이전트의 판단을 흐리게 만듦

컨텍스트 산만 (Context Distraction)

컨텍스트 산만은 컨텍스트가 너무 길어져서 모델이 훈련 중 배운 내용보다 컨텍스트에 과하게 집중하는 현상임
Gemini 2.5 Pro의 1M+ 토큰 윈도우에서도 실제로는 컨텍스트가 100,000 토큰을 넘어서면 모델이 과거 이력을 반복만 하며 창의적 계획 수립이 어려워짐
Databricks 연구는 Llama 3.1 405b의 경우 32,000 토큰에서 이미 정확성이 급락함을 확인함
이처럼 극도로 큰 윈도우가 현실적으로는 요약(summarization), 팩트 검색(retrieval)에만 유용함을 시사함

컨텍스트 혼란 (Context Confusion)

너무 많은 툴이나 정의를 컨텍스트에 넣으면 모델이 불필요하거나 부적절한 도구 호출 등 저품질 응답을 생성함
Berkeley의 Function-Calling Leaderboard에 따르면, 여러 도구가 제공될수록 모든 모델의 성능이 하락하며, 불필요한 호출이 빈번히 발생함
GeoEngine 벤치마크 논문에선 Llama 3.1 8b 모델이 46개 툴이 주어진 상황에서 실패했으나, 19개만 주어질 때 성공함
컨텍스트에 들어간 정보는 모델이 반드시 고려해야만 하는 정보로 인식되어 불필요한 노이즈가 문제를 야기함

컨텍스트 충돌 (Context Clash)

컨텍스트 충돌은 다단계로 수집된 정보나 툴 설명 사이에 서로 모순되거나 상충하는 내용이 존재하는 상태임
Microsoft와 Salesforce의 연구는 멀티턴 대화에서 이 현상이 평균 39% 성능 하락으로 이어짐을 보여줌
이는 초기 응답에서 잘못된 가정이 만들어지고 이후에도 그 답변에 과하게 의존하는 구조 때문임
MCP 등 외부 도구와 연결할 때 충돌 위험성이 증가함

결론 및 전망

백만 토큰 컨텍스트의 등장이 혁신으로 여겨졌으나, 실제로는 오염, 산만, 혼란, 충돌 등 새로운 유형의 에러가 증가함
이런 문제들은 특히 복수 정보 수집, 단계적 도구 연계, 긴 대화 기록이 누적되는 에이전트 시스템에 치명적임
해결책으로는 동적 도구 로딩, 컨텍스트 격리 등 다양한 전략이 제안될 수 있으며, 후속 글에서 구체적으로 다뤄질 예정임

다음 글: “당신의 컨텍스트를 고치는 방법”

Read Entire Article