GLM-4.5: 에이전트성, 추론, 코딩(ARC) 기반 모델

1 week ago 9

  • GLM-4.5는 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델로, 에이전트성, 추론, 코딩 성능이 뛰어남
  • 이 모델은 23조 토큰으로 다단계 훈련 및 전문가 모델 반복, 강화학습을 통해 발전함
  • TAU-Bench, AIME 24, SWE-bench Verified 등 다양한 핵심 벤치마크에서 상위권 성적 기록함
  • 적은 수의 파라미터로도 효율적인 성능을 내며, 주요 상용 모델들에 근접하거나 앞섬
  • GLM-4.5와 소형 버전 GLM-4.5-Air를 공개해 연구 및 AI 시스템 개발에 활용할 수 있음

개요

  • GLM-4.5는 3550억 총 파라미터와 320억 활성 파라미터를 지닌 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델임
  • 하이브리드 추론 방식을 적용하여, 깊이 있는 사고(Thinking) 모드와 즉각적 응답(Direct Response) 모드를 모두 지원함
  • 23조 개의 토큰을 사용한 다단계 학습과 전문가 모델 반복, 그리고 강화학습 기반 포스트 트레이닝을 거침
  • 그 결과, 에이전트성(Agentic), 추론(Reasoning), 코딩(Coding·ARC) 작업 영역에서 높은 성적 달성
    • TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2% 기록
  • GLM-4.5는 경쟁 모델 대비 적은 파라미터로, 전체 모델 중 3위, 에이전트 벤치마크 기준 2위를 차지함
  • 대형 모델 GLM-4.5(3550억 파라미터)와 소형화된 GLM-4.5-Air(1060억 파라미터) 두 버전을 모두 공개함
  • 전체 코드, 모델, 상세 정보는 공식 GitHub(https://github.com/zai-org/GLM-4.5)에서 확인 가능함

LLM 성능 평가: 에이전트성, 추론, 코딩 벤치마크

  • GLM-4.5 및 글로벌 주요 모델들을 12종의 대표적 벤치마크(MMLU-Pro, AIME 24, SWE-Bench Verified 등)에서 테스트함
  • GLM-4.5는 전체 평균 순위 3위, GLM-4.5-Air는 6위를 기록함
  • 에이전트성 점수 기준, OpenAI o3의 뒤를 이어 2위, 코딩 벤치마크에서도 Claude Sonnet 4와 근접한 3위를 달성함
  • GLM-4.5는 DeepSeek-R1의 절반, Kimi K2의 3분의 1 파라미터로 유사한 성능을 보임
  • SWE-bench Verified 항목 성능 대비 파라미터 수로도 GLM-4.5와 GLM-4.5-Air는 Pareto Frontier상에 위치함
  • 2025년 7월 28일 기준 성능 데이터임

서론

  • 대형 언어 모델(LLM) 은 기존의 범용 데이터 저장고에서 범용 문제 해결기로 빠르게 진화하고 있음
  • 인공지능의 종착점인 AGI(Artificial General Intelligence)는 여러 영역에서 인간 수준의 인지 능력을 갖춘 모델을 지향함
  • 이를 위해선 복잡한 문제 해결력, 일반화, 자기 개선 능력이 통합적으로 요구됨
  • 실제 업무와 복잡한 전문 문제 해결에 중요한 3대 핵심 능력은 다음과 같음:
    • 에이전트성 능력: 도구 및 외부 세계와의 상호작용
    • 복합 추론: 수학/과학 등 복잡한 단계적 문제 해결
    • 고급 코딩: 실질적인 소프트웨어 엔지니어링 수행 능력
  • 기존 SOTA 상용 모델(OpenAI, Anthropic)은 개별 영역에서 특화 성능을 보이나, 오픈소스 모델 가운데 3대 분야 모두에서 우수한 공개 모델은 부족함

GLM-4.5 및 GLM-4.5-Air 모델 소개

  • GLM-4.5/GLM-4.5-Air는 에이전트성·추론·코딩 모든 분야에서 오픈소스 최고 수준 성능을 보임
  • 두 모델 모두 하이브리드 추론 모드를 지원
    • Thinking Mode는 복잡 추론 및 에이전트성에 강점
    • Non-thinking Mode는 빠른 응답에 특화
  • GLM-4.5의 주요 성적:
    • 에이전트성: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4%(경쟁 상용 모델 대비 우위)
    • 추론: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
    • 코딩: SWE-bench Verified 64.2%, Terminal-Bench 37.5%(GPT-4.1 및 Gemini-2.5-pro 대비 우위, Claude Sonnet 4와 근접)
  • GLM-4.5-Air는 1060억 파라미터로, 1000억 규모 모델 중에서도 Qwen3-235B-A22B, MiniMax-M1와 대등하거나 우위

벤치마크 성능 현황 및 특징

  • 12개 주요 벤치마크 전반에서 GLM-4.5, GLM-4.5-Air 모두 높은 순위 기록
  • GLM-4.5는 에이전트성, 추론, 코딩 분야에서 고른 성능, 파라미터 효율성 두드러짐
  • SWE-bench Verified 기준 파라미터 수 대비 최고 효율 영역(Pareto Frontier) 달성
  • 상용 및 오픈소스 여러 모델과 함께 정밀한 성능 비교 진행

공개 및 오픈소스 지원

사전훈련

아키텍처

  • GLM-4.5 시리즈는 Mixture-of-Experts(MoE) 구조를 채택, 훈련 및 추론의 연산 효율성을 크게 높임
  • MoE 레이어에 loss-free balance routing과 시그모이드 게이팅을 적용함
  • DeepSeek-V3, Kimi K2와 달리 모델의 폭(히든 차원, 라우트 전문가 수)은 줄이고 깊이(레이어 수)를 늘림. 더 깊은 모델이 추론 능력 성장에 효과적임
  • Self-Attention엔 Grouped-Query Attention + partial RoPE 적용, 96개 attention head로 히든 차원 5120에 2.5배수 attention head 구성
  • 헤드 수 증가가 훈련 손실엔 영향이 없지만, 실제 추론·벤치마크 성능에는 긍정적 영향 확인
  • QK-Norm 적용으로 attention logit 값의 안정성 제고
  • GLM-4.5, GLM-4.5-Air 모두 MoE 레이어 기반 MTP(Multi-Token Prediction) 레이어를 추가하여 추론시 speculative decoding 지원
  • 아키텍처 파라미터 집계 과정에서는 MTP 레이어의 파라미터는 포함, 워드 임베딩 및 출력 레이어는 미포함

결론 및 기대 효과

  • GLM-4.5/GLM-4.5-Air는 오픈소스 AI 시장에서 고성능, 효율성, 범용성을 두루 갖춘 차세대 언어 모델임
  • 여러 분야 통합/고난도 문제 해결 역량, 상용 모델 경쟁력 확보, 파라미터 효율성에서 두각을 나타냄
  • 학계, 산업계, 개발자 연구 전반에서 오픈소스 대형 언어 모델의 혁신 기반으로 기여 가능성 확장

Read Entire Article