GLM-4.7-Flash 모델 공개

14 hours ago 2

  • GLM-4.7-Flash는 30B-A3B MoE 구조를 가진 대형 언어 모델로, 성능과 효율성을 균형 있게 제공하는 경량 배포용 모델
  • AIME 25, GPQA, SWE-bench 등 다양한 벤치마크 테스트에서 높은 점수를 기록하며 동급 모델(Qwen3-30B/GPT-OSS-20B) 대비 경쟁력 있는 결과
  • 30B급 모델 중 최고 수준의 성능을 지향하며, 오픈소스 기반 AI 연구와 배포 효율화를 위한 중요한 진전

소개 (Introduction)

  • GLM-4.7-Flash는 30B-A3B Mixture-of-Experts(MoE) 모델로, 30B급 모델 중 가장 강력한 성능을 목표로 함
    • 성능과 효율성의 균형을 중시한 경량 배포 옵션 제공
    • 대규모 모델을 보다 효율적으로 활용할 수 있는 설계

벤치마크 성능 (Performances on Benchmarks)

  • 다양한 표준 벤치마크 테스트에서 GLM-4.7-Flash의 성능 수치 제시
    • AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507은 85.0, GPT-OSS-20B는 91.7)
    • GPQA: 75.2 (비교 모델보다 높음)
    • LCB v6: 64.0
    • HLE: 14.4
    • SWE-bench Verified: 59.2 (다른 모델 대비 큰 차이)
    • τ²-Bench: 79.5
    • BrowseComp: 42.8
  • 여러 항목에서 Qwen3-30B-A3B-Thinking-2507GPT-OSS-20B보다 우수한 결과를 보임

로컬 배포 (Serve GLM-4.7-Flash Locally)

  • GLM-4.7-Flash는 vLLMSGLang 추론 프레임워크를 지원

Read Entire Article