GLM-4.7-Flash 모델 공개

14 hours ago 2

GLM-4.7-Flash는 30B-A3B MoE 구조를 가진 대형 언어 모델로, 성능과 효율성을 균형 있게 제공하는 경량 배포용 모델
AIME 25, GPQA, SWE-bench 등 다양한 벤치마크 테스트에서 높은 점수를 기록하며 동급 모델(Qwen3-30B/GPT-OSS-20B) 대비 경쟁력 있는 결과
30B급 모델 중 최고 수준의 성능을 지향하며, 오픈소스 기반 AI 연구와 배포 효율화를 위한 중요한 진전

소개 (Introduction)

GLM-4.7-Flash는 30B-A3B Mixture-of-Experts(MoE) 모델로, 30B급 모델 중 가장 강력한 성능을 목표로 함
- 성능과 효율성의 균형을 중시한 경량 배포 옵션 제공
- 대규모 모델을 보다 효율적으로 활용할 수 있는 설계

벤치마크 성능 (Performances on Benchmarks)

다양한 표준 벤치마크 테스트에서 GLM-4.7-Flash의 성능 수치 제시
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507은 85.0, GPT-OSS-20B는 91.7)
- GPQA: 75.2 (비교 모델보다 높음)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (다른 모델 대비 큰 차이)
- τ²-Bench: 79.5
- BrowseComp: 42.8
여러 항목에서 Qwen3-30B-A3B-Thinking-2507 및 GPT-OSS-20B보다 우수한 결과를 보임

로컬 배포 (Serve GLM-4.7-Flash Locally)

GLM-4.7-Flash는 vLLM과 SGLang 추론 프레임워크를 지원
- 두 프레임워크 모두 메인 브랜치에서만 지원
- 공식 GitHub 저장소(zai-org/GLM-4.5) 에서 배포 지침 확인

Read Entire Article