-
GLM-4.7-Flash는 30B-A3B MoE 구조를 가진 대형 언어 모델로, 성능과 효율성을 균형 있게 제공하는 경량 배포용 모델
- AIME 25, GPQA, SWE-bench 등 다양한 벤치마크 테스트에서 높은 점수를 기록하며 동급 모델(Qwen3-30B/GPT-OSS-20B) 대비 경쟁력 있는 결과
- 30B급 모델 중 최고 수준의 성능을 지향하며, 오픈소스 기반 AI 연구와 배포 효율화를 위한 중요한 진전
소개 (Introduction)
-
GLM-4.7-Flash는 30B-A3B Mixture-of-Experts(MoE) 모델로, 30B급 모델 중 가장 강력한 성능을 목표로 함
- 성능과 효율성의 균형을 중시한 경량 배포 옵션 제공
- 대규모 모델을 보다 효율적으로 활용할 수 있는 설계
벤치마크 성능 (Performances on Benchmarks)
- 다양한 표준 벤치마크 테스트에서 GLM-4.7-Flash의 성능 수치 제시
-
AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507은 85.0, GPT-OSS-20B는 91.7)
-
GPQA: 75.2 (비교 모델보다 높음)
-
LCB v6: 64.0
-
HLE: 14.4
-
SWE-bench Verified: 59.2 (다른 모델 대비 큰 차이)
-
τ²-Bench: 79.5
-
BrowseComp: 42.8
- 여러 항목에서 Qwen3-30B-A3B-Thinking-2507 및 GPT-OSS-20B보다 우수한 결과를 보임
로컬 배포 (Serve GLM-4.7-Flash Locally)
- GLM-4.7-Flash는 vLLM과 SGLang 추론 프레임워크를 지원