-
Cerebras가 Qwen3-235B AI 모델을 공개하며, 초당 1,500 토큰 생성으로 즉각적 추론 성능 제공
- 기존 폐쇄형 모델 대비 1/10 비용에 30배 빠른 생산성 및 코드 생성 가능
- 131K 컨텍스트 지원으로 대규모 코드베이스 및 복잡한 문서 처리 실현
-
Cline과 협력해 Microsoft VS Code 내 실시간 코드 생성 경험 확대
- 이번 출시로 오픈소스 기반의 OpenAI, Anthropic 대안으로 고성능 합리적 비용 실현
Qwen3-235B: Cerebras의 초고속 AI 추론 모델 출시 및 주요 성과
세계 최고 속도 AI 추론 모델, Cerebras Inference Cloud에서 공개
- Cerebras Systems가 2025년 7월 8일, Qwen3-235B를 정식 론칭하며, 131K 컨텍스트까지 전폭 지원하는 새로운 AI 추론 모델 공개
- 본 모델은 폐쇄형 대안 대비 1/10 수준의 비용으로 프론티어급 인공지능 능력과 초고속 추론 성능을 결합해 기업 AI 도입에 변혁을 제시함
프론티어 모델 수준의 지능
- Alibaba의 Qwen3-235B는, Claude 4 Sonnet, Gemini 2.5 Flash, DeepSeek R1 등 최첨단 경쟁 모델과 대등한 과학, 코드, 일반 지식 벤치마크 성능을 Artificial Analysis 독립 평가로 입증함
- Mixture-of-Experts 구조로 연산 효율을 극대화, 백만 입력 토큰당 0.60달러, 백만 출력 토큰당 1.20달러로 제공되어, 기존 폐쇄형 모델 대비 극히 저렴한 이용 가능
추론 속도: 분에서 초로 혁신
- 전통적 추론 AI는 일반적인 질의에도 수 분이 소요되는 경우가 많음
-
Wafer Scale Engine을 활용해 Qwen3-235B는 초당 1,500 토큰의 출력을 달성, 질의 응답 시간을 1~2분에서 0.6초로 단축함
- 이로써 코드 생성, 추론, 대규모 RAG 워크플로우가 즉각적 반응 실현, 실시간 AI 성능의 새로운 기준 확립
- Artificial Analysis 측정 결과, 글로벌 유일의 초당 1,000 토큰 이상 생성 프론티어 AI 모델로 평가됨
131K 컨텍스트: 실제 환경 코드 생성 지원
- Qwen3-235B 출시에 맞춰, Cerebras는 기존 32K 컨텍스트에서 131K까지 4배 확대 지원
- 이는 대규모 코드베이스, 복잡한 문서도 한 번에 추론 가능케 하며, 수십 개 파일/수만 라인 동시 코드 생성으로 생산 환경용 개발 가능성 대폭 증대
- 기존 32K 컨텍스트로는 간단한 코드 생성만 가능했으나, 131K 컨텍스트는 대형 애플리케이션 개발도 직접 지원함
- 이를 통해 기업용 코드 생성 시장이라는 생성형 AI의 최대, 가장 빠르게 성장 중인 분야에 직접 대응 가능해짐
Cline과의 전략적 제휴로 VS Code 통합 경험 강화
- Cerebras는 180만 이상 설치된 최대 VS Code 코딩 에이전트 Cline과 파트너십 체결
- 모든 Cline 사용자는 Qwen3-32B(64K 컨텍스트, 무료)를 편집기에서 직접 활용 가능, 이후 Qwen3-235B(131K 컨텍스트)도 지원 예정
- DeepSeek R1 등 경쟁사 대비 10~20배 빠른 코드 생성 속도 제공 예정
- Cline의 CEO Saoud Rizwan은 “실시간 추론 덕분에 개발자가 코드, 문제를 탐색하며 사고의 속도와 동일하게 작업 흐름을 유지할 수 있음”이라고 강조함
30배 속도·1/10 비용 프론티어 AI 대안 제공
- Cerebras의 이번 출시는, OpenAI·Anthropic 등 상용 모델과 유사한 수준의 오픈 기반 모델 지능 및 코드 생성을 원하는 개발자들에게 새로운 선택지 제공
- 특히, 초당 1,500 토큰 이상의 즉각적 추론 속도를 전세계 유일하게 구현, GPU 기반 대비 생산성 10배 향상
- 토큰 비용 또한 경쟁사 대비 1/10 이하로, 합리적 비용에 초고속 AI를 제공함
Cerebras Systems 소개
- Cerebras Systems는 컴퓨터 건축, 딥러닝, 리서치, 엔지니어링 전문가 팀으로, AI 대규모 컴퓨팅 인프라 혁신에 집중 중
- 대표 제품 CS-3 시스템은 세계 최대 규모의 상용 AI 프로세서(Wafer-Scale Engine-3) 장착, 쉽고 빠른 클러스터링을 통해 대형 AI 슈퍼컴퓨터 구성 가능
-
Cerebras Inference는 혁신적인 추론 속도를 제공, 연구기관·기업·정부에서 고성능 전용 모델 개발 및 오픈소스 학습에 활용 중
- Cerebras Cloud 및 온프레미스 환경 모두에서 솔루션 제공