Cerebras, Qwen3-235B 출시로 초당 1,500 토큰 달성

2 days ago 5

Cerebras가 Qwen3-235B AI 모델을 공개하며, 초당 1,500 토큰 생성으로 즉각적 추론 성능 제공
기존 폐쇄형 모델 대비 1/10 비용에 30배 빠른 생산성 및 코드 생성 가능
131K 컨텍스트 지원으로 대규모 코드베이스 및 복잡한 문서 처리 실현
Cline과 협력해 Microsoft VS Code 내 실시간 코드 생성 경험 확대
이번 출시로 오픈소스 기반의 OpenAI, Anthropic 대안으로 고성능 합리적 비용 실현

Qwen3-235B: Cerebras의 초고속 AI 추론 모델 출시 및 주요 성과

세계 최고 속도 AI 추론 모델, Cerebras Inference Cloud에서 공개

Cerebras Systems가 2025년 7월 8일, Qwen3-235B를 정식 론칭하며, 131K 컨텍스트까지 전폭 지원하는 새로운 AI 추론 모델 공개
본 모델은 폐쇄형 대안 대비 1/10 수준의 비용으로 프론티어급 인공지능 능력과 초고속 추론 성능을 결합해 기업 AI 도입에 변혁을 제시함

프론티어 모델 수준의 지능

Alibaba의 Qwen3-235B는, Claude 4 Sonnet, Gemini 2.5 Flash, DeepSeek R1 등 최첨단 경쟁 모델과 대등한 과학, 코드, 일반 지식 벤치마크 성능을 Artificial Analysis 독립 평가로 입증함
Mixture-of-Experts 구조로 연산 효율을 극대화, 백만 입력 토큰당 0.60달러, 백만 출력 토큰당 1.20달러로 제공되어, 기존 폐쇄형 모델 대비 극히 저렴한 이용 가능

추론 속도: 분에서 초로 혁신

전통적 추론 AI는 일반적인 질의에도 수 분이 소요되는 경우가 많음
Wafer Scale Engine을 활용해 Qwen3-235B는 초당 1,500 토큰의 출력을 달성, 질의 응답 시간을 1~2분에서 0.6초로 단축함
이로써 코드 생성, 추론, 대규모 RAG 워크플로우가 즉각적 반응 실현, 실시간 AI 성능의 새로운 기준 확립
Artificial Analysis 측정 결과, 글로벌 유일의 초당 1,000 토큰 이상 생성 프론티어 AI 모델로 평가됨

131K 컨텍스트: 실제 환경 코드 생성 지원

Qwen3-235B 출시에 맞춰, Cerebras는 기존 32K 컨텍스트에서 131K까지 4배 확대 지원
이는 대규모 코드베이스, 복잡한 문서도 한 번에 추론 가능케 하며, 수십 개 파일/수만 라인 동시 코드 생성으로 생산 환경용 개발 가능성 대폭 증대
기존 32K 컨텍스트로는 간단한 코드 생성만 가능했으나, 131K 컨텍스트는 대형 애플리케이션 개발도 직접 지원함
이를 통해 기업용 코드 생성 시장이라는 생성형 AI의 최대, 가장 빠르게 성장 중인 분야에 직접 대응 가능해짐

Cline과의 전략적 제휴로 VS Code 통합 경험 강화

Cerebras는 180만 이상 설치된 최대 VS Code 코딩 에이전트 Cline과 파트너십 체결
모든 Cline 사용자는 Qwen3-32B(64K 컨텍스트, 무료)를 편집기에서 직접 활용 가능, 이후 Qwen3-235B(131K 컨텍스트)도 지원 예정
DeepSeek R1 등 경쟁사 대비 10~20배 빠른 코드 생성 속도 제공 예정
Cline의 CEO Saoud Rizwan은 “실시간 추론 덕분에 개발자가 코드, 문제를 탐색하며 사고의 속도와 동일하게 작업 흐름을 유지할 수 있음”이라고 강조함

30배 속도·1/10 비용 프론티어 AI 대안 제공

Cerebras의 이번 출시는, OpenAI·Anthropic 등 상용 모델과 유사한 수준의 오픈 기반 모델 지능 및 코드 생성을 원하는 개발자들에게 새로운 선택지 제공
특히, 초당 1,500 토큰 이상의 즉각적 추론 속도를 전세계 유일하게 구현, GPU 기반 대비 생산성 10배 향상
토큰 비용 또한 경쟁사 대비 1/10 이하로, 합리적 비용에 초고속 AI를 제공함

Cerebras Systems 소개

Cerebras Systems는 컴퓨터 건축, 딥러닝, 리서치, 엔지니어링 전문가 팀으로, AI 대규모 컴퓨팅 인프라 혁신에 집중 중
대표 제품 CS-3 시스템은 세계 최대 규모의 상용 AI 프로세서(Wafer-Scale Engine-3) 장착, 쉽고 빠른 클러스터링을 통해 대형 AI 슈퍼컴퓨터 구성 가능
Cerebras Inference는 혁신적인 추론 속도를 제공, 연구기관·기업·정부에서 고성능 전용 모델 개발 및 오픈소스 학습에 활용 중
Cerebras Cloud 및 온프레미스 환경 모두에서 솔루션 제공

Read Entire Article