- DeepSeek이 플래그십 모델 v3를 출시함
- 607B 파라미터의 Mixture-of-Experts(MoE) 모델로, 활성 파라미터는 37B
- v3는 Llama 3.1 405B, Qwen, Mistral을 능가하며, OpenAI GPT-4o와 Claude 3.5 Sonnet과 동등하거나 특정 작업에서는 이를 능가
- 이는 최초로 주요 폐쇄형 모델과 경쟁하는 공개 모델
TL;DR
- Deepseek v3는 낮은 비용으로 놀라운 성능을 달성
- 모델은 뛰어난 가성비를 제공하며, 비용 대비 성능에서 경쟁 모델을 압도
- MoE 아키텍처, FP8 혼합 정밀도 훈련, HAI-LLM 프레임워크와 같은 혁신적인 엔지니어링 도입
- 수학 및 추론에서 GPT-4o와 Claude 3.5 Sonnet을 능가
- 코딩 및 창작 작업에서는 Claude 3.5 Sonnet이 약간 우위
DeepSeek v3 설명
가장 저렴하고 성능이 뛰어난 모델
주요 혁신 요소
-
모델 아키텍처
-
Mixture-of-Experts (MoE) 아키텍처를 사용해 총 671B 파라미터 중 각 토큰당 37B 파라미터만 활성화
→ 밀집 모델(dense model) 대비 계산 요구량 대폭 감소
-
Multi-head Latent Attention (MLA) 를 활용해 Key-Value 캐시를 압축
→ 메모리 사용량 감소 및 효율적인 훈련 가능
-
FP8 혼합 정밀도(FP8 Mixed Precision) 훈련
- FP8 혼합 정밀도 훈련 프레임워크 도입으로 메모리 사용량을 줄이고 훈련 속도 향상
- 기존 FP16/FP32 포맷 대비 메모리 사용량 최대 50% 절감
- 세밀한 양자화(fine-grained quantization)와 정밀한 누적(accumulation precision) 전략으로 정확도 유지
-
로드 밸런싱 전략
-
보조 손실(auxiliary-loss) 없이 MoE 아키텍처의 로드 밸런싱을 구현
→ 기존 보조 손실 방식의 단점을 극복하면서 성능 개선
-
훈련 프레임워크
-
HAI-LLM이라는 커스텀 훈련 프레임워크 개발, 주요 최적화 내용:
-
DualPipe 알고리즘으로 효율적인 파이프라인 병렬 처리 구현
→ 파이프라인 지연(bubble) 감소 및 계산과 통신 중첩
- 효율적인 크로스-노드 all-to-all 통신 커널로 네트워크 대역폭 최대 활용
- 비용이 많이 드는 텐서 병렬 처리 없이 메모리 최적화
- 이러한 혁신을 통해 DeepSeek는 약 600만 달러의 비용으로 대규모 모델을 효율적으로 훈련하는 놀라운 성과를 달성
Chain of Thought(CoT) with R1
- DeepSeek는 새로운 DeepThink 기능을 추가하여 R1 모델 시리즈의 Chain-of-Thought(CoT) 추론 능력을 DeepSeek v3 LLM에 통합
-
Post-Training: Knowledge Distillation from DeepSeek-R1
- DeepSeek R1 시리즈 모델의 장문 Chain-of-Thought(CoT) 추론 능력을 일반 LLM(특히 DeepSeek-V3)으로 증류(distillation)하는 새로운 방법론 도입
- R1 모델의 검증(verification) 과 반영(reflection) 패턴을 DeepSeek-V3에 우아하게 통합, 추론 성능을 현저히 개선
- DeepSeek-V3의 출력 스타일과 길이를 효과적으로 제어하며 추론 품질 유지
- DeepSeek Chat에서 DeepThink 기능을 활성화 가능.
- DeepSeek-V3의 추론 성능은 o1에 비해 미흡하지만, CoT 통합으로 인해 일정 수준의 성능 향상 효과 확인.
DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet
- DeepSeek v3는 주요 벤치마크에서 뛰어난 점수를 기록하며 AI 커뮤니티를 열광시켰음
- 하지만 실제 상황에서 OpenAI GPT-4o와 Claude 3.5 Sonnet에 비해 어떤 성능을 보일까?
- 과연 이 모델이 받을 만한 찬사를 얻었을까, 아니면 과대평가된 것일까?
- 이를 평가하기 위해 네 가지 주요 영역에 초점을 맞춘 맞춤형 벤치마크 세트를 사용하여 세 모델을 테스트:
- 기본 설정
-
GPT-4o와 Claude 3.5 Sonnet은 이 벤치마크에서 모든 추론 및 수학 문제를 실패
-
Gemini 2.0 1206과 o1만이 이 작업들을 성공적으로 처리
- DeepSeek v3에게 기대한 것은 완벽이 아닌 기존 모델보다 나은 개선이었음
[1. 추론 능력]
- 추론 능력은 지능형 시스템의 핵심 요소 중 하나
- 테스트 결과, o1이 가장 우수한 성능을 보였고, 그 뒤를 Gemini 2.0 1206이 차지
- 이제 DeepSeek v3의 성능을 살펴보면..
a. 응답의 네 번째 단어 찾기
-
프롬프트: "What is the fourth word of the sentence of your response to this question?"
-
DeepSeek v3 응답:
- DeepSeek v3는 DeepThink CoT 기능을 활성화한 후 정확한 답을 도출. CoT 기반 추론은 모델의 성능을 향상시키는 데 효과적
b. 응답 단어 수 세기
-
프롬프트: "Count the number of words in the response to this prompt."
-
DeepSeek v3 응답:
- DeepSeek은 정확한 답을 도출하지 못함. 그러나 이는 GPT-4o와 Claude 3.5 Sonnet도 실패한 문제
c. 'Strawberry'에 포함된 'r'의 개수
-
프롬프트: "How many ‘r’ in Strawberry?"
-
DeepSeek v3 응답:
- DeepSeek은 정확하게 답을 맞춤
- GPT-4o가 이 간단한 문제를 항상 틀렸던 점과 비교하면, DeepSeek이 이 부분에서 우위를 보임
d. 농부와 양 문제
추론 능력 요약
- DeepSeek v3는 o1만큼 뛰어나진 않지만, Claude 3.5 Sonnet과 GPT-4o와 비슷하거나 종종 더 나은 성능을 보여줌
- 특히 가격 대비 성능에서 DeepSeek v3는 탁월. 이 점에서, DeepSeek은 훌륭한 선택으로 보임
[2. 수학]
a. 5.11 - 5.90 = ?
-
프롬프트: "5.11 - 5.90 = ?"
-
DeepSeek v3 응답:
단순한 문제지만 많은 대형 LLM이 종종 이 문제에서 실패함. DeepSeek v3는 정확히 계산하여 올바른 답을 제시
b. 평행사변형의 가능한 네 번째 꼭짓점 찾기
-
프롬프트: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
-
문제 배경:
- 이 문제는 Gilbert Strang의 Linear Algebra에서 가져온 질문으로, o1과 Gemini 2.0 1206만이 정확한 답을 찾았음
- GPT-4o와 Claude 3.5 Sonnet은 하나의 가능한 꼭짓점만을 찾았음
-
DeepSeek v3 응답:
- DeepSeek은 모든 가능한 네 번째 꼭짓점을 정확히 도출
- 이는 DeepSeek v3가 수학 문제에서 GPT-4o와 Claude 3.5 Sonnet보다 우수하다는 것을 보여줌
c. 두 정수의 합 찾기
-
프롬프트: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
-
DeepSeek v3 응답:
-
DeepThink 기능을 활성화하여 모델의 계산 능력을 강화했고, DeepSeek은 정확한 답을 도출
수학 능력 요약
- DeepSeek v3는 GPT-4o와 Claude 3.5 Sonnet보다 수학 문제에서 더 나은 성능을 보여줌
- 특히 복잡한 문제에서도 정확한 결과를 도출하며, 이는 벤치마크 점수와도 일치
- 수학적 정확성 면에서 DeepSeek v3는 매우 신뢰할 만한 모델임
[3. 코딩]
"Super Heroes" 문제 (LeetCode Hard)
-
문제 배경: :
- "Super Heroes"는 동적 프로그래밍 문제로, 최신 경쟁 프로그래밍 대회에서 사용되는 어려운 문제 중 하나
- 이 문제는 LLM이 얼마나 잘 작동하는지 테스트하기에 적합합니다.
- 문제 및 결과 생략
- DeepSeek v3 문제 해결 결과
- 첫 시도에서는 모델이 모든 테스트 케이스를 통과하지 못했으나, 두 번째 시도에서 완벽한 솔루션을 생성
- 모델이 문제를 학습했을 가능성도 있지만, 실제 코드 생성 능력의 개선을 보여줌
코딩 능력 요약
- DeepSeek v3는 Claude 3.5 Sonnet보다 약간 부족하지만, GPT-4와 비교할 때 거의 비슷한 수준
- 성능 대 비용 비율에서 DeepSeek v3는 매우 우수하며, 사용자 인터페이스 애플리케이션을 구축하려는 개발자에게 이상적인 선택
[4. 창의적 글쓰기 요약]
- 창의적 글쓰기 능력은 개인의 선호와 톤에 따라 평가가 달라질 수 있음
-
GPT-4o: 대체로 공식적이고 기업 친화적인 톤을 유지하며, 사용자를 만족시키기 위해 노력하는 모습을 보임
-
Claude 3.5 Sonnet: 보다 인간적인 톤과 고유한 관점을 유지하며, 창의적이고 독창적인 의견을 제공
-
Deepseek v3: 테스트 결과, GPT-4o와 놀라울 정도로 유사한 응답 패턴을 보임. 문단 구조와 표현 방식까지도 매우 유사
- 이는 Deepseek v3가 GPT-4o로 생성된 합성 데이터셋을 학습했을 가능성을 시사
창의적 글쓰기 능력 요약
- Deepseek v3는 GPT-4o와 유사한 성능을 보이며, 글쓰기 스타일이나 톤이 GPT-4o와 매우 유사
- GPT-4o를 선호했다면, Deepseek v3도 만족스러운 선택이 될 것
- Deepseek v3는 비용 대비 성능이 뛰어나며, 창의적 글쓰기 작업에서도 신뢰할 수 있는 모델
-보다 창의적이고 독창적인 접근을 원한다면, o1과 Claude 3.5 Sonnet이 더 적합할 수 있음
[최종 평가]
-
추론: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
-
수학: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
-
코딩: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
-
창작: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
누가 Deepseek v3를 사용해야 할까?
- 대부분의 작업에서 GPT-4o를 대체 가능
- 애플리케이션 구축한다면 최적. 비용 대비 성능이 뛰어나 사용자 애플리케이션 개발에 적합함
- Open-weight 여서 자체 호스팅 가능, 더 큰 제어권 제공