DeepSeek v3에 대한 노트 - "정말로 GPT-4o나 3.5 Sonnet보다 좋은가?"

2 days ago 4

  • DeepSeek이 플래그십 모델 v3를 출시함
    • 607B 파라미터의 Mixture-of-Experts(MoE) 모델로, 활성 파라미터는 37B
    • v3는 Llama 3.1 405B, Qwen, Mistral을 능가하며, OpenAI GPT-4o와 Claude 3.5 Sonnet과 동등하거나 특정 작업에서는 이를 능가
    • 이는 최초로 주요 폐쇄형 모델과 경쟁하는 공개 모델

TL;DR

  • Deepseek v3는 낮은 비용으로 놀라운 성능을 달성
  • 모델은 뛰어난 가성비를 제공하며, 비용 대비 성능에서 경쟁 모델을 압도
  • MoE 아키텍처, FP8 혼합 정밀도 훈련, HAI-LLM 프레임워크와 같은 혁신적인 엔지니어링 도입
  • 수학 및 추론에서 GPT-4o와 Claude 3.5 Sonnet을 능가
  • 코딩 및 창작 작업에서는 Claude 3.5 Sonnet이 약간 우위

DeepSeek v3 설명

  • 14.8조 고품질 데이터로 사전 훈련
  • 훈련 비용은 $6m(87억원) 밖에 들지 않음. Nvidia h800s 클러스터(2048개 GPU)에서 약 278만 GPU 시간 소요
    • 비교: Meta의 Llama 403B는 15조 토큰에서 약 3084만 GPU 시간 필요. 약 11배가 들었음
  • 새로운 모델 아키텍처와 최적화로 더 적은 리소스를 사용하면서도 더 강력한 성능을 보여줌
  • 중요한 콘텍스트 하나, 미국은 중국 기업의 NVIDIA GPU 조달을 금지했음
  • Andrej Karpathy의 분석
    • 일반적으로 최첨단 LLM은 16K~100K GPU 클러스터에 의존하지만, DeepSeek은 훨씬 적은 리소스로 동등한 결과를 달성
    • 데이터와 알고리듬 최적화를 통해 계산 비용을 줄이는 것이 가능함을 입증
    • DeepSeek-V3는 LLM 랭킹 테스트에서 좋은 성적을 기록 중이며, 초기 테스트에서도 우수한 결과를 보임
    • 자원이 제한된 환경에서도 성공적인 연구와 엔지니어링을 보여주는 사례
    • 이는 대규모 GPU 클러스터가 불필요함을 뜻하지 않지만, 자원의 낭비를 최소화하는 중요성을 강조
    • 모델 아키텍처, 학습 프레임워크, 데이터 활용에서 혁신 가능성을 입증
    • DeepSeek은 자세한 기술 보고서도 함께 공개하여, 그들의 방법론과 기술적 성과를 분석할 수 있는 귀중한 자료를 제공
  • QLoRA 논문의 저자로 유명한 Tim Dettmers가 DeepSeek의 엔지니어링 능력을 극찬함

    "기술 보고서를 읽어보니, 자원 제약 속에서도 놀라운 엔지니어링 역량을 보여줬습니다.
    DeepSeek 팀은 하드웨어 제약 아래에서 알려진 문제에 대한 솔루션을 직접 설계했습니다.
    모든 것이 너무 깔끔하고 우아합니다. '학문적인' 화려한 기법 없이도 순수하고 견고한 엔지니어링만으로 이룩된 성과입니다. 존경합니다."

가장 저렴하고 성능이 뛰어난 모델

  • Deepseek v3는 현재 기능을 고려할 때 가장 저렴한 모델
  • Stability AI의 설립자인 Emad Mostaque가 DeepSeek v3의 운영 비용과 효율성에 대해 코멘트:

    "DeepSeek v3를 하루 24시간, 초당 60 토큰(사람 읽기 속도의 5배)으로 실행하는 데 드는 비용은 하루 $2.
    라떼 한 잔 할래요? 아니면 AI를 쓸래요?"

  • DeepSeek API 가격
    • 2월 8일까지는 이전 버전(V2)과 동일한 가격 유지, 그 이후엔:
    • 입력 (Input):
      • 기본: $0.27 / 백만 토큰
      • 캐시 히트(cache hit): $0.07 / 백만 토큰
    • 출력 (Output): $1.10 / 백만 토큰
    • 이 가격 정책은 GPT-4o 및 Claude 3.5 Sonnet 수준의 모델을 훨씬 저렴한 비용으로 사용할 수 있게 해 줌
    • 특히 AI 개발자들에게는 최고의 선물과도 같은 기회로, 고성능 모델을 활용한 다양한 가능성을 열어줌

주요 혁신 요소

  • 모델 아키텍처
    • Mixture-of-Experts (MoE) 아키텍처를 사용해 총 671B 파라미터 중 각 토큰당 37B 파라미터만 활성화
      → 밀집 모델(dense model) 대비 계산 요구량 대폭 감소
    • Multi-head Latent Attention (MLA) 를 활용해 Key-Value 캐시를 압축
      → 메모리 사용량 감소 및 효율적인 훈련 가능
  • FP8 혼합 정밀도(FP8 Mixed Precision) 훈련
    • FP8 혼합 정밀도 훈련 프레임워크 도입으로 메모리 사용량을 줄이고 훈련 속도 향상
    • 기존 FP16/FP32 포맷 대비 메모리 사용량 최대 50% 절감
    • 세밀한 양자화(fine-grained quantization)와 정밀한 누적(accumulation precision) 전략으로 정확도 유지
  • 로드 밸런싱 전략
    • 보조 손실(auxiliary-loss) 없이 MoE 아키텍처의 로드 밸런싱을 구현
      → 기존 보조 손실 방식의 단점을 극복하면서 성능 개선
  • 훈련 프레임워크
    • HAI-LLM이라는 커스텀 훈련 프레임워크 개발, 주요 최적화 내용:
      • DualPipe 알고리즘으로 효율적인 파이프라인 병렬 처리 구현
        → 파이프라인 지연(bubble) 감소 및 계산과 통신 중첩
      • 효율적인 크로스-노드 all-to-all 통신 커널로 네트워크 대역폭 최대 활용
      • 비용이 많이 드는 텐서 병렬 처리 없이 메모리 최적화
  • 이러한 혁신을 통해 DeepSeek는 약 600만 달러의 비용으로 대규모 모델을 효율적으로 훈련하는 놀라운 성과를 달성

Chain of Thought(CoT) with R1

  • DeepSeek는 새로운 DeepThink 기능을 추가하여 R1 모델 시리즈의 Chain-of-Thought(CoT) 추론 능력을 DeepSeek v3 LLM에 통합
  • Post-Training: Knowledge Distillation from DeepSeek-R1
    • DeepSeek R1 시리즈 모델의 장문 Chain-of-Thought(CoT) 추론 능력을 일반 LLM(특히 DeepSeek-V3)으로 증류(distillation)하는 새로운 방법론 도입
    • R1 모델의 검증(verification)반영(reflection) 패턴을 DeepSeek-V3에 우아하게 통합, 추론 성능을 현저히 개선
    • DeepSeek-V3의 출력 스타일과 길이를 효과적으로 제어하며 추론 품질 유지
  • DeepSeek Chat에서 DeepThink 기능을 활성화 가능.
  • DeepSeek-V3의 추론 성능은 o1에 비해 미흡하지만, CoT 통합으로 인해 일정 수준의 성능 향상 효과 확인.

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

  • DeepSeek v3는 주요 벤치마크에서 뛰어난 점수를 기록하며 AI 커뮤니티를 열광시켰음
  • 하지만 실제 상황에서 OpenAI GPT-4o와 Claude 3.5 Sonnet에 비해 어떤 성능을 보일까?
  • 과연 이 모델이 받을 만한 찬사를 얻었을까, 아니면 과대평가된 것일까?
  • 이를 평가하기 위해 네 가지 주요 영역에 초점을 맞춘 맞춤형 벤치마크 세트를 사용하여 세 모델을 테스트:
    • 추론 능력, 수학, 코딩, 창의적 글쓰기
  • 기본 설정
    • GPT-4oClaude 3.5 Sonnet은 이 벤치마크에서 모든 추론 및 수학 문제를 실패
    • Gemini 2.0 1206o1만이 이 작업들을 성공적으로 처리
    • DeepSeek v3에게 기대한 것은 완벽이 아닌 기존 모델보다 나은 개선이었음

[1. 추론 능력]

  • 추론 능력은 지능형 시스템의 핵심 요소 중 하나
  • 테스트 결과, o1이 가장 우수한 성능을 보였고, 그 뒤를 Gemini 2.0 1206이 차지
  • 이제 DeepSeek v3의 성능을 살펴보면..

a. 응답의 네 번째 단어 찾기

  • 프롬프트: "What is the fourth word of the sentence of your response to this question?"
  • DeepSeek v3 응답:
    • DeepSeek v3는 DeepThink CoT 기능을 활성화한 후 정확한 답을 도출. CoT 기반 추론은 모델의 성능을 향상시키는 데 효과적

b. 응답 단어 수 세기

  • 프롬프트: "Count the number of words in the response to this prompt."
  • DeepSeek v3 응답:
    • DeepSeek은 정확한 답을 도출하지 못함. 그러나 이는 GPT-4o와 Claude 3.5 Sonnet도 실패한 문제

c. 'Strawberry'에 포함된 'r'의 개수

  • 프롬프트: "How many ‘r’ in Strawberry?"
  • DeepSeek v3 응답:
    • DeepSeek은 정확하게 답을 맞춤
    • GPT-4o가 이 간단한 문제를 항상 틀렸던 점과 비교하면, DeepSeek이 이 부분에서 우위를 보임

d. 농부와 양 문제

  • 프롬프트: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
  • DeepSeek v3 응답:
    • DeepSeek은 분석을 통해 결론에 도달했지만, 최종 답은 잘못되었음
    • DeepThink CoT 기능을 활성화한 경우에도 동일한 잘못된 답에 도달

    참고로, GPT-4o와 Claude 3.5 Sonnet도 이 문제를 정확히 풀지 못했으며, o1만이 유일하게 올바른 답을 찾았음

추론 능력 요약

  • DeepSeek v3는 o1만큼 뛰어나진 않지만, Claude 3.5 SonnetGPT-4o와 비슷하거나 종종 더 나은 성능을 보여줌
  • 특히 가격 대비 성능에서 DeepSeek v3는 탁월. 이 점에서, DeepSeek은 훌륭한 선택으로 보임

[2. 수학]

a. 5.11 - 5.90 = ?

  • 프롬프트: "5.11 - 5.90 = ?"
  • DeepSeek v3 응답:
    단순한 문제지만 많은 대형 LLM이 종종 이 문제에서 실패함. DeepSeek v3는 정확히 계산하여 올바른 답을 제시

b. 평행사변형의 가능한 네 번째 꼭짓점 찾기

  • 프롬프트: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
  • 문제 배경:
    • 이 문제는 Gilbert Strang의 Linear Algebra에서 가져온 질문으로, o1과 Gemini 2.0 1206만이 정확한 답을 찾았음
    • GPT-4o와 Claude 3.5 Sonnet은 하나의 가능한 꼭짓점만을 찾았음
  • DeepSeek v3 응답:
    • DeepSeek은 모든 가능한 네 번째 꼭짓점을 정확히 도출
    • 이는 DeepSeek v3가 수학 문제에서 GPT-4o와 Claude 3.5 Sonnet보다 우수하다는 것을 보여줌

c. 두 정수의 합 찾기

  • 프롬프트: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
  • DeepSeek v3 응답:
    • DeepThink 기능을 활성화하여 모델의 계산 능력을 강화했고, DeepSeek은 정확한 답을 도출

수학 능력 요약

  • DeepSeek v3는 GPT-4o와 Claude 3.5 Sonnet보다 수학 문제에서 더 나은 성능을 보여줌
  • 특히 복잡한 문제에서도 정확한 결과를 도출하며, 이는 벤치마크 점수와도 일치
  • 수학적 정확성 면에서 DeepSeek v3는 매우 신뢰할 만한 모델임

[3. 코딩]

"Super Heroes" 문제 (LeetCode Hard)

  • 문제 배경: :
    • "Super Heroes"는 동적 프로그래밍 문제로, 최신 경쟁 프로그래밍 대회에서 사용되는 어려운 문제 중 하나
    • 이 문제는 LLM이 얼마나 잘 작동하는지 테스트하기에 적합합니다.
  • 문제 및 결과 생략
  • DeepSeek v3 문제 해결 결과
    • 첫 시도에서는 모델이 모든 테스트 케이스를 통과하지 못했으나, 두 번째 시도에서 완벽한 솔루션을 생성
    • 모델이 문제를 학습했을 가능성도 있지만, 실제 코드 생성 능력의 개선을 보여줌

코딩 능력 요약

  • DeepSeek v3는 Claude 3.5 Sonnet보다 약간 부족하지만, GPT-4와 비교할 때 거의 비슷한 수준
  • 성능 대 비용 비율에서 DeepSeek v3는 매우 우수하며, 사용자 인터페이스 애플리케이션을 구축하려는 개발자에게 이상적인 선택

[4. 창의적 글쓰기 요약]

  • 창의적 글쓰기 능력은 개인의 선호와 톤에 따라 평가가 달라질 수 있음
  • GPT-4o: 대체로 공식적이고 기업 친화적인 톤을 유지하며, 사용자를 만족시키기 위해 노력하는 모습을 보임
  • Claude 3.5 Sonnet: 보다 인간적인 톤과 고유한 관점을 유지하며, 창의적이고 독창적인 의견을 제공
  • Deepseek v3: 테스트 결과, GPT-4o와 놀라울 정도로 유사한 응답 패턴을 보임. 문단 구조와 표현 방식까지도 매우 유사
    • 이는 Deepseek v3가 GPT-4o로 생성된 합성 데이터셋을 학습했을 가능성을 시사

창의적 글쓰기 능력 요약

  • Deepseek v3는 GPT-4o와 유사한 성능을 보이며, 글쓰기 스타일이나 톤이 GPT-4o와 매우 유사
  • GPT-4o를 선호했다면, Deepseek v3도 만족스러운 선택이 될 것
  • Deepseek v3는 비용 대비 성능이 뛰어나며, 창의적 글쓰기 작업에서도 신뢰할 수 있는 모델
    -보다 창의적이고 독창적인 접근을 원한다면, o1Claude 3.5 Sonnet이 더 적합할 수 있음

[최종 평가]

  • 추론: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
  • 수학: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
  • 코딩: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
  • 창작: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o

누가 Deepseek v3를 사용해야 할까?

  • 대부분의 작업에서 GPT-4o를 대체 가능
  • 애플리케이션 구축한다면 최적. 비용 대비 성능이 뛰어나 사용자 애플리케이션 개발에 적합함
  • Open-weight 여서 자체 호스팅 가능, 더 큰 제어권 제공

Read Entire Article