I. AI 발전을 지배하는 스케일링 법칙
- Elon Musk가 Grok 3을 "지구상에서 가장 똑똑한 AI"라고 부른 것이 과장이 아닐 가능성이 높음
- Grok 2에 비해 비약적인 발전을 이루었으며, OpenAI, Google DeepMind, Anthropic과 같은 성숙한 연구소들의 모델과 동등하거나 일부 영역에서는 뛰어남
- LMSys Arena에서 모든 카테고리에서 1위를 차지하며, 수학, 코딩, 과학 문제에서도 높은 수준(o3 수준)의 성과를 보임
- 일부 특정 작업에서는 최상위 모델들보다 부족하지만, 대부분의 기준에서 동급 최강(co-state-of-the-art) 수준임
- Grok 3은 단순한 xAI의 성공을 넘어, AI 연구에서 규모의 중요성을 강조하는 The Bitter Lesson의 또 다른 승리를 의미
- 비판적인 시각이나 언론의 보도와 달리 AI 발전에 있어 **스케일링 법칙(Scaling Laws)**은 여전히 유효하며, 그 중요성은 더욱 커지고 있음
II. DeepSeek: 법칙을 증명하는 예외
-
DeepSeek의 성공 배경
- DeepSeek은 상대적으로 적은 컴퓨팅 자원(약 50K Nvidia Hopper GPU)으로도 업계 최상위 경쟁자들과 맞설 수 있었음
- 미국 연구소들은 100K 이상의 Nvidia H100을 사용했으나, DeepSeek은 전체 기술 스택을 최적화하여 성과를 냄
- 이로 인해 DeepSeek은 커뮤니티가 믿어왔던 'Bitter Lesson' 및 'Scaling Paradigm'에 대한 의문을 불러일으켰음
-
잘못된 결론과 Bitter Lesson의 진짜 의미
- 일부 사람들은 DeepSeek의 성공을 "GPU가 중요하지 않으며, 알고리즘적 최적화가 더 중요하다"는 증거로 해석함
- 하지만 Bitter Lesson은 "알고리즘적 개선이 필요 없다"는 것이 아니라, 가능한 경우 더 많은 컴퓨팅 자원을 활용하는 것이 최선이라는 의미임
- DeepSeek은 GPU가 부족했기 때문에 최적화에 집중할 수밖에 없었으며, 만약 100K GPU로 학습했다면 더 좋은 성과를 냈을 것임
- 즉, DeepSeek이 증명한 것은 최적화의 가능성이지, "스케일링이 무의미하다"는 것이 아님
-
DeepSeek CEO의 입장
- CEO인 Liang Wenfeng조차 미국의 수출 규제가 더 나은 모델 개발의 주요 장애물이라고 밝힘
- 50K Hopper GPU를 사용하고도 이러한 발언을 했다는 것은 "GPU가 중요하지 않다"는 해석과 정반대의 의미를 가짐
- DeepSeek의 성공은 Bitter Lesson과 Scaling Paradigm을 지지하는 사례로 볼 수 있으며, 단지 예외적인 경우일 뿐임
III. xAI는 "스케일링 > 최적화"를 증명함
-
Grok 3와 xAI의 접근 방식
- xAI의 성과가 "스케일링이 최적화보다 중요하다"는 회의론자들의 인식을 바꿀 수 있을지 의문
- Grok 3의 아키텍처 변경 여부나 인프라 최적화 수준은 명확하지 않지만, 100K H100 GPU가 있는 Memphis의 Colossus 슈퍼컴퓨터에서 학습한 것은 확실함
- 이는 DeepSeek이 보유한 GPU 수보다 훨씬 많음
-
DeepSeek과 다른 전략
- DeepSeek은 제한된 GPU 자원을 극한까지 최적화해야 했지만, xAI는 그런 필요 없이 기존 표준 수준의 최적화만 수행하면 됨
- Bitter Lesson의 핵심은 "충분한 컴퓨팅 자원이 있다면, 불필요한 최적화에 시간 낭비하지 말고 그냥 스케일링을 하라"는 것
- xAI는 OpenAI보다도 더 많은 컴퓨팅 자원을 투입해 Grok 3을 학습했고, 그 결과 최첨단 모델을 만들어 냄
-
Bitter Lesson은 AI뿐만 아니라 보편적인 진리
- "주요 자원이 많다면, 보조 자원을 짜내는 데 시간을 낭비할 필요가 없음"
- 마치 사막의 프레맨(Fremen)이 땀을 재활용하는 대신, 그냥 비가 내리는 행성에서 사는 것이 더 효율적인 것과 같음
- 알고리즘 개선과 컴퓨팅 파워 증가는 모두 중요하지만, 특정 시점 이후에는 최적화보다 더 많은 자원을 투입하는 것이 효과적임
- 컴퓨팅 파워는 돈만 있으면 해결 가능하지만, 획기적인 알고리즘 개선은 예측할 수 없으며, 미래에도 확장 가능하리란 보장이 없음
-
스케일링을 멈추지 않는 것이 중요함
- 한계점에 부딪히면 최적화가 아니라, 스케일링할 요소를 바꾸면 됨
- 제한된 자원이 혁신을 촉진할 수 있지만, 궁극적으로 "더 많은 자원"이 "더 나은 최적화"를 이김
- DeepSeek은 어쩔 수 없이 최적화에 집중했지만, xAI나 OpenAI가 DeepSeek처럼 혁신의 제약 속에서 일하려 하지는 않을 것임
- 결국, xAI와 DeepSeek은 "막대한 자원을 투입하는 접근 vs 제한된 자원을 극한까지 활용하는 접근"의 대표적인 사례
- 두 회사 모두 주어진 환경에서 최선을 다했지만, DeepSeek이 컴퓨팅 자원 부족 상태에 머무르는 한, xAI가 유리한 위치를 유지할 가능성이 높음
- 이처럼 Bitter Lesson은 학계에서 논란이 많음에도, 지난 10년 이상 실제 AI 개발에서 유효한 법칙으로 증명되고 있음
IV. xAI와 DeepSeek을 도운 패러다임 전환
-
AI 경쟁에서의 후발주자의 어려움
- AI 경쟁에서 늦게 출발하는 것은 극복하기 어려운 핸디캡처럼 보였음
- 초기에 xAI가 OpenAI나 Anthropic을 따라잡을 수 있을지 확신할 수 없었음
- 그러나 Grok 2(2024년 8월)에서 Grok 3(2025년 2월)로 발전하는 동안, Colossus GPU 클러스터 외에도 xAI에 유리하게 작용한 요소가 있었음
- 바로 AI 스케일링 패러다임의 변화
-
사전 학습(pre-training) 시대 (2019-2024)
- 초기 AI 발전은 더 큰 모델을 더 큰 데이터셋과 더 강력한 컴퓨팅 자원으로 학습하는 것을 의미했음
- 예시: GPT-2(2019년 2월)는 15억 개의 파라미터를 가졌지만, GPT-4(2023년 3월)는 약 1.76조 개로 1,000배 이상 증가
- 이 방식은 OpenAI 같은 선발 주자에게 유리했음
- 오랜 기간 데이터를 수집하고 모델을 키우며 GPU를 확보할 수 있었기 때문
- 또한, 각 모델을 학습하는 데 반년 이상 걸리는 경우가 많아 세대 간 반복 속도가 느려졌고, 이는 후발 주자가 따라잡기 어렵게 만드는 요인이었음
-
사후 학습(post-training) 시대 (2024-???)
- 2024년을 기점으로 AI 업계는 단순히 모델을 키우는 것만으로는 점진적 성능 향상이 둔화된다는 사실을 깨달음
- 언론에서는 이를 "스케일링의 시대가 끝났다"라고 오해했지만, 실제로는 패러다임이 변한 것뿐임 (Ilya Sutskever가 NeurIPS 2024에서 한 강연 참고)
- 초점이 바뀐 부분:
-
"테스트 시점 컴퓨팅(test-time compute) 확장" → 모델이 답을 더 깊이 생각할 수 있도록 하는 방식
-
강화 학습(RLHF) + 지도 학습(SFT) 조합이 효과적임
- 특히, 수학과 코딩처럼 정형화된 도메인에서 검증 가능한 보상 함수를 적용하면 성능 향상이 큼
- OpenAI가 o1-preview로 이를 주도했으며, 이후 AI 기업들은 더 이상 모델 크기를 키우기보다 "더 나은 사고 능력을 가진 모델"을 만드는 방향으로 전환함
-
새로운 패러다임이 xAI와 DeepSeek에 유리했던 이유
- 사후 학습(post-training)은 아직 초기 단계라 비교적 적은 비용으로 빠른 성능 향상을 이룰 수 있음
- OpenAI가 단 3개월 만에 o1에서 o3로 발전한 것도 이 덕분임
- DeepSeek이 더 적고 열등한 GPU를 보유하고 있음에도 R1 수준까지 따라잡을 수 있었던 것도 같은 이유
- Grok 역시 불과 2년 만에 최상위 AI 모델 수준에 도달함
-
경쟁 구도의 변화
- OpenAI가 여전히 일정한 우위를 점하고 있지만, 후발 주자가 따라잡기 불가능한 수준은 아님
- OpenAI는 300만 주간 이용자를 보유한 ChatGPT 운영 부담 때문에 최첨단 연구와 제품 운영을 균형 있게 조정해야 함
- 반면, xAI와 DeepSeek은 비교적 유연하게 기술 혁신에 집중할 수 있음
- DeepSeek의 앱이 인기를 끌었다가 다시 내려간 것도 컴퓨팅 자원이 부족해 대규모 추론(inference)을 감당할 수 없었기 때문
- 새로운 패러다임이 열리며, 새로운 경쟁 구도가 형성되고 있음
V. xAI와 DeepSeek의 성과를 올바르게 이해하기
-
Bitter Lesson과 패러다임 변화는 성과를 깎아내리지 말 것
- Bitter Lesson과 스케일링 패러다임 변화가 xAI와 DeepSeek의 성공을 쉽게 만들었지만, 결국 그들은 해냈음
- 같은 기회를 가진 다른 기업(Mistral, Character, Inflection)들은 실패했음
- Grok 3은 Bitter Lesson의 승리, DeepSeek은 예외적 사례로 규칙을 증명한 사례이지만, 그 이상의 의미를 가짐
-
컴퓨팅 자원만이 전부는 아님
- Bitter Lesson이 알고리즘과 인프라 최적화의 가치를 부정하지 않듯이, 기업의 인적 자원과 전략도 중요함
- xAI는 현재 약 1,000명의 직원을 보유하며, OpenAI(약 2,000명)와 Anthropic(약 700명)에 필적함
- 또한, Elon Musk의 기술 및 금융 네트워크 덕분에 xAI는 막대한 투자 유치를 쉽게 할 수 있음
- DeepSeek 역시 제한된 환경 속에서 혁신을 이루어낸 점에서 높은 평가를 받을 만함
- 중국 내 AI 생태계는 상대적으로 야망과 경험이 부족하며, 정부의 지원도 부족했음(이 부분은 곧 바뀔 가능성이 있음)
-
역사적 맥락 속에서 이해해야 함
- OpenAI, Google DeepMind, Anthropic은 사전 학습(pre-training) 시대에 모델을 개발해야 했음
- 당시 AI 스케일링은 지금보다 훨씬 더 어렵고, 속도가 느렸으며, 비용이 많이 들었음
- ChatGPT 같은 제품이 성공할지조차 불확실했으며, OpenAI도 출시를 망설였음(처음에는 단순한 연구용 프리뷰로 공개)
- 이들 기업은 불확실한 미래 속에서도 강한 신념으로 AI 혁신을 주도한 선구자였음
- 반면, DeepSeek과 xAI는 이 거인들의 어깨 위에서 출발
- 기존 연구의 시행착오를 피할 수 있었고, 검증된 접근법을 활용해 빠르게 발전 가능
- 마침 AI 패러다임이 사후 학습(post-training) 시대로 전환되면서, 적은 비용으로 빠르게 성과를 낼 수 있었음
- 초기 AI 선구자들이 감수했던 대규모 선행 투자나 불확실성을 겪을 필요가 적었음
-
승리는 인정하되, 과정도 기억해야 함
- xAI와 DeepSeek의 성과를 폄하할 필요는 없지만, AI 발전이 어떻게 여기까지 왔는지도 잊지 말아야 함
- OpenAI, DeepMind, Anthropic 같은 초기 개척자들이 없었다면, 지금의 성과도 불가능했을 것
- 즉, xAI와 DeepSeek의 성공은 **"운이 좋았다"**가 아니라, **"좋은 타이밍에 최선을 다한 결과"**로 보는 것이 적절함
VI. 사후 학습(post-training)은 지금은 저렴하지만 곧 비싸질 것
-
Grok 3와 xAI가 보여준 핵심 교훈
- 현재 사후 학습(post-training)은 비교적 저렴하지만, 곧 사전 학습(pre-training)만큼이나 막대한 투자 비용이 필요하게 될 것
- 기업들이 사후 학습을 대규모로 확장하는 방법을 찾는 순간, 경쟁에서 살아남기 위해서는 돈과 컴퓨팅 자원이 필수적임
- 이미 AI 기업들은 수십만 개의 GPU를 쌓아두고 대형 클러스터를 구축하는 중
- "GPU가 중요하지 않다"는 주장과는 반대로, GPU 확보 경쟁이 AI 경쟁의 핵심 요소가 될 것
- 이 때문에 Dario Amodei(OpenAI 공동 창업자) 등은 수출 규제(export controls)의 중요성을 강조하고 있음
-
xAI의 강력한 포지셔닝
- 현재 xAI는 DeepSeek뿐만 아니라 OpenAI, Anthropic보다도 더 유리한 위치를 확보
- 이유: 100K H100 GPU 클러스터를 보유하고 있으며, 곧 200K로 확장 예정
- 이는 차세대 AI 개발 경쟁에서 엄청난 이점을 제공
- Meta 역시 같은 전략을 따라가며, 100K+ H100 클러스터에서 Llama 4를 학습 중
-
DeepSeek의 한계와 가능성
- DeepSeek의 뛰어난 엔지니어링 역량만으로는 이제 경쟁하기 어려운 단계에 접어듦
- 아무리 기술 스택을 최적화하더라도 GPU 150K개의 격차를 극복하는 것은 불가능
- 만약 가능했다면 DeepSeek도 xAI처럼 스케일링을 선택했겠지만, 미국의 수출 규제가 성장을 제한하는 요소
- 다만, Huawei와의 협력을 통해 문제를 해결할 가능성도 있음
-
xAI의 추가적인 이점
- OpenAI와 Anthropic조차 GPU 클러스터 확보 면에서 xAI만큼 안정적인 위치에 있지 않음
-
Nvidia의 지원 덕분에 xAI는 차세대 AI 하드웨어를 최우선적으로 공급받고 있음
- Elon Musk의 네트워크와 Nvidia의 우호적 태도 덕분에 xAI는 미래 AI 경쟁에서 독보적인 우위를 점할 가능성이 높음
VII. 1년 후, 누가 앞서 있을 것인가?
-
기존 강자들의 우위
- 이 모든 것에도 불구하고 OpenAI, Google DeepMind, Anthropic은 여전히 약간의 선행 우위를 유지하고 있음
-
OpenAI: 곧 GPT-4.5/GPT-5를 출시할 예정이며, 이후 o4 모델도 개발 중
-
Anthropic: Claude 4 출시 예정
-
Google DeepMind: Gemini 2.0의 "Thinking-model" 버전을 개선하면서 비용 절감 및 컨텍스트 윈도 확장을 위해 노력 중
-
불확실한 미래
- 2024년에는 Google이 AI 경쟁에서 앞설 것이라고 예상했지만, 지금은 확신할 수 없음
- AI 경쟁은 그 어느 때보다 치열하며, AGI(인공지능 일반화) 경쟁에서 명확한 승자는 없음
-
새로운 패러다임은 후발 주자들에게 유리하게 작용하며, 빠른 적응력을 요구함
- Google이 이러한 기민함을 갖추었는지 불확실함
- 또는, Google이 단순히 자신들의 성과를 효과적으로 홍보하지 못하는 것일 수도 있음
-
결론: 스케일링이 결국 승리함
- 이 글의 결론은 AI 경쟁의 승자를 예측하는 것이 아님
- 중요한 교훈은 스케일링이 결국 인간의 독창성(ingenuity)을 압도한다는 점
- 이런 소식을 전하게 되어 안타깝지만, 어떤 일들은 우리가 감당할 수 없는 일임
-
Grok 3의 성공은 또 한 번, "더 똑똑한 알고리즘"보다 "더 큰 연산 능력"이 AI 발전을 주도한다는 사실을 상기시킴