-
Gemini 2.5 Pro가 코드 작성에서 더 뛰어남
- Claude 3.7 Sonnet도 훌륭하지만, 지금은 Gemini 2.5 Pro를 사용하는 것이 더 이득임
-
1백만 토큰 컨텍스트 윈도우와 무료 이용 가능함이 큰 장점
- 과거엔 Claude 3.7 Sonnet이 항상 비교 기준이었지만, 이제는 바뀜
Gemini 2.5 Pro 간단 소개
- Google이 2025년 3월 26일 출시한 실험적 사고 모델
- 출시 후 Twitter(X), YouTube 등에서 매우 큰 반향을 일으킴
-
LMArena에서 1위 기록, 코드 작성, 수학, 과학, 이미지 이해 등에서 매우 우수한 성능 보임
-
1백만 토큰 컨텍스트 윈도우 제공, 향후 2백만 토큰도 예고됨
- SWE Bench 기준 정확도 63.8% 로 Claude 3.7 Sonnet의 62.3% 보다 높음
- Google이 제공한 공룡 게임 데모 등 다양한 예시로 뛰어난 성능을 입증함
- 전반적으로 코딩뿐만 아니라 모든 지능적 작업에 적합한 전천후 모델로 평가됨
코딩 테스트 비교
1. 플라이트 시뮬레이터 만들기
-
Gemini 2.5 Pro
- 완벽하게 작동하는 시뮬레이터 생성
- 비행기 조종, 마인크래프트 스타일 도시 생성 등 모든 요구 조건 충족
- 완성도 10/10
-
Claude 3.7 Sonnet
- 비행기가 옆으로 날고 도시 밖으로 벗어나는 문제 발생
- 기능적 완성도가 낮음
-
요약: Gemini 2.5 Pro가 완전한 승리
2. 루빅스 큐브 시각화 및 풀이
-
Gemini 2.5 Pro
- 한 번에 정확한 시각화 및 풀이 구현
- Three.js 사용, 큐브 색상, 랜덤 섞기, 애니메이션 등 완벽 구현
-
Claude 3.7 Sonnet
- 색상 표시 실패 및 풀이 실패
- 다른 LLM들과 유사한 한계
-
요약: Gemini 2.5 Pro가 이 항목도 압도적 우세
3. 4차원 테서랙트 안에서 튕기는 공 시각화
-
Gemini 2.5 Pro
- 물리 충돌, 면 강조 등 요구사항 모두 충족
- 코드 품질과 작동 상태 매우 우수
-
Claude 3.7 Sonnet
- 기능은 작동하나 불필요한 색상 추가
- 그래도 요구 기능은 충족함
-
요약: 두 모델 모두 요구사항 충족, Claude도 드디어 성공
4. LeetCode 문제: 3개의 룩 배치로 최대 합 구하기
-
Gemini 2.5 Pro
- 복잡한 코드 작성이지만 정확한 풀이
- 시간 복잡도도 적절하게 고려함
-
Claude 3.7 Sonnet
- 간결한 코드 작성하지만 시간 초과(TLE) 발생
- 이해는 쉬우나 성능 면에서는 부족함
-
요약: Gemini 2.5 Pro가 성능과 정확도 모두에서 앞섬
결론
-
Gemini 2.5 Pro가 명확한 우위
- 컨텍스트 윈도우, 정확도, 멀티태스킹 성능에서 Claude 3.7 Sonnet을 앞섬
- Claude도 여전히 훌륭한 모델이지만, 현재로서는 Gemini를 사용하는 것이 더 효율적임
- 향후 2백만 토큰 윈도우까지 확장되면 성능은 더욱 향상될 것임
- Google의 최근 Gemma 3 27B 경량 모델과 함께 강력한 AI 라인업을 형성함