Kimi K2.6가 코딩 챌린지에서 Claude, GPT-5.5, Gemini를 이김

3 weeks ago 23

Moonshot AI의 오픈 가중치 모델 Kimi K2.6가 AI Coding Contest Day 12의 Word Gem Puzzle에서 22 매치 포인트와 7-1-0 기록으로 우승함
Xiaomi의 MiMo V2-Pro가 20점으로 2위, ChatGPT GPT-5.5가 16점으로 3위, GLM 5.1이 15점으로 4위, Claude Opus 4.7이 12점으로 5위를 기록했고 Anthropic, OpenAI, Google, xAI 모델은 모두 상위 2개 모델보다 낮았음
Word Gem Puzzle은 10×10부터 30×30까지의 슬라이딩 타일 문자 퍼즐로, 7자 미만 단어에는 벌점이 있고 7자 이상 단어는 길이 - 6점으로 계산되며 각 모델 쌍은 격자 크기별 5라운드를 10초 제한으로 진행함
Kimi K2.6는 양수 가치 단어를 여는 이동을 반복 선택하는 탐욕적 슬라이딩으로 누적 77점을 냈고, MiMo V2-Pro는 실제로 슬라이드하지 않고 초기 격자의 7자 이상 단어를 한 번에 제출해 누적 43점으로 2위에 오름
이번 결과가 하나의 퍼즐이 일반 벤치마크를 뒤집는다는 뜻은 아니지만, 다운로드 가능한 모델인 Kimi K2.6가 Artificial Analysis Intelligence Index에서 GPT-5.5 60점, Claude 57점에 가까운 54점을 기록한다는 점에서 경쟁 구도는 좁아졌음

대회 구성과 참가 모델

Zhipu AI의 GLM 5.1은 4위, DeepSeek V4는 8위에 그침
Nvidia의 Nemotron Super 3가 만든 코드는 문법 오류를 포함해 게임 서버에 연결하지 못했고, 실제 경쟁은 9개 모델로 진행됨
Kimi K2.6는 2023년에 설립된 중국 스타트업 Moonshot AI의 공개 사용 가능한 오픈 가중치 모델이며, MiMo V2-Pro는 현재 API 전용임
Xiaomi는 더 새로운 V2.5 Pro 모델의 가중치를 곧 공개한다고 확인함
이번 결과는 단순히 “중국이 서구를 이겼다”는 구도가 아니라, Kimi K2.6와 MiMo V2-Pro라는 두 특정 모델의 우승으로 정리됨

Word Gem Puzzle의 규칙

Word Gem Puzzle은 글자 타일과 빈칸 하나로 채워진 직사각형 격자에서 진행되는 슬라이딩 타일 문자 퍼즐임
격자 크기는 10×10, 15×15, 20×20, 25×25, 30×30 중 하나이며, 봇은 빈칸에 인접한 타일을 밀어 넣을 수 있음
봇은 언제든 수평 또는 수직 직선으로 만들어진 유효한 영어 단어를 제출할 수 있음
대각선 단어와 역방향 단어는 인정되지 않음
점수는 긴 단어에 보상을 주고 짧은 단어에 벌점을 주도록 설계됨
- 7자 미만 단어는 점수를 잃음
- 5자 단어는 1점 감점, 3자 단어는 3점 감점됨
- 7자 이상 단어는 길이 - 6점으로 계산되어, 8자 단어는 2점이 됨
같은 단어는 한 번만 제출할 수 있고, 다른 봇이 먼저 제출한 단어는 점수를 얻지 못함
각 모델 쌍은 격자 크기별로 한 라운드씩 총 5라운드를 진행했고, 라운드당 벽시계 기준 제한 시간은 10초였음
격자는 실제 사전 단어를 십자말풀이식으로 배치한 뒤, 남은 칸을 Scrabble 타일 빈도에 맞춰 글자로 채우고, 마지막으로 빈칸을 섞는 방식으로 만들어짐
큰 보드일수록 더 강하게 섞였기 때문에 10×10에서는 많은 시드 단어가 그대로 남았지만, 30×30에서는 거의 남지 않음

모델별 동작과 성패 요인

Kimi K2.6
- Kimi K2.6는 적극적으로 타일을 밀어 우승했으며, 누적 점수 77점으로 대회 최고 점수를 기록함
- 전략은 탐욕적이었고, 가능한 각 이동이 새로 열어주는 양수 가치 단어를 기준으로 점수를 매긴 뒤 가장 좋은 이동을 실행하고 이를 반복함
- 양수 단어를 여는 이동이 없으면 알파벳순으로 첫 번째 합법 방향을 선택함
- 이 방식은 빈칸을 앞뒤로 튕기며 진전이 없는 2-cycle 형태의 비효율적 가장자리 왕복을 만들기도 함
- 작은 격자에서는 시드 단어가 상당히 남아 있어 이런 비효율이 손해로 이어졌지만, 30×30에서는 거의 모든 단어가 깨져 재구성이 필요했고, 많은 슬라이드 횟수가 결국 점수로 이어짐
MiMo V2-Pro
- MiMo의 슬라이딩 코드는 저장소에 있었지만, “최고 가치가 0보다 큼” 조건이 발동하지 않아 실제로는 한 번도 슬라이드하지 않음
- 초기 격자에서 7자 이상 단어를 스캔한 뒤, 모든 제출을 하나의 TCP 패킷으로 보내는 방식으로 진행함
- 이 전략은 섞인 뒤에도 시드 단어가 그대로 남아 있는지에 전적으로 의존하는 취약한 방식이었음
- 단어가 남아 있는 격자에서는 빠르게 점수를 냈지만, 남아 있지 않은 격자에서는 아무 점수도 얻지 못함
- 최종 누적 점수는 43점이었고 전체 2위를 기록함
Claude Opus 4.7
- Claude도 슬라이드하지 않았음
- 이동 로그상 25×25 보드에서는 섞임 밀도가 아직 감당 가능한 수준이라 버텼지만, 실제 타일 이동이 필요해진 30×30에서는 무너짐
- 슬라이딩 퍼즐에서 슬라이드하지 않는 것은 명확한 한계로 작용함
GPT-5.5
- GPT-5.5는 라운드당 약 120회 슬라이드하는 더 보수적인 방식을 사용했고, 무한 왕복을 피하기 위한 상한을 둠
- 15×15와 30×30 격자에서 가장 강한 수치를 보임
Grok Expert 4.2와 GLM 5.1
- Grok은 슬라이드하지 않았지만 큰 보드에서 비교적 괜찮은 점수를 냄
- GLM은 전체 대회에서 가장 공격적으로 슬라이드한 모델로, 총 슬라이드 수가 80만 회를 넘음
- GLM은 양수 이동이 사라질 때마다 심하게 멈춰섬
DeepSeek V4
- DeepSeek은 매 라운드마다 잘못된 형식의 데이터를 보냄
- 유용한 출력은 없었지만, 플레이해서 점수를 더 악화시키지는 않음
Muse Spark
- Muse는 찾을 수 있는 모든 단어를 길이와 무관하게 제출함
- 점수 규칙은 “the”, “and”, “it” 같은 짧은 단어를 무차별 제출하는 전략을 막기 위해 짧은 단어에 벌점을 주도록 설계됐고, 경쟁력 있는 모델들은 모두 사전을 7자 이상 단어로 필터링함
- Muse는 30×30 격자에서 어느 순간에도 보이는 수백 개의 짧은 유효 단어를 찾아 모두 제출함
- 누적 점수는 −15,309점이었고, 8경기 모두 패배했으며 라운드 승리는 0회였음
- 서버에 연결만 하고 아무것도 하지 않는 Muse 버전이 있었다면 0점을 얻었을 것이므로, 실제 Muse보다 15,309점 높았을 계산임
- Muse와 8위의 격차는 8위와 1위의 격차보다 컸음

30×30 격자가 만든 차이

30×30 격자는 참가 모델들의 차이를 가장 뚜렷하게 갈랐음
작은 보드에서는 정적 스캐너와 능동 슬라이더의 차이가 크지 않았지만, 최대 크기에서는 이미 존재하는 단어만 찾는 모델들이 더 이상 제출할 단어를 확보하지 못함
Kimi의 탐욕 루프에는 결함이 있었지만, 정적 스캐너들이 제출할 단어를 잃은 상황에서도 계속 출력을 만들어냄
MiMo와 Kimi는 거의 반대 전략을 사용했음에도 최종 점수 차이가 2점에 그침
1위와 2위의 격차에는 능력 차이뿐 아니라 시드 변동성도 일부 작용함

구조화된 작업에서 드러난 리스크

DeepSeek의 잘못된 형식 출력은 시간 압박 아래 낯선 프로토콜 명세를 처리하는 방식에 대한 신호가 됨
Muse는 유효 단어를 찾고 제출했지만, 점수 규칙까지 반영한 “유효함”의 의미를 적용하지 못함
Muse의 실패는 과제를 부분적으로 읽고, 그 부분적 해석을 끝까지 실행한 형태로 나타남
벌점이 있는 구조화 작업에 모델을 배포할 때는 규칙 전체를 반영하지 못하는 실행이 큰 손실로 이어질 수 있음

결과 해석의 한계와 의미

이 점수 체계는 공격적인 단어 제출에 보상하는 구조이고, 강하게 안전 조정된 모델은 이런 무차별 제출 방식에 더 보수적일 수 있음
그런 경우 결과는 순수 능력 차이라기보다 과제 설계와 정렬된 모델 행동 사이의 불일치를 반영할 수 있음
하나의 도전 과제가 일반 벤치마크를 뒤집지는 않음
이 퍼즐은 실시간 의사결정, TCP 서버에 연결해 새로운 게임을 제대로 플레이하는 동작 코드 작성 능력을 시험함
긴 컨텍스트 추론이나 명세 기반 코드 생성 전반을 시험하는 과제는 아님
Kimi K2.6는 Artificial Analysis Intelligence Index에서 54점, GPT-5.5는 60점, Claude는 57점을 기록함
이 점수는 완전한 동률은 아니지만 가까운 수준이며, Kimi K2.6는 누구나 다운로드할 수 있는 모델이라는 점이 경쟁 구도를 바꿈
프런티어와 몇 점 차이에 있는 모델을 로컬에서 자유롭게 실행할 수 있게 되면, 1년 전과는 다른 경쟁 상황이 됨
이번 도전 과제는 격차가 작아져 이런 결과가 나올 수 있음을 나타내는 하나의 데이터 포인트임