Kimi K2.6가 코딩 챌린지에서 Claude, GPT-5.5, Gemini를 이김

4 hours ago 3
  • Moonshot AI의 오픈 가중치 모델 Kimi K2.6AI Coding Contest Day 12의 Word Gem Puzzle에서 22 매치 포인트와 7-1-0 기록으로 우승함
  • Xiaomi의 MiMo V2-Pro가 20점으로 2위, ChatGPT GPT-5.5가 16점으로 3위, GLM 5.1이 15점으로 4위, Claude Opus 4.7이 12점으로 5위를 기록했고 Anthropic, OpenAI, Google, xAI 모델은 모두 상위 2개 모델보다 낮았음
  • Word Gem Puzzle은 10×10부터 30×30까지의 슬라이딩 타일 문자 퍼즐로, 7자 미만 단어에는 벌점이 있고 7자 이상 단어는 길이 - 6점으로 계산되며 각 모델 쌍은 격자 크기별 5라운드를 10초 제한으로 진행함
  • Kimi K2.6는 양수 가치 단어를 여는 이동을 반복 선택하는 탐욕적 슬라이딩으로 누적 77점을 냈고, MiMo V2-Pro는 실제로 슬라이드하지 않고 초기 격자의 7자 이상 단어를 한 번에 제출해 누적 43점으로 2위에 오름
  • 이번 결과가 하나의 퍼즐이 일반 벤치마크를 뒤집는다는 뜻은 아니지만, 다운로드 가능한 모델인 Kimi K2.6가 Artificial Analysis Intelligence Index에서 GPT-5.5 60점, Claude 57점에 가까운 54점을 기록한다는 점에서 경쟁 구도는 좁아졌음

대회 구성과 참가 모델

  • Zhipu AI의 GLM 5.1은 4위, DeepSeek V4는 8위에 그침
  • Nvidia의 Nemotron Super 3가 만든 코드는 문법 오류를 포함해 게임 서버에 연결하지 못했고, 실제 경쟁은 9개 모델로 진행됨
  • Kimi K2.6는 2023년에 설립된 중국 스타트업 Moonshot AI의 공개 사용 가능한 오픈 가중치 모델이며, MiMo V2-Pro는 현재 API 전용임
  • Xiaomi는 더 새로운 V2.5 Pro 모델의 가중치를 곧 공개한다고 확인
  • 이번 결과는 단순히 “중국이 서구를 이겼다”는 구도가 아니라, Kimi K2.6MiMo V2-Pro라는 두 특정 모델의 우승으로 정리됨

Word Gem Puzzle의 규칙

  • Word Gem Puzzle은 글자 타일과 빈칸 하나로 채워진 직사각형 격자에서 진행되는 슬라이딩 타일 문자 퍼즐임
  • 격자 크기는 10×10, 15×15, 20×20, 25×25, 30×30 중 하나이며, 봇은 빈칸에 인접한 타일을 밀어 넣을 수 있음
  • 봇은 언제든 수평 또는 수직 직선으로 만들어진 유효한 영어 단어를 제출할 수 있음
  • 대각선 단어와 역방향 단어는 인정되지 않음
  • 점수는 긴 단어에 보상을 주고 짧은 단어에 벌점을 주도록 설계됨
    • 7자 미만 단어는 점수를 잃음
    • 5자 단어는 1점 감점, 3자 단어는 3점 감점됨
    • 7자 이상 단어는 길이 - 6점으로 계산되어, 8자 단어는 2점이 됨
  • 같은 단어는 한 번만 제출할 수 있고, 다른 봇이 먼저 제출한 단어는 점수를 얻지 못함
  • 각 모델 쌍은 격자 크기별로 한 라운드씩 총 5라운드를 진행했고, 라운드당 벽시계 기준 제한 시간은 10초였음
  • 격자는 실제 사전 단어를 십자말풀이식으로 배치한 뒤, 남은 칸을 Scrabble 타일 빈도에 맞춰 글자로 채우고, 마지막으로 빈칸을 섞는 방식으로 만들어짐
  • 큰 보드일수록 더 강하게 섞였기 때문에 10×10에서는 많은 시드 단어가 그대로 남았지만, 30×30에서는 거의 남지 않음

모델별 동작과 성패 요인

  • Kimi K2.6

    • Kimi K2.6는 적극적으로 타일을 밀어 우승했으며, 누적 점수 77점으로 대회 최고 점수를 기록함
    • 전략은 탐욕적이었고, 가능한 각 이동이 새로 열어주는 양수 가치 단어를 기준으로 점수를 매긴 뒤 가장 좋은 이동을 실행하고 이를 반복함
    • 양수 단어를 여는 이동이 없으면 알파벳순으로 첫 번째 합법 방향을 선택함
    • 이 방식은 빈칸을 앞뒤로 튕기며 진전이 없는 2-cycle 형태의 비효율적 가장자리 왕복을 만들기도 함
    • 작은 격자에서는 시드 단어가 상당히 남아 있어 이런 비효율이 손해로 이어졌지만, 30×30에서는 거의 모든 단어가 깨져 재구성이 필요했고, 많은 슬라이드 횟수가 결국 점수로 이어짐
  • MiMo V2-Pro

    • MiMo의 슬라이딩 코드는 저장소에 있었지만, “최고 가치가 0보다 큼” 조건이 발동하지 않아 실제로는 한 번도 슬라이드하지 않음
    • 초기 격자에서 7자 이상 단어를 스캔한 뒤, 모든 제출을 하나의 TCP 패킷으로 보내는 방식으로 진행함
    • 이 전략은 섞인 뒤에도 시드 단어가 그대로 남아 있는지에 전적으로 의존하는 취약한 방식이었음
    • 단어가 남아 있는 격자에서는 빠르게 점수를 냈지만, 남아 있지 않은 격자에서는 아무 점수도 얻지 못함
    • 최종 누적 점수는 43점이었고 전체 2위를 기록함
  • Claude Opus 4.7

    • Claude도 슬라이드하지 않았음
    • 이동 로그상 25×25 보드에서는 섞임 밀도가 아직 감당 가능한 수준이라 버텼지만, 실제 타일 이동이 필요해진 30×30에서는 무너짐
    • 슬라이딩 퍼즐에서 슬라이드하지 않는 것은 명확한 한계로 작용함
  • GPT-5.5

    • GPT-5.5는 라운드당 약 120회 슬라이드하는 더 보수적인 방식을 사용했고, 무한 왕복을 피하기 위한 상한을 둠
    • 15×15와 30×30 격자에서 가장 강한 수치를 보임
  • Grok Expert 4.2와 GLM 5.1

    • Grok은 슬라이드하지 않았지만 큰 보드에서 비교적 괜찮은 점수를 냄
    • GLM은 전체 대회에서 가장 공격적으로 슬라이드한 모델로, 총 슬라이드 수가 80만 회를 넘음
    • GLM은 양수 이동이 사라질 때마다 심하게 멈춰섬
  • DeepSeek V4

    • DeepSeek은 매 라운드마다 잘못된 형식의 데이터를 보냄
    • 유용한 출력은 없었지만, 플레이해서 점수를 더 악화시키지는 않음
  • Muse Spark

    • Muse는 찾을 수 있는 모든 단어를 길이와 무관하게 제출함
    • 점수 규칙은 “the”, “and”, “it” 같은 짧은 단어를 무차별 제출하는 전략을 막기 위해 짧은 단어에 벌점을 주도록 설계됐고, 경쟁력 있는 모델들은 모두 사전을 7자 이상 단어로 필터링함
    • Muse는 30×30 격자에서 어느 순간에도 보이는 수백 개의 짧은 유효 단어를 찾아 모두 제출함
    • 누적 점수는 −15,309점이었고, 8경기 모두 패배했으며 라운드 승리는 0회였음
    • 서버에 연결만 하고 아무것도 하지 않는 Muse 버전이 있었다면 0점을 얻었을 것이므로, 실제 Muse보다 15,309점 높았을 계산임
    • Muse와 8위의 격차는 8위와 1위의 격차보다 컸음

30×30 격자가 만든 차이

  • 30×30 격자는 참가 모델들의 차이를 가장 뚜렷하게 갈랐음
  • 작은 보드에서는 정적 스캐너와 능동 슬라이더의 차이가 크지 않았지만, 최대 크기에서는 이미 존재하는 단어만 찾는 모델들이 더 이상 제출할 단어를 확보하지 못함
  • Kimi의 탐욕 루프에는 결함이 있었지만, 정적 스캐너들이 제출할 단어를 잃은 상황에서도 계속 출력을 만들어냄
  • MiMo와 Kimi는 거의 반대 전략을 사용했음에도 최종 점수 차이가 2점에 그침
  • 1위와 2위의 격차에는 능력 차이뿐 아니라 시드 변동성도 일부 작용함

구조화된 작업에서 드러난 리스크

  • DeepSeek의 잘못된 형식 출력은 시간 압박 아래 낯선 프로토콜 명세를 처리하는 방식에 대한 신호가 됨
  • Muse는 유효 단어를 찾고 제출했지만, 점수 규칙까지 반영한 “유효함”의 의미를 적용하지 못함
  • Muse의 실패는 과제를 부분적으로 읽고, 그 부분적 해석을 끝까지 실행한 형태로 나타남
  • 벌점이 있는 구조화 작업에 모델을 배포할 때는 규칙 전체를 반영하지 못하는 실행이 큰 손실로 이어질 수 있음

결과 해석의 한계와 의미

  • 이 점수 체계는 공격적인 단어 제출에 보상하는 구조이고, 강하게 안전 조정된 모델은 이런 무차별 제출 방식에 더 보수적일 수 있음
  • 그런 경우 결과는 순수 능력 차이라기보다 과제 설계와 정렬된 모델 행동 사이의 불일치를 반영할 수 있음
  • 하나의 도전 과제가 일반 벤치마크를 뒤집지는 않음
  • 이 퍼즐은 실시간 의사결정, TCP 서버에 연결해 새로운 게임을 제대로 플레이하는 동작 코드 작성 능력을 시험함
  • 긴 컨텍스트 추론이나 명세 기반 코드 생성 전반을 시험하는 과제는 아님
  • Kimi K2.6는 Artificial Analysis Intelligence Index에서 54점, GPT-5.5는 60점, Claude는 57점을 기록함
  • 이 점수는 완전한 동률은 아니지만 가까운 수준이며, Kimi K2.6는 누구나 다운로드할 수 있는 모델이라는 점이 경쟁 구도를 바꿈
  • 프런티어와 몇 점 차이에 있는 모델을 로컬에서 자유롭게 실행할 수 있게 되면, 1년 전과는 다른 경쟁 상황이 됨
  • 이번 도전 과제는 격차가 작아져 이런 결과가 나올 수 있음을 나타내는 하나의 데이터 포인트임
Read Entire Article