Coconut by Meta AI – 연속적 사고 사슬로 향상된 LLM 추론?

2 weeks ago 8

소개

  • 대형 언어 모델(LLM)은 다양한 분야에서 뛰어난 추론 능력을 보여주고 있음.
  • 이러한 모델은 방대한 양의 인간 언어를 사전 학습하여 이러한 능력을 달성함.
  • Chain-of-Thought(CoT)라는 방법은 모델이 단계별로 해결책을 생성하도록 유도하여 최종 답변에 도달하는 이유를 제공함.
  • 그러나 LLM의 추론은 단어로 생성되어야 하며, 이는 모델에 근본적인 제약을 가함.
  • 인간은 항상 생각을 단어로 번역하지 않음. AI도 그럴 필요가 있을까?

CoT 대 Chain of Continuous Thought (Coconut)

Chain-of-Thought (CoT) 방법

  • CoT 방법은 질문을 입력 토큰으로 변환하여 LLM에 제공하고, 모델의 마지막 숨겨진 상태에서 첫 번째 토큰을 수신함.
  • 모델은 반복적으로 질문과 현재까지의 추론 과정 토큰을 제공받아 최종 답변을 생성함.

Chain of Continuous Thought (Coconut) 방법

  • Coconut 방법에서는 LLM이 언어 모드와 잠재적 사고 모드를 번갈아 가며 작동함.
  • 언어 모드에서는 표준 언어 모델처럼 다음 토큰을 생성하고, 잠재 모드에서는 마지막 숨겨진 상태를 다음 단계의 입력으로 사용함.
  • <bot> 토큰으로 시작하여 <eot> 토큰으로 끝나는 잠재적 사고 모드와 언어 모드를 반복적으로 진행함.

훈련 절차

  • Chain of Continuous Thought 방법의 훈련 절차는 LLM이 연속적인 잠재 공간에서 추론하는 방법을 배우도록 설계됨.
  • 기존의 Chain-of-Thought 데이터를 활용하여 각 샘플에 대해 질문, 추론 단계, 최종 답변을 포함함.
  • 각 단계에서 하나의 추론 단계를 제거하고 대신 사고 토큰을 추가함.
  • 연속적인 사고는 완전히 미분 가능하여 역전파가 가능함.

사고 생성에서 단어 토큰 생성으로의 전환

  • 모델이 잠재적 사고 모드에서 언어 모드로 전환하는 방법은 두 가지 전략이 있음.
  • 첫 번째 전략은 이진 분류기를 사용하여 모델이 결정하도록 하는 것이고, 두 번째 전략은 일정한 수의 잠재적 사고를 사용하는 것임.
  • 두 전략 모두 유사한 결과를 제공하여, 연구자들은 간단함을 위해 일정한 수의 사고를 사용함.

실험 결과

  • Coconut 방법은 No-CoT보다 모든 데이터셋에서 뛰어난 성능을 보임.
  • CoT와 비교했을 때, 수학에서는 CoT가 더 우수하지만, 계획 능력이 필요한 ProsQA에서는 Coconut이 더 우수함.
  • i-CoT와 비교했을 때, 수학에서는 Coconut이 더 나은 정확도를 보임.

BFS와 같은 추론

  • ProsQA 데이터셋에서 Coconut의 BFS와 같은 추론 능력이 관찰됨.
  • Coconut은 여러 가능한 경로를 탐색할 수 있어, 계획 집약적인 작업에서 더 나은 성능을 보임.

결론 및 미래 방향

  • Coconut 방법은 LLM의 추론 능력을 크게 향상시킴.
  • 잠재 공간 추론은 모델이 BFS와 같은 추론 패턴을 개발할 수 있게 함.
  • 미래 연구 방향으로는 연속적인 사고로 대형 언어 모델을 사전 학습하는 것과 Coconut의 효율성을 최적화하는 것이 있음.

Read Entire Article