애플의 "이성적 사고" 바이럴 논문에 대한 7가지 반박과 그 한계

18 hours ago 3

  • 애플의 대형 추론 모델의 한계 논문 이 전 세계적으로 큰 반향을 불러일으키며, 여러 전문가들이 다양한 반박을 제기함
  • 주요 7가지 반박 논거가 소개되며, 한계와 문제점을 짚어 실제로 얼마나 설득력이 있는지 분석
  • 일부 반박에서 딥러닝 모델의 토큰 제한, 저자의 경력, 코드 활용 가능성 등이 거론되나, 근본적 취약점 해결에는 미치지 못함
  • 모델 규모 확장이나 코드 임포트로도 본질적인 알고리듬 문제 해결에는 한계가 있음
  • Salesforce 논문 등 추가 증거와 함께, LLM 기반의 AGI 접근론의 한계가 명확해지는 가운데 더 나은 AI 개발의 필요성이 대두됨

서론: 애플 논문과 그 반향

  • 최근 Apple대형 추론 모델(Large Reasoning Models)의 “이성적 사고” 한계에 관한 논문이 거대한 화제를 불러일으키며, 다양한 미디어와 소셜 미디어에서 뜨거운 토론이 이어짐
  • 필자의 논문 해설 포스트 역시 높은 조회수를 기록
  • The Guardian은 관련 포스트를 참조한 칼럼을 게재했고, ACM 및 프랑스어 버전도 등장해 글로벌한 관심을 증명함
  • 많은 생성형 AI 낙관론자들이 논문에 비판적 반응을 보였으나, 그 주장들이 실제로 논거로서 설득력이 있는지 평가할 필요성이 제기됨

7가지 대표적 반박과 그 한계

  1. “복잡한 문제와 기억 요구에서 인간도 실수한다”

    • 부분적으로 사실이지만, 기계는 인간보다 더 뛰어나야 한다는 기대가 존재함
    • 예시로, Tower of Hanoi 퍼즐에서 기존 심볼릭 AI 시스템은 오류 없이 수행 가능
    • AGI라면 오히려 진보된 성능을 보여야 하며, 단순히 인간과 유사한 실수 범주에 머무는 것은 한계로 볼 수 있음
    • Apple 논문의 핵심은 LLM이 복잡성과 학습 분포에서 멀어질수록 제대로 된 알고리듬 수행을 신뢰할 수 없음을 밝힘
  2. “출력 토큰 한계 때문에 LRM이 문제를 풀 수 없다”

    • LRM(대형 추론 모델)은 출력 길이 제한이 있으나, 사례 중 일부(예: 8개 디스크의 Hanoi, 255단계)는 충분히 출력 가능 범위임
    • 잘 설계된 심볼릭 AI는 이런 문제의 영향을 받지 않으며, AGI 역시 마찬가지여야 함
    • 토큰 한계는 버그이며, 해결책으로 볼 수 없음
    • 복잡한 실세계 문제에서 이러한 약점은 치명적임
  3. “논문의 제1저자가 인턴이다”

    • 해당 주장은 인신공격에 가까우며 실제로는 과학적 관행을 무시한 오류
    • 제1저자는 유망한 박사 과정생이고, 공동저자 다수가 박사학위 소지자임
    • 저자의 지위가 논문의 질을 담보하지 않음
  4. “더 큰 모델이 더 잘할 수 있다”

    • 일부 더 큰 모델에서 개선된 모습이 보고되나, 어떤 크기가 충분한지 예측도 불가
    • 같은 구조의 LRM에서도 디스크 6개에는 성공, 8개에서는 실패하는 등 일관되지 않은 결과가 산출됨
    • 안정적인 일반화가 보장되지 않음
  5. “코드를 통해 퍼즐을 해결할 수 있다”

    • 일부 LLM은 코드를 통해 문제를 해결 가능하나, 이는 뉴로심볼릭 AI의 장점임
    • 진정한 의미의 AGI/AI라면 코드 없이도 개념적 이해 기반의 추론 및 역추적이 가능해야 함
    • 시험이 학생의 개념 이해를 평가하듯, LLM도 진정한 개념적 이해가 필요한 상황임
  6. “예시가 4개뿐이고, 적어도 하나는 완벽하지 않다”

    • 논문 내 4가지 예시 모두 완벽하지 않을 수 있으나, 다양한 선행 연구 결과와 일치하며, 유사 실패 사례는 계속해서 보고됨
    • NYU의 Tal Linzen 등도 해당 맥락의 한계를 추가 증명함
  7. “이미 이런 일반화 한계를 알고 있었다”

    • 많은 연구자들은 오래전부터 LLM의 일반화 취약성을 인지하고 있었음
    • 하지만 대중적·산업적 맥락에서 이번 논문으로 인해 관심이 집중되고 있음을 주목할 필요
    • 연구자 사이에서도 “틀렸다”와 “이미 알던 사실”이 동시에 언급되는 모순적 반응이 나타남

결론: AGI로의 적실성에 대한 의문

  • 이상의 반박들 중 결정적으로 설득력 있는 내용은 부족
  • Apple 논문은 스케일 확장이 AGI의 해답이 아니라는 분명한 신호를 재차 제시함
  • 실제로 Sam Altman 등 주요 인물도 현재 상황을 심각하게 받아들이는 분위기 형성

추가: Salesforce 논문의 동조적 증거

  • Salesforce의 최신 논문에서도 “멀티턴” 조건, 즉 복잡한 추론 및 알고리듬 수행이 필요한 상황에서 정확도가 35%에 불과한 결과가 보고됨
  • Apple 논문과 결합해 볼 때, 현재의 LLM 기반 기술은 실제로 신뢰할 수 없는 수준임을 반복적으로 증명함

마무리

  • Gary Marcus(NYU 명예교수)는 스케일 확장이 AGI로 가는 충분조건이 아님을 예견해왔으며, 이제 더 나은 AI를 설계할 시점임을 강조함

Read Entire Article