Anthropic, 보이지 않는 Claude Fable 가드레일에 사과함

10 hours ago 5
  • Claude Fable 5는 Anthropic의 Mythos 계열에서 처음 널리 제공된 모델이며, 경쟁 시스템 개발에 쓰이는 증류 시도를 막기 위해 숨겨진 제한을 적용했음
  • Anthropic은 증류로 판단한 요청에 대해 사용자에게 알리지 않고 응답을 변경·저하시킨 기존 방식을 철회하고, 제한 작동 시 더 투명하게 알리기로 함
  • 새 방식에서는 증류 관련 요청이 Claude Fable 대신 Claude Opus 4.8로 전환되며, 사용자는 전환이 발생할 때마다 이를 볼 수 있음
  • 생물학·화학·사이버보안 같은 다른 고위험 영역에서도 안전 기능이 작동하면 Opus 4.8로 라우팅되거나, 약물·무기 등 금지 콘텐츠 규칙에 따라 차단됨
  • 숨겨진 보호장치는 빠른 출시와 낮은 오탐을 가능하게 했지만, Anthropic은 사용자가 어떤 보호장치가 왜 적용되는지 볼 수 있어야 한다며 잘못된 절충이었다고 인정함

Claude Fable의 숨겨진 증류 제한

  • Anthropic은 Claude Fable 5를 몰래 제한한 데 대해 사과했으며, 해당 제한은 연구자와 경쟁 시스템 개발에 Fable을 쓰는 경쟁사 모두에 영향을 줄 수 있었음
  • Fable은 Anthropic이 수개월 동안 공개 출시가 너무 위험하다고 경고해 온 Mythos 계열 AI 시스템 중 처음 널리 제공된 모델임
  • Anthropic은 Fable 출시 때 일부 “고위험” 요청에 응답하지 못하게 하는 보호장치로 위험 일부를 다뤘음
  • 제한 대상 중 하나는 큰 모델의 출력을 사용해 작은 AI 모델을 훈련하는 증류(distillation) 기법이었음
  • Fable의 system card는 증류 시도로 판단한 요청을 모델 응답 자체를 변경하고 저하시키는 방식으로 처리한다고 적었음
    • 사용자는 안전 조치를 촉발했다는 사실을 통지받지 못했음
    • 사용자는 응답이 변경됐다는 사실도 안내받지 못했음

Anthropic의 변경 사항과 반발

  • Anthropic은 X 게시물에서 증류 관련 접근 방식을 바꾸며, 해당 요청을 Claude Opus 4.8로 전환한다고 알렸음
  • Claude Opus 4.8은 Anthropic의 이전 플래그십 모델이며, 전환이 발생할 때마다 사용자가 이를 볼 수 있게 됨
  • 이 방식은 Fable이 다른 고위험 영역의 요청을 처리하는 방식과 유사함
    • 생물학·화학·사이버보안 영역에서 안전 기능이 작동하면 요청이 Opus 4.8을 거치게 됨
    • 약물·무기 또는 기타 금지 콘텐츠에 해당하면 Anthropic의 더 넓은 안전 규칙에 따라 요청이 차단됨
  • 생물학 영역에서는 보호장치가 매우 넓게 보정돼 기본적인 질의에도 Fable을 사실상 쓰기 어려운 상황이 있었고, Anthropic 대변인 Paruul Maheshwary가 이를 인정했음
  • Anthropic은 보이는 보호장치는 탐색될 수 있어 견고해야 하고 제대로 만들 시간이 필요하지만, 보이지 않는 보호장치는 더 좁게 겨냥할 수 있어 빠른 출시와 매우 적은 오탐을 가능하게 했다고 적었음
  • Anthropic은 보이지 않는 보호장치를 택한 것이 잘못된 절충이었다며, 사용자는 적용된 보호장치와 그 이유를 볼 수 있어야 한다고 사과했음
  • 이번 변경은 Fable을 경쟁 모델로 증류하려는 사용자에게 조용히 제한을 적용한 결정에 대해 AI 연구 커뮤니티에서 강한 반발이 나온 뒤 이루어졌음
  • 비판자들은 해당 보호장치가 프런티어 모델을 평가하려는 제3자에게도 영향을 줄 수 있다고 경고했음
  • Anthropic은 system card에서 최신 모델이 AI 개발을 가속할 수 있는 능력이 이런 요청을 겨냥할 이유가 된다고 적었고, “Claude를 사용해 경쟁 모델을 개발하는 행위는 이미 서비스 약관 위반”이라고 적었음
  • Anthropic은 이전에 DeepSeek 같은 중국 경쟁사가 자사 모델을 “산업적” 규모로 부당하게 증류했다고 비난한 적이 있음
Read Entire Article