Anthropic, 보이지 않는 Claude Fable 가드레일에 사과함

3 weeks ago 26

Claude Fable 5는 Anthropic의 Mythos 계열에서 처음 널리 제공된 모델이며, 경쟁 시스템 개발에 쓰이는 증류 시도를 막기 위해 숨겨진 제한을 적용했음
Anthropic은 증류로 판단한 요청에 대해 사용자에게 알리지 않고 응답을 변경·저하시킨 기존 방식을 철회하고, 제한 작동 시 더 투명하게 알리기로 함
새 방식에서는 증류 관련 요청이 Claude Fable 대신 Claude Opus 4.8로 전환되며, 사용자는 전환이 발생할 때마다 이를 볼 수 있음
생물학·화학·사이버보안 같은 다른 고위험 영역에서도 안전 기능이 작동하면 Opus 4.8로 라우팅되거나, 약물·무기 등 금지 콘텐츠 규칙에 따라 차단됨
숨겨진 보호장치는 빠른 출시와 낮은 오탐을 가능하게 했지만, Anthropic은 사용자가 어떤 보호장치가 왜 적용되는지 볼 수 있어야 한다며 잘못된 절충이었다고 인정함

Claude Fable의 숨겨진 증류 제한

Anthropic은 Claude Fable 5를 몰래 제한한 데 대해 사과했으며, 해당 제한은 연구자와 경쟁 시스템 개발에 Fable을 쓰는 경쟁사 모두에 영향을 줄 수 있었음
Fable은 Anthropic이 수개월 동안 공개 출시가 너무 위험하다고 경고해 온 Mythos 계열 AI 시스템 중 처음 널리 제공된 모델임
Anthropic은 Fable 출시 때 일부 “고위험” 요청에 응답하지 못하게 하는 보호장치로 위험 일부를 다뤘음
제한 대상 중 하나는 큰 모델의 출력을 사용해 작은 AI 모델을 훈련하는 증류(distillation) 기법이었음
Fable의 system card는 증류 시도로 판단한 요청을 모델 응답 자체를 변경하고 저하시키는 방식으로 처리한다고 적었음
- 사용자는 안전 조치를 촉발했다는 사실을 통지받지 못했음
- 사용자는 응답이 변경됐다는 사실도 안내받지 못했음

Anthropic의 변경 사항과 반발

Anthropic은 X 게시물에서 증류 관련 접근 방식을 바꾸며, 해당 요청을 Claude Opus 4.8로 전환한다고 알렸음
Claude Opus 4.8은 Anthropic의 이전 플래그십 모델이며, 전환이 발생할 때마다 사용자가 이를 볼 수 있게 됨
이 방식은 Fable이 다른 고위험 영역의 요청을 처리하는 방식과 유사함
- 생물학·화학·사이버보안 영역에서 안전 기능이 작동하면 요청이 Opus 4.8을 거치게 됨
- 약물·무기 또는 기타 금지 콘텐츠에 해당하면 Anthropic의 더 넓은 안전 규칙에 따라 요청이 차단됨
생물학 영역에서는 보호장치가 매우 넓게 보정돼 기본적인 질의에도 Fable을 사실상 쓰기 어려운 상황이 있었고, Anthropic 대변인 Paruul Maheshwary가 이를 인정했음
Anthropic은 보이는 보호장치는 탐색될 수 있어 견고해야 하고 제대로 만들 시간이 필요하지만, 보이지 않는 보호장치는 더 좁게 겨냥할 수 있어 빠른 출시와 매우 적은 오탐을 가능하게 했다고 적었음
Anthropic은 보이지 않는 보호장치를 택한 것이 잘못된 절충이었다며, 사용자는 적용된 보호장치와 그 이유를 볼 수 있어야 한다고 사과했음
이번 변경은 Fable을 경쟁 모델로 증류하려는 사용자에게 조용히 제한을 적용한 결정에 대해 AI 연구 커뮤니티에서 강한 반발이 나온 뒤 이루어졌음
비판자들은 해당 보호장치가 프런티어 모델을 평가하려는 제3자에게도 영향을 줄 수 있다고 경고했음
Anthropic은 system card에서 최신 모델이 AI 개발을 가속할 수 있는 능력이 이런 요청을 겨냥할 이유가 된다고 적었고, “Claude를 사용해 경쟁 모델을 개발하는 행위는 이미 서비스 약관 위반”이라고 적었음
Anthropic은 이전에 DeepSeek 같은 중국 경쟁사가 자사 모델을 “산업적” 규모로 부당하게 증류했다고 비난한 적이 있음