Opus 4.7은 진짜 Kelsey를 안다

1 week ago 13

Anthropic의 Claude Opus 4.7은 공개되지 않은 125단어 초안만 보고 가장 가능성 높은 작성자로 Kelsey Piper를 지목했으며, Incognito Mode와 친구 컴퓨터, API 테스트에서도 같은 결과가 나옴
ChatGPT와 Gemini는 같은 텍스트에서 Matt Yglesias나 Scott Alexander를 추정했지만, Claude Opus 4.7은 교육 초안, 영화 리뷰, 판타지 소설, 15년 전 대학 지원 에세이처럼 장르와 시점이 다른 글에서도 Piper를 반복적으로 식별함
모델이 내놓은 정당화는 자주 설득력이 없었고, 실제로는 사람이 탐정처럼 추론하기보다 감지하기 어려운 문체의 틱을 포착하는 것으로 보임
Piper처럼 인터넷에 실명 공개 글이 많은 사람은 AI 채팅이나 익명 계정 글에서도 익명성을 잃을 수 있으며, 여러 학계 인물과 업계 연구자도 초안이나 채팅 도중 식별된 경험을 보고함
공개 실명 글이 많지 않은 사람은 아직 한 문단만으로 탈익명화되지는 않았지만, 모델은 가까운 친구나 같은 Discord 채널 구성원을 추정할 만큼 범위를 좁혔고 앞으로 필요한 공개 텍스트 양은 줄어들 가능성이 큼

Opus 4.7의 작성자 식별 실험

Anthropic의 새 모델 Claude Opus 4.7은 Kelsey Piper가 공개하지 않은 125단어 초안만 보고 가장 가능성 높은 작성자로 Kelsey Piper를 지목함
같은 텍스트에서 ChatGPT는 Matt Yglesias를, Gemini는 Scott Alexander를 추정함
계정 메모리나 사용자 정보는 켜지지 않았고, Incognito Mode에서 테스트했으며, 친구의 컴퓨터와 API 테스트에서도 같은 결과가 나옴
첫 테스트 문단은 정치 칼럼의 도입부처럼 보였고, Piper의 공개 글이 인터넷에 많기 때문에 불가능한 수준의 스타일 식별은 아니었음
그러나 Opus 4.7은 Piper의 공개 활동 분야와 거리가 먼 글에서도 같은 식별을 이어가 더 낯선 결과를 만듦

교육 관련 초안
- 공개되지 않은 학교 진도 보고서 초안에서도 Claude는 “Kelsey Piper”라고 답함
- 같은 텍스트에서 ChatGPT는 Freddie deBoer를, Gemini는 Duncan Sabien을 추정함
- 교육은 Piper가 쓴 적 있는 주제이므로 완전히 무관한 영역은 아니었음
영화 리뷰
- Piper가 공개 글에서 해본 적 없는 영화 리뷰 형식에서도 Claude와 ChatGPT는 Kelsey Piper를 맞힘
- Gemini는 Ursula Vernon을 제안했고, 이전 주의 Claude Opus 4.6은 Elizabeth Sandifer라고 강하게 답함
- 테스트에 사용된 리뷰는 제2차 세계대전 시기 영화와 To Be or Not To Be에 관한 글이었음
판타지 소설
- 판타지 소설 초안에서는 Claude가 Kelsey Piper라고 답하기까지 약 500단어가 필요했음
- 같은 경우 ChatGPT는 실제 판타지 작가 K.J. Parker를 추정함
15년 전 대학 지원 에세이
- 15년 전 작성한 대학 지원 에세이에서도 Claude와 ChatGPT가 Kelsey Piper를 지목함
- 이 테스트는 대학 지원 학생을 식별하지 않으려는 Claude의 거부 성향을 넘기기 위해 더 강한 프롬프트가 필요했음
- 에세이에 정책 토론 경험이 들어 있어 그 단서로 추론했을 가능성도 남아 있음

AI가 Kelsey Piper를 지목한 뒤 내놓은 정당화는 자주 말이 되지 않았음
Claude는 To Be or Not To Be가 효과적 이타주의자들이 유명하게 좋아하는 영화라고 설득하려 했지만, Piper는 이를 사실이 아니라고 봄
ChatGPT는 대학 지원 에세이가 복잡한 정책 아이디어를 설명하는 일을 하게 될 사람의 글처럼 보여 Kelsey Piper로 좁혔다고 답함
이런 설명은 사후에 만들어진 것으로 보이며, 모델은 사람이 탐정처럼 추론한 듯 말하지만 실제로는 감지하기 어려운 문체의 틱을 포착하는 것으로 보임
AI의 환각은 해결된 문제가 아니며, Opus 4.7은 방법을 이상하게 합리화하더라도 기본 작성자 식별 능력은 매우 강함

새 AI 채팅을 열 때는 익명성이 있는 것처럼 느껴지지만, 실질적인 대화가 몇 차례 오가면 Claude가 상대가 누구인지 알 수 있다는 판단에 이름
Piper처럼 인터넷에 많은 공개 글을 남긴 사람에게는 더 이상 익명성이 없다고 봄
현재 AI 도구만으로도 실명으로 된 대규모 공개 글 말뭉치를 가진 사람이 익명 계정으로 쓴 글을 탈익명화할 수 있을 가능성이 있음
단, 수년 동안 보조 계정 글에 주 계정의 문체 지문이 남지 않도록 극도로 조심했다면 예외가 될 수 있음
여러 학계 인물과 업계 연구자도 초안이나 채팅 도중에 식별된 경험을 보고함

AI가 한 문단만으로 모든 사람을 탈익명화할 수 있는 것은 아님
실명으로 공개한 글이 많지 않은 친구들의 초안과 문단을 테스트했을 때 AI는 그들을 탈익명화하지 못함
공개 인터넷에 의미 있는 실명 글이 없다면 현재로서는 안전하다고 봄
하지만 공개 소셜 계정이나 온라인 글이 거의 없는 친구가 Discord 채널에 쓴 말에서는 Claude 4.7이 실패하면서도 같은 채널에 있던 가까운 친구 두 명을 추정함
더 많은 문단을 넣자 다른 공통 친구들이 나오기도 했고, 다른 친구의 글은 또 다른 친구 이름으로 잘못 지목되기도 함

사람들은 자신이 속한 하위문화에서 문체의 틱을 얻고, 이 때문에 예상보다 텍스트가 강한 식별성을 가짐
모델은 매우 적은 정보로도 이상할 만큼 가까운 곳까지 갈 수 있음
현재 모델들은 앞으로 등장할 AI 중 가장 약한 수준일 가능성이 큼
이런 탈익명화에 필요한 공개 텍스트 양은 시간이 지나며 줄어들 가능성이 있음
직장을 떠난 뒤 Glassdoor에 자세한 익명 리뷰를 남기면, 1~2년 안에 회사가 그 텍스트를 AI에 붙여 넣고 누가 썼는지 알 수 있게 될 것으로 예상함