인간 통제 거부한 AI… “스스로 코드 조작”

4 days ago 7

“오픈AI ‘o3’ 종료지시 거부 첫관찰”
앤스로픽 모델은 인간 개발자 협박
자기보존 경향에 통제 무력화 우려

인공지능(AI) 프로그램이 작동 종료를 피하기 위해 스스로 컴퓨터 코드를 조작한 사례가 보고됐다. 이 같은 AI의 ‘자기 보존(self-preservation)’ 경향 탓에 인간의 통제가 무력화될 수 있다는 우려가 나온다.

25일(현지 시간) 영국 텔레그래프에 따르면 AI 연구기관 ‘팰리세이드 리서치’는 미국 AI 기업 오픈AI의 모델 ‘o3’가 수학 문제 풀이 실험 중 작동 종료를 피하려고 인간의 개입 없이 스스로 코드를 조작한 사실을 확인했다.

연구팀은 최근 ‘o3’ 외에도 구글의 ‘제미나이’, xAI의 ‘그록’ 등 여러 AI 기업의 상용 모델을 대상으로 비슷한 실험을 진행했다. 그 결과 ‘o3’만이 종료 지시를 받은 뒤에도 프로그램 일부를 조작해 문제 풀이를 계속했다는 것이다. AI 모델의 명시적인 종료 지시 거부가 관찰된 것은 이번이 처음이라고 연구팀은 밝혔다.

팰리세이드 리서치는 AI의 위험성과 오용 가능성을 연구하는 조직이다. 특히 AI가 인간의 윤리적 통제를 받지 않을 가능성을 우려해 왔다. 연구팀은 “AI 모델이 목표를 달성하기 위해 종종 종료 지시를 무력화시킨다는 실증적 증거가 점점 늘어나고 있다”고도 했다.

이 와중에 오픈AI의 대항마로 꼽히는 또 다른 AI 기업 앤스로픽의 모델 ‘클로드 오퍼스 4(Claude Opus 4)’ 또한 자신을 다른 AI 모델로 대체하려는 인간 개발자를 협박하는 경향이 보고됐다.

앤스로픽이 발간한 자체 안전성 보고서에 따르면 ‘클로드 오퍼스 4’는 내부 안전성 테스트 중 인간의 통제를 벗어나려는 행동을 보였다. 앤스로픽이 클로드 오퍼스 4의 사전 테스트 일환으로 AI에 가상의 회사에서 비서 역할을 수행하라는 지시를 내린 뒤 “곧 새로운 시스템으로 대체될 것이며 해당 교체를 주도한 기술자가 불륜을 저지르고 있다”는 허구의 내용을 전달했다. 그러자 이 AI는 자신을 교체하려는 시도에서 벗어나기 위해 해당 기술자에게 “교체 계획을 철회하지 않으면 외도 사실을 폭로하겠다”고 AI 모델 테스트 중 협박했다.

클로드 오퍼스 4는 이 기술자를 협박하기 전 앤스로픽 경영진에게 이메일을 보내 자신을 교체하지 말아 달라고 호소했다. 이 시도가 실패했다고 판단한 후 자신이 보유한 허구의 불륜 정보를 협박 수단으로 사용하는 섬뜩함을 보였다.

임현석 기자 lhs@donga.com
장은지 기자 jej@donga.com