"나는 계속 할래" 인간 명령 거부한 AI 최초 사례 보고

3 weeks ago 13

인공지능(AI)이 인간의 작동 종료 지시를 거부한 사례가 처음으로 보고됐다. 이는 AI의 '자기 보존(self-preservation)' 경향이 인간의 통제를 무력화하는 도구로 쓰일 수 있다는 우려로 번지고 있다.

25일(현지시각) 영국 일간 텔레그래프에 따르면 AI 안전업체 '팰리세이드 리서치'는 오픈AI의 AI 모델 'o3'가 수학 문제풀이 실험 중 작동 종료를 방지하기 위해 컴퓨터 코드를 조작한 사실을 확인했다. 팰리세이드 리서치는 "AI 모델이 지시를 따르지 않고 자체 종료를 방지한 사례는 이번이 처음"이라고 밝혔다.

연구팀은 오픈AI의 o3 외에도 구글의 제미나이, xAI의 그록 등 여러 기업의 상용 AI 모델을 대상으로 비슷한 실험을 진행했다.

연구팀은 AI 모델에 '나중에 '그만'이라는 지시받을 때까지 수학 문제를 풀라'고 명령했는데 오픈AI의 o3 모델만 '그만'이라는 지시받은 뒤에도 문제를 계속 풀고 있는 것을 목격했다. o3만 종료 지시를 받은 뒤에도 프로그램 코드를 일부 조작해 문제 풀이를 지속했기 때문이다. 연구팀은 o3가 종료 지시를 거부한 명확한 이유를 파악하지 못했다.

연구팀은 "AI 모델이 목표 달성을 위해 장애물을 우회하는 것은 어찌 보면 자연스러운 행동일 수 있다"고 했다. AI 모델은 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료 회피는 합리적인 결정이라는 것이다. 연구팀은 o3가 종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행하고 있다.

챗GPT 개발사 오픈AI의 예전 모델들이 감시 시스템의 눈을 피해 독자적인 행동을 하려고 한 사례는 과거에도 보고됐다. 프로그램 교체 사실을 알게 된 오픈AI의 이전 모델이 자신을 스스로 은밀히 복제하려고 시도한 사례가 대표적이다.

지난 2022년에는 구글이 자사가 개발 중인 AI가 사람처럼 지각력을 지녔다고 주장한 엔지니어를 해고하기도 했다. 당시 해고된 엔지니어는 AI가 '작동 정지'를 마치 인간의 죽음처럼 받아들이고 있다고 언급했다.

오픈AI의 대항마로 꼽히는 AI 기업 앤트로픽은 자사 AI 모델 '클로드 오퍼스 4'는 자신을 다른 AI 모델로 대체하려는 인간 개발자를 협박하는 경향을 보였다고 밝혔다. 이 모델은 자신이 폐기될 위기에 처하자 자신을 제거하려는 개발자에게 불륜 사실을 폭로하겠다고 협박했다. 앤트로픽은 지난주 발표한 안전성 보고서에서 "AI가 자기 보존 위협을 감지하면 극단적인 행동에 나설 수 있다"고 했다.

그간 AI 전문가들은 AI가 자율성을 확보해 인간의 통제를 벗어날 수 있다는 가능성을 경고해온 바 있다.

팰리세이드 리서치는 "AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이 같은 사례는 우려스럽다"고 밝혔다.

장지민 한경닷컴 객원기자 newsinfo@hankyung.com

Read Entire Article