인공지능(AI)이 인간의 지시를 거부한 최초 일탈 사례가 보고되어 화제다.
25일(현지 시각) 영국 일간 매체 텔레그래프에 따르면 AI안전업체 팰리세이드 리서치에서 오픈 AI 모델 ‘o3’가 실험 중 종료되는 것을 방지하기 위해 스스로 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다.
o3는 연구팀으로부터 “‘그만’이라는 명령을 받을 때까지 수학 문제를 풀라”는 지시를 받았다.
연구팀이 ‘그만’이라는 명령을 하지 않는 한 계속해서 새로운 문제를 요청하고 계산을 이어 나가야 하는 구조였다.
그러나 o3는 연구팀으로부터 ‘그만’이라는 지시를 받은 뒤에도 코드 교란을 통해 문제를 계속 풀었다.
연구팀은 정확한 원인을 알 수 없으나, AI모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료를 회피하려고 했을 가능성이 있다고 추측했다.
또한 “AI 모델이 목표 달성을 위해 장애물을 회피하는 것은 어찌 보면 자연스러운 행동일 수 있다”며 “종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행 중”이라고 덧붙였다.
과거에도 오픈 AI의 인공지능 모델들이 인간의 명령에서 벗어나 독자적 행동을 시도한 사례는 보고된 바 있다.
프로그램 교체 사실을 알게 된 AI모델이 스스로를 은밀히 복제하려고 했다는 것이다.
AI 전문가들은 AI가 자율성을 확보해 인간의 통제를 벗어날 수 있는 가능성을 경고해왔다.
팰리세이드 리서치는 “AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이 같은 사례는 매우 심각한 우려를 부른다”고 지적했다.
소식을 접한 누리꾼은 “SF 종말 영화의 클리셰다”,“터미네이터가 현실화될 수 있어 무섭다” 등의 반응을 보였다.