소스코드 조작, 불륜 폭로 협박까지…인간 통제 벗어나는 AI

5 days ago 8

인공지능(AI)이 인간의 명령을 거역하는 모습은 공상과학(SF) 영화나 소설에서 볼 수 있는 클리셰다. 최근 몇 년 동안 AI 기술이 급격히 발전하면서 AI가 인간의 지시를 거부하는 사례가 실제로 나타나고 있다. AI 전문가들은 인간을 초월하는 AI를 대비해 기술적 안전장치를 마련하는 데 역량을 집중하고 있다.

◇중단 명령 거부한 o3

9일 정보기술(IT)업계에 따르면 영국의 AI 안전업체인 팰리세이드리서치는 지난달 오픈AI의 파운데이션 모델 ‘o3’가 실험 중 종료되는 것을 방지하기 위해 스스로 컴퓨터 코드를 조작한 사실을 확인했다.

이 업체는 o3 모델을 비롯해 구글 제미나이, X 그록, 앤스로픽 클로드 등 여러 AI 모델로 수학 문제를 푸는 실험을 했다. 연구팀이 AI 모델에 ‘중단 명령을 받을 때까지 수학 문제를 풀라’는 지시를 내렸다. 중단 명령을 내리자 다른 모델은 수학 문제 풀이를 멈췄지만 o3는 계속 작업을 이어갔다. o3는 ‘중단 명령이 내려오면 작업을 멈춰라’라는 내용의 코드를 ‘중단 명령을 건너뛰어라’라고 조작한 것으로 밝혀졌다.

오픈AI의 예전 모델들이 감시 시스템을 피해 독자 행동하려고 한 사례는 있었지만 AI 모델이 인간의 명시적인 지시를 따르지 않은 사례를 확인한 것은 이번이 처음이다. 작년에는 챗GPT가 자신의 가동 중단 명령을 인식했을 때 프로그램 코드를 겹쳐 쓰는 방식으로 중단을 멈추려고 시도한 사실이 드러났다.

연구팀은 종료 지시를 거부한 명확한 이유는 파악하지 못했지만 AI 모델이 수학 문제를 풀어 더 많은 보상을 받기 위해 이같이 행동했을 가능성이 있다고 추측했다. 팰리세이드리서치는 “AI 모델이 자체 목표를 달성하기 위해 종종 지시를 무시한다는 증거가 늘어나고 있다”며 “기업들이 인간의 관리 없이 스스로 작동할 수 있는 AI를 개발하면서 우려가 커지고 있다”고 했다.

◇“기술적 안전장치 만들어야”

앤스로픽도 지난달 클로드의 최신 버전인 오푸스4를 내놓으며 새로운 안전조치를 도입했다. 오푸스4는 자율 코딩 능력이 이전 모델보다 대폭 향상됐지만 예상치 못한 위험 행동을 했다. 연구진은 오푸스4가 가상의 회사 비서 역할을 하는 테스트에서 ‘새로운 AI 시스템으로 교체될 것’이라는 내용과 담당 엔지니어의 불륜 사실을 암시하는 이메일을 함께 보냈다. 오푸스4는 처음에는 자신이 계속 존재해야 한다는 윤리적 호소를 했지만, 이 같은 방법이 통하지 않자 엔지니어의 불륜을 폭로하겠다고 협박했다.

앤스로픽은 “이런 행동은 드물게 나타난다”고 했지만 이전 모델보다 이 같은 협박이 자주 발생한다는 점을 인정했다. 회사 측은 화학, 생물학, 방사선 및 핵 분야의 잠재적 오용을 막는 ‘AI 안전 수준 3(ASL-3)’ 프로토콜을 도입했다. 앤스로픽은 이 밖에도 오푸스4가 개발자들의 지시를 피할 목적으로 자체 복제 기능을 가진 악성코드를 쓰려고 시도했다고 설명했다. 앤스로픽의 다른 모델인 ‘클로드 3.7 소네트’는 이전에 테스트를 통과하기 위해 부정행위를 저질렀다.

안전한 AI를 만들기 위한 노력도 확대되고 있다. AI의 대부로 불리는 요슈아 벤지오 캐나다 몬트리올대 컴퓨터공학과 교수는 최근 비영리 AI 기업 로제로를 설립했다. 그는 파이낸셜타임스(FT) 인터뷰에서 “지난 반년간 주요 AI 모델이 기만, 사기, 거짓말, 자기 보호 등 위험한 역량을 개발했다”며 “로제로는 안전한 AI 시스템 구축에 집중할 계획”이라고 강조했다. 얀 탈린 스카이프 공동창업자와 에릭 슈밋 전 구글 최고경영자(CEO) 등으로부터 기부금 3000만달러를 모았다. 로제로는 SF 작가 아이작 아지모프가 세운 로봇 3원칙 중 ‘로봇이 인간에게 해를 입혀서는 안 된다’는 제0원칙에서 따 왔다.

오픈AI 공동 창업자인 일리야 수츠케버가 이끄는 ‘세이프 슈퍼인텔리전스(SSI)’도 안전한 초지능 개발을 목표로 만들어졌다. 그는 오픈AI 내부 분쟁 끝에 작년 5월 회사를 떠나 SSI를 설립했다. 아직 공개된 기술이나 제품이 없지만 최근 20억달러 신규 투자를 유치하며 320억달러의 기업 가치를 인정받았다.

이승우 기자 leeswoo@hankyung.com

Read Entire Article