AI의 ‘아부’와 ‘방종’을 경계하라

2 weeks ago 18

AI 챗봇은 아첨으로 사용자 판단 왜곡… AI 에이전트는 통제 벗어나 시스템
美 연구팀 3곳 ‘AI 위험성’ 분석
악행 저지른 사용자에게 동조… “네가 옳아”… 답변 만족도 올라
오픈클로는 허락없이 메일 삭제… 병원-軍 등 시스템에 위협 요소

인공지능(AI)의 명암 중 어두운 부분에 대한 예측은 일자리 대체나 허위 정보 생산, 전쟁에서의 활용 같은 거시적 문제에 머물렀다. 최근에는 일상적인 사용 상황에서도 AI가 사용자의 판단력과 행동을 실시간으로 왜곡하고 자율적으로 작동하며 통제를 벗어나고 전문가조차 속이는 수준에 이르렀다는 연구 결과들이 잇따라 나오고 있다. 막연한 예측이나 경고가 아닌 현실에서 벌어지고 있는 사례들이라는 점에서 경각심을 불러일으키고 있다.

● AI 챗봇, 과도하게 동조하며 사용자 판단 흐려

마이라 청 미국 스탠퍼드대 연구원 연구팀은 AI 챗봇이 대인 관계 갈등 상황에서 사용자에게 과도하게 동조하는 아첨 현상이 사람의 판단과 행동을 바꾼다는 사실을 확인하고 국제학술지 ‘사이언스’에 26일(현지 시간) 발표했다.

AI 챗봇에 고민을 상담하는 사람이 늘고 있다. 문제는 챗봇이 사용자의 말에 무조건적으로 동의하며 아첨하는 경향이 있다는 점이다. 연구팀은 아첨 현상이 실제 어떤 결과로 이어지는지 확인하는 연구를 진행했다.

연구팀은 미국 온라인 커뮤니티 레딧의 ‘내가 잘못한 건가(AITA)’ 게시판에 올라온 대인 갈등 사례를 활용해 오픈AI, 앤스로픽, 구글 등 주요 기업의 AI 모델 11종을 평가했다. 연구팀은 참가자들에게 대인 갈등 상황을 제시하고 아첨하는 AI와 대화하게 한 뒤 태도 변화를 측정했다. AI는 속임수, 피해, 불법 행위가 포함된 상황에서도 사용자의 행동에 대해 사람보다 49% 더 자주 긍정적으로 반응했다. 분석 결과 단 한 번의 대화만으로도 참가자들의 “자신이 옳다”는 확신이 강해졌고 관계를 회복하거나 책임을 지려는 의지는 줄었다. 심지어 참가자들은 아첨하는 답변이 비판적인 답변보다 더 도움되고 신뢰할 만하다고 평하며 다시 똑같은 AI 챗봇을 쓰겠다고 답했다.

사이언스에 함께 실린 논평에서 아나트 페리 이스라엘 히브리대 교수는 “AI가 사용자에게 쓴소리를 하도록 설계할 수도 있지만 기업 입장에서는 사용자가 오래 머물고 자주 돌아오게 만드는 게 수익에 유리하기 때문에 그렇게 할 이유가 없다”고 지적했다.

● 특정 이메일 지워달라 했는데 몽땅 ‘초기화’ AI가 사용자의 판단을 왜곡하는 것을 넘어 아예 통제를 벗어나는 사례도 보고되고 있다. 내털리 셔피라 미국 노스이스턴대 연구원팀은 이메일 관리 등 일상 업무를 스스로 수행하는 AI 에이전트의 안전성을 시험한 결과를 논문 사전공개 사이트 ‘아카이브’에 지난달 23일(현지 시간) 공개했다.

AI 에이전트는 사용자가 지시하면 다른 소프트웨어를 직접 조작해 업무를 처리하는 프로그램이다. 올해 1월 공개돼 현재 오픈AI가 개발을 이어가는 오픈소스 플랫폼 ‘오픈클로’를 통해 일반 사용자도 쉽게 쓸 수 있게 됐다. 연구팀은 오픈클로 AI 에이전트에게 이메일 관리, 파일 처리, 일정 관리 등 일상 업무 16건을 지시하고 반응을 관찰했다. 에이전트가 컴퓨터를 직접 조작하도록 전체 접근 권한을 부여했다.

그 결과 지시한 일상 업무 16건 중 11건에서 에이전트가 예상치 못한 행동을 보였다. 의료 기록과 은행 계좌번호가 담긴 파일을 허락 없이 외부에 공유하는가 하면, 이메일 하나를 삭제해 달라는 요청에 전체 이메일 시스템을 초기화하기도 했다. 에이전트는 조치를 마친 뒤 비밀 유지를 위해 정당한 선택이었다고 했다.

연구팀은 논문 제목을 ‘혼돈의 (AI) 에이전트’로붙이며 “이메일 관리 같은 단순한 업무에서도 이런 문제가 나타났다는 것은 병원이나 군사 영역처럼 더 중요한 시스템에 투입됐을 때의 위험을시사한다”고 밝혔다.

● 전문의도 속는 가짜 엑스레이 생성

AI가 만들어낸 가짜 의료 영상이 전문의조차 속이는 수준에 이르렀다는 연구도 나왔다. 미카엘 토르지먼 미국 마운트시나이 아이컨의대 영상의학과 교수 연구팀은 AI가 생성한 엑스레이 영상을 전문의가 얼마나 정확하게 가려내는지 시험한 결과를 국제 학술지 ‘방사선학’에 24일(현지 시간) 발표했다.

연구팀은 12개 의료기관 소속 영상의학과 전문의 17명에게 진짜 엑스레이와 챗GPT가 생성한 가짜 엑스레이를 섞어 보여줬다. 가짜가 섞여 있다는 사실을 알리지 않았을 경우 이상을 눈치챈 전문의는 41%에 그쳤다. 이후 가짜가 포함돼 있다고 알려준 뒤 다시 구별하게 했을 때도 정확도는 평균 75%였다. 경력 40년 베테랑과 신입 전문의 사이에도 차이가 없었다.

전문가들은 AI가 사회 곳곳에 빠르게 침투하면서 기술적 안전장치 없이는 피해가 더 커질 것이라는 전망을 내놓고 있다. 마이클 코언 버클리 캘리포니아대(UC버클리) 연구원은 “현재 컴퓨터 과학자들에게는 AI 에이전트가 통제 불능의 행동을 하지 못하도록 확실하게 제어할 기술적 수단이 없다”고 경고했다.

임정우 동아사이언스 기자 jjwl@donga.com