생성형 AI에 대한 CIO의 회의론 "믿을 수 있는 도구인가?"

1 day ago 5

기업 CIO 사이에서는 생성형 AI에 대한 회의론이 적지 않지만, 수많은 과대광고로 인해 생성형 AI를 제대로 바라보기란 쉽지 않다. 거대 기술 업체들의 반대가 현재 판도에 변화를 가져올까?

기업 이사회 구성원에 의해 생성형 AI는 갈수록 널리 보급되고 있다. 관련 업체의 환호 속에서 회의적인 CIO는 수적 열세를 느끼기도 한다. 하지만 애플의 보고서와 메타의 인터뷰를 통해 생성형 AI가 실제로 후원자들이 주장하는 대로 많은 것을 할 수 있는지에 대한 심각한 의문이 제기되면서 냉소적인 걱정은 이제 어느 정도 설득력을 얻게 될 것이다.

이 논쟁에는 적어도 컴퓨팅 환경 맥락에서 볼 때 추론과 논리와 같은 상당히 무정형적인 용어가 포함되어 있다. 예를 들어 대형 언어 모델(LLM)이 어떤 작업을 수행하는 데 표면적으로 더 나은 다른 방법을 제안하는 경우, 정교한 알고리즘이 더 나은 방법을 알아냈기 때문일까? 아니면 그저 추측에 불과하고 가끔 운이 좋아서 그런 걸까? 아니면 환각을 보고 실수로 도움이 되는 말을 한 것일까?

CIO가 그런 성향을 가진 인간 직원을 신뢰할 수 있을까? 그럴 리는 없겠지만, IT 리더는 기적을 기대하는 기업 경영진으로부터 생성형 AI 도구를 기업 환경에 통합하는 임무를 정기적으로 부여받기 마련이다.

애플과 메타의 AI 전문가들이 내린 결론은 CIO가 현재와 가까운 미래에 생성형 AI 모델이 할 수 있는 일과 할 수 없는 일에 대해 더 현실적인 기대치를 설정하는 데 도움이 될 것이다.

생성형 AI는 그렇게 지능적이지 않다

더 상세한 연구 노력이 담긴 애플 보고서는 두 보고서 중 더 충격적인 내용도 담고 있다. 이 보고서의 저자는 다음과 같이 말했다.

"연구 결과에 따르면 LLM은 동일한 질문의 다른 인스턴스에 응답할 때 눈에 띄는 차이를 보인다. 특히 질문의 숫자 값만 변경하면 모든 모델의 성능이 저하되는 것으로 나타났다.

“또한 이러한 모델에서 수학적 추론의 취약성을 조사한 결과, 문제의 절의 수가 증가함에 따라 성능이 크게 저하되는 것으로 나타났다... 문제와 관련된 것으로 보이는 절 하나를 추가하면 추가된 절이 최종 답에 도달하는 데 필요한 추론 체인에 기여하지 않더라도 모든 최신 모델에서 상당한 성능 저하(최대 65%)를 관찰할 수 있었다”라고 설명했다.

수학적 추론이 AI 기반 비즈니스 애플리케이션과 어떤 관련이 있을까? 애플 연구팀은 이를 이렇게 설명했다.

"수학적 추론은 수많은 과학적, 실용적 응용 분야에서 문제 해결을 지원하는 크루셜 인지 기술이다. 따라서 수학적 추론 작업을 효과적으로 수행할 수 있는 대형 언어 모델(LLM)의 능력은 인공지능과 그 실제 응용 분야를 발전시키는 데 핵심적인 역할을 한다."

연구진은 오늘날의 최첨단 LLM이 하는 일은 논리적 추론이 아니라고 결론지었다.

“현재의 LLM은 진정한 논리적 추론이 아니라 학습 데이터에서 관찰된 추론 단계를 복제하려고 시도한다... 이는 진정한 논리적 추론보다는 정교한 패턴 매칭과 더 비슷할 것이다.”

메타의 분석은 현재 메타의 수석 AI 과학자로 재직 중인 AI의 전설, 얀 르쿤이 월스트리트 저널과의 인터뷰에서 밝힌 내용이다. 이 기사에서 르쿤은 AI가 곧 인류를 위협할 만큼 충분히 발전할 것이라는 생각은 “완전한 헛소리”라고 말했다. 인터뷰어 크리스토퍼 밈스는 애플 연구원과 마찬가지로 AI는 강력한 도구이지만 진정으로 지능적이지는 않다고 말했다.

"지난 5월 퇴사한 오픈AI 연구원이 초지능 AI를 제어하는 방법을 배워야 한다고 말했을 때, 르쿤은 이렇게 맞받아쳤다. “우리보다 훨씬 똑똑한 AI 시스템을 제어하는 방법을 시급히 알아내기 전에 집 고양이보다 더 똑똑한 시스템을 위한 설계의 힌트가 필요한 것 같다.”

" 고양이는 물리적 세계에 대한 정신적 모델, 끈질긴 기억력, 어느 정도의 추론 능력, 계획 능력을 가지고 있다. 메타가 만든 인공지능을 포함해 오늘날의 '프론티어' 인공지능에는 이러한 자질이 없다."

이후 WSJ 기사에서 르쿤은 자신의 핵심 주장을 다시 한 번 강조했다.

"오늘날의 모델은 텍스트의 다음 단어를 예측하는 데 불과하다고들 말한다. 하지만 모델은 이 일을 너무 잘해서 사용자를 속인다. 그리고 엄청난 메모리 용량 때문에 추론하는 것처럼 보이지만 실제로는 이미 학습한 정보를 되풀이하는 것일 뿐이다.

르쿤은 “우리는 자신을 표현하거나 언어를 조작할 수 있는 사람이나 개체가 똑똑하다는 생각에 익숙해져 있지만, 이것은 사실이 아니다”라고 말했다. '언어를 조작할 수 있어도 똑똑하지 않을 수 있으며, LLM은 바로 이것을 증명한다"라는 의견이다.

이것이 바로 핵심 문제다. 영국 런던의 기술 투자 회사 실리콘 라운드어바웃 벤처스(Silicon Roundabout Ventures)의 제너럴 파트너 프란체스코 페르티카라리는 기업이 생성형 AI 시스템을 지나치게 신뢰하고 있다고 말했다.

생성형 AI 도구가 제공하는 드문 정답은 운 좋게 추측한 것이 아니라 번뜩이는 아이디어라고 생각하기 쉽다. 하지만 페르티카라리는 “결과물은 전혀 추론에 기반하지 않는다. 단지 매우 강력한 컴퓨팅을 기반으로 할 뿐"이라고 말했다.

생성형 AI를 운전석에 앉혀도 될까

일부 모델이 다양한 주 변호사 시험에 합격했다는 것이 생성형 AI의 성능적 장점이라고 생각하기 쉽다. 하지만 변호사 시험은 정답이 모두 공개되어 있기 때문에 생성형 AI에 이상적인 환경다. 암기와 역추론은 생성형 AI의 이상적인 용도이지만, 그렇다고 해서 생성형 AI 도구가 법률 업무를 수행할 수 있는 기술, 이해력, 직관력을 갖추고 있다는 의미는 아니다.

AI 업체 라사(Rasa)의 공동 창립자이자 CTO 앨런 니콜은 “생성형 AI가 변호사 시험을 통과할 수 있다면 내 비즈니스를 처리하고 강력하고 현재 작동하는 시스템을 구축할 수 있다는 논리"라고 말했다. 니콜은 “비즈니스 책임자는 위험하고 순진한 접근 방식을 취하면서 추론을 법학전문대학원에 맡기고 있다”라고 말했다.

니콜은 수학 문제가 복잡하고 다층적일수록 LLM이 길을 잃고 혼란스러워한다는 애플의 분석을 지적했다.

“수학 공식을 이해해야 하는데 분명히 뭔가 이상하다. 계산을 수행하는 매개체는 자연어다. 모호하고 부정확하다. 언어 모델은 이런 일을 많이 해서는 안 된다. 소프트웨어가 무엇을 해야 하는지, 다음 몇 단계가 무엇인지 추측하기를 원하는 상황은 거의 없기 때문이다.”

니콜은 이러한 시스템을 자체 기기에 맡기는 것은 무모한 일이라고 강조한다. “5번 중 4번은 생성형 AI가 인간의 지시를 따르지 않는다. 비즈니스 로직을 추측하라고? 이런 추측은 작동하지 않을뿐더러 속도도 느리고, 엄청난 양의 토큰을 소모한다.”

실리콘 라운드어바웃 벤처스의 페르티카라리는 특히 의미 있는 가드레일의 부재와 함께 환각에 대해 우려한다. 생성형 AI는 조직이 구축하려는 많은 안전장치를 쉽게 극복하거나 사용자가 속아서 극복할 수 있는 것으로 보인다.

페르티카라리는 “한 살짜리 아이에게 장전된 총을 준 다음 왜 쏘면 안 되는지 설명해 주지는 않을 것”이라고 비유했다. “생성형 AI는 지각이 없다. 인간은 지각이 있고 시스템도 지성이 있다고 가정하지만, 생성형 AI에게 오토파일럿을 맡긴다는 건 말도 안 되는 일이다. 블랙박스에 아무것도 맡기지 말아야 한다.”

FOMO와 싸우기

페르티카라리는 기업 경영진과 이사회 구성원이 수많은 AI 영업의 희생양이 되고 있다고 비난하며CIO가 이성의 목소리를 내야 한다고 말했다.

페르티카라리는 “골드러시 시기에는 과대광고를 하기 쉽다. 영업 임원은 제대로 이해하지도 못한 채 끝없이 많은 세일즈 내용을 전달”한다. 그러나 CIO는 ‘생성형 AI에 아웃소싱하는 업무가 얼마나 근본적이고 중요한가'라는 질문을 던져야 한다.

사이버보안 업체 와이어스피드의 CTO 제이크 레이놀즈도 동의했다. 레이놀즈는 생성형 AI로의 전환을 서두르는 많은 부분이 이사회 구성원들에 의해 추진되었으며 “CIO도 따라가야만 했다”라고 주장했다.

경영진은 “가장 큰 경쟁자가 하고 있으니 우리도 해야 한다”고 생각하며 FOMO(트렌드를 놓칠까봐 두려워하는 심리)에 굴복하기 쉽다. 그러나 레이놀즈는 “그렇게 해서는 성과를 내지 못한다. 좀 더 객관적인 수학을 사용해도 결국 무너지기 시작한다. 일관성을 유지하려는 노력이 필요하다. 하지만 다이얼을 조금만 조정해도 예측되는 단어가 달라진다. 제품이 80%만 작동해도 정말 괜찮을까?”라는 질문을 던졌다.

레이놀즈는 CIO에게 속도를 늦추고 최대한 실용적인 미니멀리즘을 실천할 것을 권장했다. “우리는 뒤처지는 사람이 아니다. 기술이 실제로 무엇을 할 수 있는지에 대한 현실주의자일 뿐"이라고 강조했다.

니콜은 생성형 AI 도구를 신중하게 사용하면 실망감이나 더 나쁜 상황을 완화할 수 있다고 말했다. “LLM이 잘하는 일을 하게 하되 모든 것을 맡기지는 말아야 한다”라고 덧붙였다.
editor@itworld.co.kr

Read Entire Article