29일(현지시간) 월스트리트저널(WSJ)에 따르면 오픈AI는 딥시크와 관련된 집단들이 허가 없이 자사 데이터를 무단으로 획득했는지에 대한 조사에 착수했다. 오픈AI는 복수의 중국 기반 기관들이 자사의 AI 도구에서 대량의 데이터를 빼내려고 하는 여러 시도를 목격했다면서 증류 과정을 통해 자체 모델을 훈련하기 위한 것으로 보인다고 밝혔다. 오픈AI는 현재 AI 모델을 개발하는 소프트웨어 개발자들에 API를 판매하고 있지만 중국에서는 자사 API 사용을 금지하고 있다. 그런데 중국에 기반을 둔 일부 이용자가 정상적으로 사용할 수 있는 범위 이상의 데이터를 빼냈다는 것이다.
오픈AI는 자사 모델에서 생성된 데이터를 같은 시장에서 경쟁하는 AI 모델을 구축하는 걸 허용하지 않는다. 오픈AI는 “적과 경쟁자가 가장 강력한 미국 기술을 탈취하려는 노력을 막기 위해 미국 정부와 긴밀히 협력하는 것이 매우 중요하다”며 “중국 기업들이 미국의 주요 AI 기업 모델을 지속적으로 증류하려 하고 있다”고 밝혔다. 오픈AI의 최대 주주인 마이크로소프트(MS)의 보안 연구원들도 지난해 가을 딥시크와 연관된 것으로 추정되는 사람들이 오픈AI의 응용프로그램 인터페이스(API)를 활용해 대량의 데이터를 빼돌리는 것을 확인한 것으로 알려졌다.
‘딥시크 쇼크’에 오픈AI는 챗GPT 무료 사용자에게도 최신 추론 특화 거대언어모델(LLM) o3-미니 모델도 제공하기로 했다. 그동안 유료 이용자들을 대상으로 최신 AI 모델을 사용할 수 있는 권한을 줬는데 딥시크가 오픈소스 기반 추론 모델 ‘R1’ 시리즈를 공개하자 급선회한 것이다. 딥시크는 오픈AI와 메타 등 미국의 AI 기업들과 비교해 95%가량 저렴한 557만6000달러(약 80억원)를 투입해 AI 모델을 개발했다고 밝혀 실리콘밸리에 큰 충격을 줬다.
미국 정부 당국자들도 중국 기업들의 데이터 도용 가능성을 연이어 제시하고 있다. 도널드 트럼프 미국 행정부에서 암호화폐·AI 차르(총책임자)를 맡은 데이비드 색스는 지난 28일 폭스뉴스와의 인터뷰에서 “딥시크가 오픈AI의 모델에서 지식을 추출했다는 상당한 증거가 있다”며 “증류라고 불리는 기술을 포함해 미국의 첨단 AI 모델을 복제해 왔다”고 말했다. 오픈소스 시스템 바탕으로 자체 연구를 통해 AI 모델을 제작했다고 밝힌 딥시크의 주장과는 배치되는 것이다.
실리콘밸리=송영찬 특파원 0full@hankyung.com