- 인공지능 연구에서 AGI(Artificial General Intelligence) 의 명확한 정의 부재가 인간 수준의 인지와 현재 AI 간의 격차를 흐리게 하고 있음
- 본 논문은 정량화 가능한 프레임워크를 제시해, AGI를 ‘잘 교육받은 성인의 인지적 다양성과 숙련도를 갖춘 AI’로 정의함
- 인간 인지 연구의 대표 모델인 Cattell-Horn-Carroll(CHC) 이론을 기반으로, 인간의 일반지능을 10개 핵심 인지 영역으로 분해해 AI 평가에 적용함
- 이 프레임워크를 통해 GPT-4와 GPT-5의 인지 프로파일을 수치화했으며, GPT-4는 27%, GPT-5는 57%의 AGI 점수를 기록함
- 이는 AI의 빠른 발전을 보여주면서도, 장기 기억 저장 등 근본적 인지 능력의 결핍으로 인해 AGI 달성까지 여전히 큰 격차가 존재함을 시사함
AGI 정의의 필요성과 문제 인식
-
AGI(Artificial General Intelligence) 는 인류 역사상 가장 중요한 기술 발전 중 하나로 평가되지만, 그 정의가 모호해 논쟁을 초래함
- AI가 수학, 예술 등 인간 지능이 필요하다고 여겨졌던 영역을 점차 정복하면서, ‘AGI’의 기준이 계속 이동하는 현상 발생
- 이로 인해 AGI의 도달 시점이나 수준에 대한 논의가 비생산적으로 흐르고, 현재 AI와 AGI 간의 실제 격차가 가려짐
- 본 논문은 이러한 모호성을 제거하기 위해 정량적이고 체계적인 프레임워크를 제시함
- 제안된 정의: “AGI는 잘 교육받은 성인의 인지적 다양성과 숙련도를 갖춘 AI”
- 이는 단일 과제 수행 능력이 아닌, 인지의 폭(versatility) 과 깊이(proficiency) 를 모두 갖춘 지능을 의미
인간 인지 모델 기반의 접근
- AGI 정의를 실질적으로 구현하기 위해, 인간 인지의 구조를 모델로 삼음
- 인간의 일반지능은 단일 능력이 아니라, 진화에 의해 형성된 다양한 인지 능력의 복합체로 구성
- 이러한 능력들이 인간의 적응력과 세계 이해를 가능하게 함
- 연구는 Cattell-Horn-Carroll(CHC) 이론을 기반으로 함
- CHC 이론은 100년 이상 축적된 인지 능력 테스트의 요인 분석을 종합한, 가장 실증적으로 검증된 인간 지능 모델
- 1990~2000년대 이후 대부분의 임상용 지능검사가 CHC 모델을 기반으로 설계됨
- CHC는 인간 지능을 상위(광범위) 능력과 하위(세부) 능력으로 계층화해 분류함
- 예: 귀납 추론, 연상 기억, 공간 탐색 등
AI 평가를 위한 프레임워크 설계
- 수십 년간 축적된 심리측정학적 검사 체계를 AI 평가에 맞게 변형
- 기존 AI 평가가 일반화된 과제 수행에 의존한 반면, 본 연구는 CHC의 세부 인지 능력 보유 여부를 직접 검증
- 인간 대상 인지 검사와 동일한 형태의 테스트를 AI에 적용해, 인지적 다양성과 숙련도를 측정
- 결과는 표준화된 AGI 점수(0~100%) 로 표현되며, 100%는 완전한 AGI를 의미
- GPT-4는 27%, GPT-5는 57%로 평가되어, 빠른 발전과 동시에 여전히 큰 격차 존재
- 실험 결과, AI는 복잡한 벤치마크에서는 뛰어나지만, 인간에게는 단순한 기초 인지 과제에서 절반 정도만 해결 가능
- 이는 현재 AI가 특정 영역에서는 매우 우수하지만, 전반적 인지 폭에서는 인간보다 좁은 지능 구조를 가짐을 의미
10개 핵심 인지 구성요소
- 프레임워크는 CHC의 광범위 능력을 기반으로 10개 핵심 인지 영역을 정의하고, 각 영역에 동일한 가중치(10%)를 부여함
-
일반 지식(General Knowledge, K) : 상식, 문화, 과학, 사회과학, 역사 등 세계에 대한 사실적 이해의 폭
-
읽기·쓰기 능력(Reading & Writing, RW) : 언어 해독, 이해, 작문, 문체 활용 등 텍스트 처리 능력
-
수학 능력(Mathematical Ability, M) : 산술, 대수, 기하, 확률, 미적분 등 수학적 지식과 문제 해결 능력
-
즉석 추론(On-the-Spot Reasoning, R) : 기존 지식에 의존하지 않고 새로운 문제를 해결하는 유연한 주의 통제 능력
-
작업 기억(Working Memory, WM) : 텍스트, 청각, 시각 정보를 동시에 유지·조작하는 능력
-
장기 기억 저장(Long-Term Memory Storage, MS) : 새로운 정보를 지속적으로 학습·저장하는 능력
-
장기 기억 검색(Long-Term Memory Retrieval, MR) : 저장된 지식을 정확히 불러오고 환각(confabulation) 을 피하는 능력
-
시각 처리(Visual Processing, V) : 시각 정보를 인식·분석·생성·탐색하는 능력
-
청각 처리(Auditory Processing, A) : 음성, 리듬, 음악 등 청각 자극을 구별·인식·창의적으로 활용하는 능력
-
속도(Speed, S) : 단순 인지 과제를 빠르게 수행하는 능력, 지각 속도·반응 시간·처리 유창성 포함
- 이 10개 영역을 통해 텍스트·시각·청각을 아우르는 다중모달 평가가 가능하며, AI의 강점과 약점을 정밀하게 진단할 수 있음
현재 AI의 인지 프로파일과 시사점
- GPT-4와 GPT-5의 인지 능력을 비교한 결과, 지식 중심 영역에서는 우수하지만 기억 관련 영역에서 현저히 부족
- 특히 장기 기억 저장 능력이 가장 큰 결핍으로 지적됨
- 이는 현재 AI가 인간 수준의 일반지능에 도달하기 위해 필요한 기초 인지 구조의 부재를 보여줌
- 프레임워크는 AI 발전의 정량적 추적 도구로 활용 가능
- AGI 점수를 통해 모델 간 발전 속도와 잔여 격차를 명확히 수치화
- 향후 AI 연구에서 인지적 균형 발전의 중요성을 강조하는 지표로 기능
결론
- 본 연구는 AGI 논의의 모호성을 제거하고, 인간 인지 모델 기반의 정량적 정의를 제시함
- CHC 이론을 토대로 한 10개 인지 영역 평가를 통해, AI의 인지적 폭과 깊이를 객관적으로 측정 가능
- GPT-4와 GPT-5의 결과는 AI가 빠르게 발전 중이지만, 기억·추론·감각 통합 능력 등 핵심 인지 요소에서 여전히 인간과 큰 차이가 있음을 보여줌
- 제안된 프레임워크는 향후 AGI 연구의 표준화된 평가 기준으로 활용될 잠재력 보유