- Magma는 다중모달 입력을 해석하고 이를 환경 내에서 연결할 수 있는 최초의 기초 모델로, 가상 및 현실 세계에서의 복잡한 상호작용을 처리할 수 있음
- 단순한 이미지·영상 이해뿐만 아니라, 목표 중심의 시각적 계획 및 실행을 생성하여 다양한 AI 에이전트 작업을 수행
- UI 내비게이션, 로봇 조작, 이미지·영상 이해(특히 공간적 이해 및 추론) 등 여러 멀티모달 작업에서 최첨단 성능을 달성
- 확장 가능한 사전학습 방식: 비라벨링된 영상 데이터를 기존의 에이전트 데이터와 함께 학습하여 강력한 일반화 성능을 가지며, 실제 응용에 적합
- 코드, 모델, UI 내비게이션 데모를 MSR Forum (2025.02.25)에서 공개할 예정.
Magma의 목표
-
언어 및 공간-시간적 지능:
- 이미지와 영상을 정확하게 이해하고, 이를 기반으로 목표를 행동 계획 및 실행으로 변환하는 능력
-
디지털 및 물리적 환경에서의 작동:
-
웹 내비게이션(UI 조작)과 로봇 조작 모두 수행 가능
- 인간처럼 디지털·물리적 환경을 자유롭게 오갈 수 있는 AI
- 이를 위해, 비라벨링된 영상 데이터와 기존의 에이전트 데이터를 활용하는 새로운 학습 데이터셋과 텍스트·이미지·행동을 통합적으로 학습하는 사전학습 프레임워크를 개발하여 Magma를 학습시킴
Magma의 사전학습 방식
- Magma는 두 가지 핵심 접근법을 통해 학습됨.
-
1️⃣ 대규모 이질적 학습 데이터 활용
-
기존의 멀티모달 데이터, UI 내비게이션 데이터, 로봇 조작 데이터뿐만 아니라, 비라벨링된 영상 데이터를 대량으로 수집하여 학습함.
-
카메라 움직임을 제거하고, 실제 행동 데이터를 추출하여 모델이 장기적 행동 예측 및 계획을 학습할 수 있도록 함.
-
2️⃣ 통합 사전학습 목표 설정
-
텍스트와 행동은 본질적으로 다르며, 이를 효과적으로 연결하는 것이 과제
-
Set-of-Mark, Trace-of-Mark 등의 새로운 학습 기법을 도입하여 텍스트·이미지·행동 간의 강력한 정렬(Alignment) 구조를 구축
-
Set-of-Mark (SoM): 이미지에서의 효과적인 행동 기반을 가능하게 하며, UI 스크린샷, 로봇 조작 및 인간 비디오에서 클릭 가능한 버튼이나 로봇 팔에 대한 숫자 마크를 예측함.
-
Trace-of-Mark (ToM): 로봇 조작 및 인간 행동에 대한 감독을 제공하여, 모델이 시간적 비디오 역학을 이해하고 행동하기 전에 미래 상태를 예측하도록 함.
모델 사용법
직접 사용 (Fine-tuning 없이 사용 가능)
Magma는 연구 용도로 설계되었으며, 다음과 같은 방식으로 사용할 수 있음.
-
이미지/영상 기반 텍스트 생성: 입력된 이미지·텍스트를 기반으로 설명 및 답변 생성 가능.
-
시각적 계획(Visual Planning): 물체 이동 등 목표 달성을 위한 미래 행동 경로를 예측할 수 있음.
-
에이전트 기능:
-
UI 내비게이션: 예를 들어, "검색 버튼 클릭"과 같은 UI 조작 예측
-
로봇 조작: 로봇의 7자유도(7 DoF) 조작 예측
다운스트림 작업 (Fine-tuning 활용)
Magma는 특정 작업에 맞춰 추가 학습이 가능함.
-
이미지 캡셔닝 및 QA: 기존 멀티모달 대형언어모델(LLM) 방식으로 학습하여 공간적 이해 및 추론 능력 강화.
-
영상 캡셔닝 및 QA: 영상 데이터에 대한 시간적 이해 및 추론 능력 강화 가능.
-
UI 내비게이션: 웹 및 모바일 UI 내비게이션 작업에 최적화하여 높은 성능을 달성할 수 있음.
-
로봇 조작: 로봇 제어를 위한 추가 학습을 통해, OpenVLA 등의 기존 로봇 조작 모델을 능가하는 성능을 보임.
편향(Bias), 위험(Risks), 제한사항(Limitations)
- 본 모델은 모든 다운스트림 작업을 위해 설계된 것은 아님.
- 특정 사용 사례에 적용하기 전, 정확성, 안전성, 공정성을 평가하고 조정해야 함.
- 특히 고위험 시나리오에서는 적용 가능 법률 및 규제를 준수해야 함.