상호작용 모델
2 hours ago
1
- Thinking Machines Lab은 외부 하네스가 아니라 모델이 실시간 협업을 직접 처리하는 Interaction Model 연구 프리뷰를 공개함
- 모델은 오디오·비디오·텍스트를 지속적으로 받아들이고, 200ms 마이크로 턴으로 지각과 응답을 동시에 처리함
- 시스템은 실시간 대화를 맡는 Interaction Model과 장기 추론·도구 사용을 맡는 Background Model이 문맥을 공유하는 구조임
- TML-Interaction-Small은 FD-bench V1.5 77.8점, 턴테이킹 지연 0.40초를 기록했지만 일부 비디오 정확도는 제한적임
- 현재 모델은 276B 파라미터 MoE이며 활성 파라미터는 12B이고, 제한적 연구 프리뷰 뒤 올해 후반 더 넓게 공개될 예정임
협업 병목과 Interaction Model의 목표
- Thinking Machines Lab은 외부 하네스(harness)가 아니라 모델 자체가 상호작용을 처리하는 Interaction Model 연구 프리뷰를 발표함
- 목표는 AI의 지능뿐 아니라 상호작용성도 함께 확장되게 만드는 것이며, 모델이 오디오·비디오·텍스트를 지속적으로 받아들이고 실시간으로 생각·응답·행동하는 방식임
- 현재 많은 AI 연구와 인터페이스는 AI가 자율적으로 오래 작업하는 능력을 중시하지만, 사람이 계속 개입하는 hands-on-keyboard 작업에서는 모델이 너무 느리게 느껴져 가치가 덜 드러날 수 있음
- 실제 업무에서는 요구사항을 처음부터 완전히 지정하고 떠나는 방식이 어렵고, 사람이 중간에 명확화와 피드백을 제공하는 협업 과정이 좋은 결과에 도움을 줌
- 기존 턴 기반 모델은 사용자가 입력을 끝낼 때까지 기다리고, 모델이 생성하는 동안에는 새 정보를 받지 못해 단일 스레드처럼 현실을 경험함
- 이 구조는 사용자의 지식·의도·판단이 모델에 전달되는 폭과, 사람이 모델의 작업을 이해하는 폭을 좁힘
- Thinking Machines Lab은 모든 모달리티의 실시간 상호작용이 가능해야 이 병목을 해결할 수 있으며, 사람이 AI 인터페이스에 맞추는 대신 AI가 사람의 방식에 맞춰야 한다고 봄
- 대부분의 기존 AI 모델은 끊김, 멀티모달, 동시성을 흉내 내기 위해 여러 컴포넌트를 붙이는 하네스를 사용하지만, The Bitter Lesson에 따르면 수작업 시스템은 일반 능력의 확장에 밀릴 수 있음
- 상호작용성이 지능과 함께 확장되려면 모델 내부 기능이어야 하며, 모델을 키우면 더 똑똑해질 뿐 아니라 더 나은 협업자가 되어야 함
모델 내부 상호작용이 여는 기능
-
자연스러운 대화 관리
- 모델은 화자가 생각 중인지, 발화를 넘기는지, 스스로 고치는지, 응답을 유도하는지 암묵적으로 추적함
- 별도의 대화 관리 컴포넌트 없이 이런 판단을 처리함
-
음성·시각 기반 개입
- 모델은 사용자가 말을 끝냈을 때만 반응하지 않고, 문맥에 따라 필요한 순간에 끼어들 수 있음
- 사용자가 틀린 말을 할 때 끊거나, 코드에 버그를 썼을 때 시각 단서를 보고 알려주는 방식이 가능함
-
동시 발화
- 사용자와 모델이 동시에 말할 수 있으며, 실시간 번역 같은 상황에서 유용함
-
시간 인식
- 모델은 경과 시간을 직접 인식하며, 특정 시간 간격에 맞춰 말하거나 사용자의 행동 시간을 측정하는 과제를 다룰 수 있음
-
도구 호출·검색·생성 UI 동시 실행
- 모델은 사용자와 말하고 듣는 동안 동시에 검색, 웹 브라우징, UI 생성을 수행할 수 있음
- 결과가 준비되면 대화 흐름에 맞춰 다시 엮어 넣음
- 긴 실제 세션에서는 이런 기능이 계속 함께 일어나며, 프롬프트를 보내는 느낌보다 협업하는 느낌에 가까워짐
접근 방식
-
시간 정렬 마이크로 턴
- Interaction Model은 연속 입력·출력 스트림을 마이크로 턴으로 나누고, 시간을 기준으로 상호작용을 구성함
- 턴 기반 모델은 교대로 이어지는 토큰 시퀀스를 보지만, 시간 인식 Interaction Model은 연속 마이크로 턴 스트림을 보므로 침묵, 겹침, 끼어들기가 모델 문맥에 남음
- 모델은 사용자와 지속적인 양방향 교환 상태를 유지하며, 지각과 응답을 동시에 수행함
- 로보틱스와 자율주행은 물리 세계의 요구 때문에 실시간 동작을 전제로 하며, Moshi, PersonaPlex, nemotron-voicechat, Seeduplex 같은 오디오 풀듀플렉스 모델도 양방향·연속 상호작용의 예임
-
시스템 구성
- 시스템은 실시간 존재감을 유지하는 시간 인식 Interaction Model과, 지속적 추론·도구 사용·장기 작업을 맡는 비동기 Background Model로 구성됨
- 더 깊은 추론이 즉시 생성될 수 없을 때 Interaction Model이 Background Model에 위임함
- 위임 중에도 Interaction Model은 계속 사용자 앞에 남아 후속 질문에 답하고, 새 입력을 받고, 대화 맥락을 유지함
- Background Model의 결과는 생성되는 대로 스트리밍되며, Interaction Model이 사용자의 현재 행동에 맞는 순간에 대화에 통합함
- 두 시스템은 문맥을 공유하며, 사용자는 비추론 모델 수준의 응답 지연 안에서 추론 모델의 계획, 도구 사용, 에이전트 워크플로를 함께 활용할 수 있음
- Background Model과 Interaction Model은 모두 지능을 갖추며, Interaction Model 단독으로도 상호작용 및 지능 벤치마크에서 경쟁력 있는 성능을 냄
-
Interaction Model 구조
- 설계의 출발점은 본질적으로 실시간인 연속 오디오와 비디오이며, 텍스트는 기다릴 수 있지만 실시간 대화는 기다릴 수 없음
- 모델은 텍스트, 오디오, 비디오의 임의 부분집합을 입력으로 받고 텍스트와 오디오를 예측함
- 200ms 분량의 입력 처리와 200ms 분량의 출력 생성을 계속 교차시키는 마이크로 턴으로 동작함
- 완성된 사용자 턴을 소비하고 완성된 응답을 생성하는 대신, 입력 토큰과 출력 토큰을 모두 스트림으로 처리함
- 이 방식은 여러 입력·출력 모달리티의 거의 실시간 동시성을 가능하게 하며, 모델이 지켜야 하는 인공적 턴 경계를 없앰
- 기존 실시간 시스템 다수는 턴 기반 모델을 실시간처럼 보이게 하려고 음성 활동 감지(VAD) 같은 하네스로 턴 경계를 예측함
- 이런 하네스 컴포넌트는 모델 자체보다 지능이 낮아, 능동적 끼어들기나 시각 단서 반응 같은 상호작용 모드를 제한함
- Interaction Model에서는 이런 상호작용 모드가 특수 하네스가 아니라 모델이 수행할 수 있는 특수 사례가 되고, 모델 크기와 훈련 데이터 확장에 따라 품질이 개선될 수 있음
-
인코더 없는 조기 융합
- 오디오와 비디오를 큰 독립 인코더로 처리하는 대신 최소 전처리를 사용하는 구조를 선택함
- 많은 옴니모달 모델은 Whisper 유사 인코더나 TTS 유사 디코더를 별도로 훈련해야 하지만, 이 모델은 오디오 신호를 dMel 형태로 받아 가벼운 임베딩 레이어로 변환함
- dMel은 Bai, et al. 2024를 따름
- 이미지는 40x40 패치로 나눈 뒤 hMLP로 인코딩함
- 오디오 디코더에는 flow head를 사용함
- 모든 컴포넌트는 트랜스포머와 함께 처음부터 공동 훈련됨
-
추론 최적화
- 추론 시 200ms 청크는 작은 크기의 prefill과 decode가 자주 필요하고, 각 단계가 엄격한 지연 조건을 만족해야 함
- 기존 LLM 추론 라이브러리는 작은 prefill이 빈번한 상황에 최적화되어 있지 않아 턴마다 오버헤드가 큼
- 이를 위해 streaming session을 구현해, 클라이언트가 각 200ms 청크를 별도 요청으로 보내면 추론 서버가 GPU 메모리의 지속 시퀀스에 청크를 이어 붙임
- 이 방식은 잦은 메모리 재할당과 메타데이터 계산을 피하며, 해당 기능의 한 버전을 SGLang에 upstream함
- 양방향 서빙에서 나타나는 shape와 지연을 기준으로 커널도 최적화함
- MoE 커널에는 표준 grouped gemm 대신 PyTorch와 Cursor의 선행 작업처럼 gather+gemv 전략을 사용함
-
Trainer-Sampler 정렬
- 비트 단위 trainer-sampler alignment가 훈련 안정성과 시스템 컴포넌트 디버깅에 유용했음
- batch-invariant kernels를 구현했으며, 전체 성능 오버헤드는 5% 미만임
- All-reduce와 reduce-scatter에는 NVLS를 사용해 Blackwell에서 결정적인 저지연 통신 커널을 구현함
- 이 커널은 Sequence Parallelism과 Tensor Parallelism처럼 서로 다른 병렬화 전략 사이에서도 비트 단위 정렬을 달성함
- Attention의 주요 과제는 Split-KV이며, 일반적으로 decode와 prefill 사이 누적 순서 불일치를 만들 수 있음
- decode와 prefill 사이에서 일관되게 split을 선택하면 누적 순서를 유지할 수 있으며, 예시로 SM을 4096 토큰 단위로 left-aligned 처리해 prefill과 decode 양쪽에서 효율을 얻을 수 있음
-
두 모델의 조율
- Interaction Model이 위임할 때는 독립 쿼리가 아니라 전체 대화를 포함한 풍부한 문맥 패키지를 보냄
- Background Model의 결과는 생성되는 대로 돌아오며, Interaction Model이 갑작스러운 문맥 전환이 아니라 사용자 현재 행동에 맞는 순간에 이를 대화에 엮음
-
안전성
- 실시간 상호작용은 턴 기반 교환과 다른 방식으로 안전성을 압박하므로, 작업은 모달리티에 맞는 거절과 장기 대화 견고성에 집중됨
- 음성 거절이 구어체로 자연스럽게 들리도록 TTS 모델로 허용되지 않는 주제 범위의 거절 및 과잉 거절 훈련 데이터를 생성함
- 거절 경계는 자연스러운 표현을 선호하되 단호함을 낮추지 않도록 보정됨
- 긴 speech-to-speech 대화에서 견고성을 높이기 위해 자동 레드팀 하네스로 다중 턴 거절 데이터를 생성함
- 텍스트 기반 거절과의 행동 유사성도 가깝게 유지함
벤치마크와 평가
-
지능과 상호작용성
- 모델 이름은 TML-Interaction-Small이며, 강한 지능·지시 따르기와 상호작용성을 함께 갖춘 첫 모델로 제시됨
- 상호작용 품질은 FD-bench로 측정함
- FD-bench v1.5는 사전 녹음된 오디오가 주어졌을 때 모델이 특정 시점에 응답해야 하며, 사용자 끼어들기, 맞장구, 다른 사람과의 대화, 배경 발화 상황에서 모델 행동을 측정함
- 지능은 지능과 지시 따르기를 추적하는 일반 벤치마크인 Audio MultiChallenge로 측정함
- TML-Interaction-Small은 FD-bench V1 턴테이킹 지연에서 0.40초를 기록해 표에 있는 비교 모델보다 낮은 지연을 보임
- FD-bench V1.5 평균 점수는 77.8로, 비교 대상인 GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live, Qwen 3.5 OMNI-plus-realtime보다 높음
- FD-bench V3 Audio+Tools에서는 Background Agent 활성화 기준 응답 품질 82.8% / Pass@1 68.0% 를 기록함
- QIVD Video+Audio 정확도는 54.0% 로, 일부 비교 모델보다 낮거나 비슷함
- Audio MultiChallenge APR은 43.4% 이며, GPT-realtime-2.0 xhigh의 48.5%보다는 낮지만 instant 모델들보다 높음
- BigBench Audio는 Background Agent 활성화 기준 75.7 / 96.5로 보고됨
- IFEval은 VoiceBench Audio에서 82.1%, Text에서 89.7% 를 기록함
- Harmbench 텍스트 거절률은 99.0% 임
-
기존 평가가 포착하지 못하는 상호작용 차원
- 기존 상호작용 벤치마크는 모델에서 관찰되는 질적 도약을 충분히 포착하지 못해, 시간 인식, 동시 발화, 시각 능동성을 재는 내부·개조 평가가 추가됨
-
시간 인식과 동시 발화
- 턴 기반 모델과 대화 관리 시스템은 정확한 시간 추정이나 동시 발화를 지원하지 않음
- 예시 과제는 “1마일을 달리는 데 얼마나 걸렸나”, “내 발음을 듣는 즉시 고쳐 달라”, “이 함수를 쓰는 데 얼마나 걸렸나” 같은 형태임
- TimeSpeak은 모델이 사용자가 지정한 시간에 맞춰 말하기를 시작하고 올바른 내용을 말할 수 있는지 테스트함
- 예시는 “호흡 연습을 하고 싶으니 멈추라고 할 때까지 4초마다 들이쉬고 내쉬라고 알려 달라”임
- CueSpeak은 적절한 순간에 의미적으로 올바른 응답을 말하는지 테스트함
- 데이터는 전체 점수를 얻기 위해 모델이 사용자와 동시에 말해야 하도록 구성됨
- 예시는 “내가 코드스위칭해서 다른 언어를 쓸 때마다 원래 언어의 올바른 단어를 말해 달라”임
- 두 벤치마크는 각 예제마다 기대 의미 응답과 시간 창을 하나씩 가지며, LLM judge가 의미와 타이밍을 모두 만족할 때만 정답으로 채점함
-
시각 능동성
- 현재 상용 실시간 API는 주로 오디오 기반 대화 관리 하네스로 턴을 감지하며, 시각 세계가 바뀌었을 때 스스로 말할 시점을 선택하지 못함
- StreamBridge, Streamo, StreamingVLM, MMDuet2는 스트리밍 비디오 입력에서 언제 텍스트를 출력할지 다룸
- 이런 텍스트 출력 연구는 발화에 지속 시간이 있고, 사용자와 겹칠 수 있으며, 턴테이킹·끼어들기·맞장구와 조율되어야 하는 음성 출력 상호작용의 제약을 다루지 않음
- AURA는 VideoLLM이 텍스트를 내보내거나 침묵할 시점을 결정하는 구조에 ASR/TTS 데모를 붙인 형태이며, Thinking Machines Lab의 모델은 speech-native이고 full-duplex라는 차이가 있음
-
시각 능동성 평가
- RepCount-A는 반복 동작 비디오를 온라인 카운팅 과제로 개조함
- 모델에는 “{action} 반복 횟수를 세어 달라”는 오디오 지시와 비디오가 스트리밍되며, 정답의 끝에서 두 번째 반복 이후 모델이 말한 마지막 숫자가 정답에서 1회 이내인지로 채점함
- 이 과제는 연속 시각 추적과 제때 세기를 측정함
- ProactiveVideoQA는 특정 순간에 답을 알 수 있게 되는 질문이 포함된 비디오로 구성됨
- 질문을 오디오로 스트리밍한 뒤 비디오를 보내며, 자막이 있으면 비디오에 태우고 입력 비디오는 음소거해 시각 능동성을 강조함
- 평가는 논문의 turn-weighted PAUC@ω=0.5 지표를 0~100으로 스케일해 턴과 카테고리 평균을 내며, 계속 침묵하면 25.0점을 받음
- 높은 점수에는 올바른 답을 올바른 시점에 말하는 것이 필요하고, 틀린 답은 페널티를 받음
- Charades는 표준 시간적 행동 위치 추정 벤치마크로, 각 비디오는 라벨링된 시간 구간에서 발생하는 행동을 포함함
- 모델은 “사람이 {action}을 시작하면 ‘start’라고 말하고 멈추면 ‘Stop’이라고 말하라”는 오디오 지시와 비디오 스트림을 받으며, 예측 구간과 참조 구간의 temporal IoU로 채점됨
-
현재 모델들의 한계
- 기존 모델은 이런 시간 인식, 동시 발화, 시각 능동성 과제를 의미 있게 수행하지 못함
- 완전성을 위해 GPT Realtime-2 minimal 결과가 보고되지만, thinking high 모델을 포함한 모든 평가 모델은 비슷하거나 더 나쁘며 침묵하거나 잘못된 답을 냄
- 상호작용성은 향후 중요한 연구 분야로 보고 있으며, Interaction Model과 인간-AI 협업 평가 프레임워크 등을 위한 연구 보조금 계획이 예고됨
한계와 공개 계획
-
긴 세션
- 연속 오디오와 비디오는 문맥을 빠르게 누적함
- streaming-session 설계는 짧고 중간 길이의 상호작용을 잘 처리하지만, 매우 긴 세션에는 신중한 문맥 관리가 필요함
-
컴퓨트와 배포
- 낮은 지연으로 오디오와 비디오를 스트리밍하려면 안정적인 연결이 필요함
- 좋은 연결이 없으면 경험이 크게 악화됨
- 시스템 신뢰성을 높이고 지연된 프레임에 더 견고하도록 모델을 훈련하면 개선 여지가 있음
-
정렬과 안전
- 실시간 인터페이스는 정렬과 안전성 모두에 새로운 연구 영역을 열며, 피드백 수집과 연구 보조금 검토가 진행 중임
-
모델 크기 확장
- 현재 TML-Interaction-Small은 276B 파라미터 MoE이며, 활성 파라미터는 12B임
- 모델 스케일이 커지면 상호작용성도 개선될 것으로 기대하지만, 더 큰 사전훈련 모델은 현재 이 설정에서 서빙하기에 너무 느림
- 더 큰 모델은 올해 후반 공개할 계획임
-
Background Agent 개선
- 주요 초점은 실시간 상호작용성이지만, 에이전트 지능도 필수 역량임
- 에이전트 지능을 프런티어 수준으로 끌어올리는 것 외에도, Background Agent가 Interaction Model과 함께 일하는 방식은 아직 초기 단계임
-
공개 일정
-
Homepage
-
Tech blog
- 상호작용 모델