텐센트 Hunyuan-T1 - 최초의 Mamba 아키텍처 기반 초대형 모델

3 days ago 7

Hunyuan-T1은 TurboS 기반의 초대형 Hybrid-Transformer-Mamba MoE 모델
대규모 후처리 학습을 통해 인간의 선호도에 맞춰 추론 능력을 확장하고 성능을 향상
TurboS의 장문 텍스트 처리 능력 으로 문맥 손실 및 장거리 정보 의존 문제 해결
Mamba 아키텍처 는 장문 시퀀스 처리를 최적화하여 효율적인 계산 방식으로 긴 텍스트 정보 캡처 가능
- 동일한 배포 조건에서 디코딩 속도 2배 향상
모델의 사후 훈련 단계에서 전체 컴퓨팅 파워의 96.7% 를 강화 학습에 투자
- 수학, 논리 추론, 과학, 코드 등 다양한 문제를 포함한 데이터 세트를 수집하여 모델의 추론 능력을 강화
- 정답 피드백 및 실시간 사용자 피드백을 통해 모델 성능 강화
- 커리큘럼 학습 방식 적용
  - 데이터 난이도를 점진적으로 증가시키며 모델의 문맥 길이 확장
  - 토큰 효율적 사용 능력 강화
강화 학습 전략 : 데이터 재학습 및 정책 재설정 전략 적용 → 훈련 안정성 50% 이상 개선
보상 시스템
- 자가 보상 방식 채택 → 모델 출력을 자체 평가 및 점수화
- 포괄적인 보상 체계 적용 → 모델의 정보 효율성 및 콘텐츠 세부 사항 강화

벤치마크 성능 평가

MMLU-pro, CEval, AIME, Zebra Logic 등 중국 및 영어 추론 지표에서 우수한 성능
DeepSeek R1과 동급 성능 또는 약간 더 나은 결과
- 문화적 창의성, 텍스트 요약, 에이전트 능력에서 우위 확보
MMLU-PRO 평가에서 87.2점 획득 → 인문학, 사회과학, 과학기술 등 14개 분야에서 우수한 메모리 및 이해력 입증
GPQA-diamond 평가에서 69.3점 기록 → 박사 수준의 물리학, 화학, 생물학 문제 해결 능력 확인
코드, 수학, 논리 추론 등 강력한 성능 입증
- LiveCodeBench에서 64.9점 획득 → 코드 작성 및 이해 능력 확인
- MATH-500에서 96.2점 → DeepSeek R1에 근접한 수학 문제 해결 능력 입증
ArenaHard에서 91.9점 획득 → 다양한 정렬 작업, 지시 따르기 작업, 도구 활용 작업에서 강력한 적응력을 보여줌

Read Entire Article