화웨이, AI 응답 속도 높였다…“추론 처리량 최대 372% 향상”

3 weeks ago 18

화웨이가 생성형 AI의 응답 속도를 높이는 ‘AI 추론 가속 솔루션(AI Inference Acceleration Solution)’을 중국 통신업계 최초로 상용망 환경에서 검증했다고 30일 밝혔다.

화웨이는 지난 24~26일 중국 상하이에서 열린 ‘MWC 상하이 2026’에서 차이나모바일 후베이와 공동으로 이 같은 검증 결과를 공개했다.

이번 솔루션은 화웨이의 OceanStor A800 스토리지와 어센드 A3 슈퍼팟(Ascend A3 SuperPoD), 통합 캐시 관리자(UCM)를 기반으로 한다. 화웨이는 이를 통해 통신사가 AI 컴퓨팅 서비스를 보다 효율적으로 운영할 수 있을 것으로 기대하고 있다.

최근 생성형 AI 서비스가 AI 에이전트와 코드 생성, 멀티턴 대화 등 긴 문맥을 처리하는 방향으로 발전하면서 추론 성능 향상이 중요해지고 있다. 특히 긴 문장을 처리할수록 응답 속도가 느려지는 문제가 업계 과제로 꼽혀 왔다.

화웨이는 차이나모바일 후베이의 상용망 환경에서 MiniMax M2.5와 GLM-5.1 모델을 활용해 성능을 검증했다. 그 결과 첫 토큰 생성 시간(TTFT)은 최대 93% 개선됐으며, 초당 토큰 처리량(TPS)은 최대 372% 향상됐다고 설명했다.

특히 장문의 입력 데이터를 처리할수록 성능 개선 효과가 더욱 커졌다고 화웨이는 강조했다.

마이클 추 화웨이 글로벌 데이터 스토리지 마케팅·솔루션 세일즈 부문 사장은 “주요 통신사들이 토큰 기반 AI 서비스를 잇따라 출시하면서 AI 에이전트의 대규모 도입이 새로운 국면에 접어들고 있다”며 “향후 토큰 사용량도 기하급수적으로 증가할 것으로 예상된다”고 말했다. 이어 “AI 추론 가속 솔루션은 첫 토큰 생성 시간(TTFT)을 크게 단축하는 것은 물론 토큰 처리 비용 절감에도 기여해 통신사들이 보다 효율적이고 친환경적인 AI 컴퓨팅 인프라를 구축할 수 있도록 지원할 것”이라고 덧붙였다.업계에서는 AI 에이전트와 기업용 생성형 AI 서비스가 확산하면서 추론 인프라 경쟁이 본격화하고 있다고 보고 있다. 생성형 AI는 이용자가 늘고 처리해야 할 문맥이 길어질수록 연산 비용과 전력 사용량이 급증하는 특성이 있다. 이에 따라 글로벌 기업들은 응답 속도를 높이는 동시에 운영 비용을 낮출 수 있는 추론 최적화 기술과 AI 인프라 고도화에 투자를 확대하고 있다.

최현정 기자 phoebe@donga.com