노타, GPU·NPU 동시 활용 AI 추론 기술 구현에 13%↑[특징주]

4 weeks ago 8

[이데일리 박정수 기자] 노타(486990)가 강세를 보인다. AI PC 환경에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 대규모언어모델(LLM) 추론 최적화 기술을 구현했다는 소식에 매수세가 몰리는 것으로 풀이된다.

4일 엠피닥터에 따르면 오전 9시 10분 현재 노타는 전 거래일보다 13.61%(4750원) 오른 3만 9650원에 거래되고 있다.

이날 노타는이기종 컴퓨팅 기반 대규모언어모델(LLM) 추론 최적화 기술을 구현했다고 밝혔다. 이기종 컴퓨팅은 CPU, GPU, NPU 등 서로 다른 특성을 가진 프로세서가 각자 강점을 살려 연산을 분담하는 방식이다. AI PC에서는 단일 칩의 성능보다 다양한 연산 장치를 얼마나 효율적으로 활용하느냐가 실제 성능을 좌우하는 핵심 요소로 꼽힌다.

노타는 인텔 루나 레이크 기반 AI PC에서 LLM 구동 과정을 입력 처리 단계와 답변 생성 단계로 나눠 각각 최적의 연산 장치를 배치하는 ‘분리형 추론(Disaggregated Inference)’ 기술을 적용했다. 이에 따라 입력 처리 연산은 GPU가 담당하고 답변 생성은 NPU가 수행하도록 설계했다.

성능 평가 결과 분리형 추론 방식은 단일 GPU 방식 대비 토큰당 에너지 소비를 약 32% 줄였으며 생성 처리량은 약 12% 향상됐다. 또한 단일 NPU 방식과 비교하면 첫 응답 지연시간을 약 89% 단축한 것으로 나타났다.

회사는 이번 기술의 핵심이 GPU와 NPU를 단순히 병렬 활용하는 것이 아니라 AI 모델의 작업 특성에 맞춰 연산을 최적 배치한 데 있다고 설명했다. 동일한 AI PC에서도 하드웨어 활용 방식에 따라 사용자 경험이 달라질 수 있다는 의미다.

최근 글로벌 AI 업계에서도 이기종 컴퓨팅과 분리형 추론 기술 도입이 확대되고 있다. 컴퓨텍스 2026에서는 인텔과 엔비디아 등 주요 기업들이 CPU·GPU·NPU를 결합한 AI PC를 공개했으며, 데이터센터 분야에서도 엔비디아와 아마존웹서비스(AWS) 등이 AI 연산을 단계별로 분리하는 구조를 적용하고 있다.

노타는 이번 기술 구현을 통해 AI 모델 경량화뿐 아니라 실행 환경과 하드웨어 활용까지 최적화하는 역량을 입증했다고 강조했다. 특히 제한된 전력과 연산 자원 안에서 AI를 구동해야 하는 온디바이스 AI 환경에서 차별화된 경쟁력이 될 것으로 기대하고 있다.