[마켓칼럼] 터보퀀트 공포, 또다른 착각일 수 있는 이유

2 weeks ago 4

입력2026.03.30 08:14 수정2026.03.30 08:14

※한경 마켓PRO 텔레그램을 구독하시면 프리미엄 투자 콘텐츠를 보다 편리하게 볼 수 있습니다. 텔레그램에서 ‘마켓PRO’를 검색하면 가입할 수 있습니다.

황수욱 메리츠증권 연구원

엔비디아 GTC가 던진 메시지…터보퀀트 공포는 또 다른 착각일 수 있다

엔비디아 GTC 컨퍼런스는 단순히 엔비디아와 GPU에 국한되지 않는, 매년 3월 미국 산호세에서 열리는 현재 가장 중요한 AI 산업 컨퍼런스다. 작년과 올해 방문했는데, 올해 GTC 현장에서 가장 강하게 느껴진 화두는 한마디로 ‘AI 추론 폭증과 연산 효율’이었다.

엔비디아만 그랬던 것이 아니다. 행사장 곳곳의 광고와 세션들이 공통적으로 말한 것은 더 많은 AI 사용, 더 큰 추론량, 그리고 이를 얼마나 효율적으로 처리하느냐의 문제였다. 산업의 관심은 이제 “얼마나 많은 칩을 깔 것인가”를 넘어 “폭증하는 추론을 얼마나 싸고 빠르게 감당할 것인가”로 이동했다.

배경은 분명하다. AI가 챗봇 단계에서 에이전트 단계로 넘어가고 있기 때문이다. 질문 하나에 답 하나를 내놓는 수준에서는 토큰 사용량이 수백, 수천 단위면 됐다. 하지만 이제는 AI가 스스로 코드를 짜고, 도구를 호출하고, 다시 그 결과를 입력으로 받아 다음 작업을 이어가는 구조가 확산되고 있다. 이 단계에선 토큰 사용량의 단위 자체가 수백~수만에서 백만 단위로 커진다. 실제로 코드 기반 에이전트는 일반 챗봇보다 압도적으로 많은 토큰을 소비하며, 오픈라우터의 주간 토큰 처리량도 에이전트 제품화 이후 가파르게 뛰고 있다.

그래서 이번 GTC의 핵심은 “연산을 덜 하는 AI”가 아니었다. 오히려 “훨씬 더 많은 연산이 필요한 시대”에 맞춰 AI 팩토리를 어떻게 다시 설계할 것인가였다. 엔비디아가 내세운 ‘토크노믹스’도 같은 맥락이다.

토큰은 이제 AI 시대의 새로운 생산 단위가 됐고, 경쟁력은 결국 같은 전력과 같은 자본으로 더 많은 토큰을 뽑아내는 능력, 즉 tokens per watt와 tokens per dollar에서 갈린다. 올해 GTC에서 부각된 DSX, 랙에서 팟(Pod)으로 확장된 하드웨어 구조, 전력·냉각·네트워크 최적화 논의도 모두 이 방향으로 수렴했다.

이런 흐름 속에서 최근 주식시장이 구글의 터보퀀트를 바라보는 시선은 다소 과장돼 보인다. 터보퀀트는 최근 AI 연산에서 병목이 심해진 KV캐시 연산을 효율화해줄 수 있는 기술로, 메모리 쇼티지를 해소해줄 수 있다는 인식에 관련 종목들의 주가가 크게 조정되기도 했다.

물론 터보퀀트는 의미 있는 기술이다. KV 캐시를 더 적은 메모리로 저장하고 처리해 장문맥 추론의 병목을 완화할 수 있다는 점에서 분명 진보다.

문제는 시장이 이것을 너무 새롭고, 너무 파괴적인 신호처럼 받아들였다는 데 있다. 그러나 KV 캐시 효율화는 갑자기 등장한 이야기가 아니다. 엔비디아의 NVFP4 KV cache, KVTC 같은 기술도 이미 제시돼 왔고, 터보퀀트 역시 이번에 처음 나온 개념이 아니다. 시장이 유독 크게 반응한 것은 기술의 본질보다, 구글이 이를 다시 전면에 꺼내든 시점에 더 가까워 보인다.

더 중요한 것은 효율 개선의 분모보다 수요 증가의 분자다. 설령 어떤 기술이 KV 캐시 메모리 사용량을 6배, 10배, 20배 줄여준다고 해도, 에이전트 AI가 만들어내는 전체 토큰 수요가 그보다 훨씬 빠르게 늘어나면 총 연산 수요는 오히려 커진다. 다시 말해 효율화 기술이 AI 하드웨어 수요를 줄이는 것이 아니라, 효율화 기술이 없으면 폭증하는 수요를 감당할 수 없는 국면에 더 가깝다. 이번 GTC가 계속해서 ‘연산 효율’을 말한 이유도 바로 여기에 있다. 연산이 줄어들고 있어서가 아니라, 연산이 너무 빠르게 늘고 있어서다.

이 장면은 지난해 딥시크 국면과도 닮아 있다. 당시에도 시장은 효율 개선과 비용 하락을 곧바로 AI 하드웨어 수요 둔화의 신호로 해석하고 싶어했다.

하지만 시간이 지나고 보니 본질은 반대였다. 딥시크로 촉발된 생각하는 AI(Reaasoning AI)의 확산은 AI가 처리해야 할 연산량 자체를 크게 키웠고, 효율 개선은 그 수요를 상쇄한 것이 아니라 오히려 더 넓은 사용을 가능하게 하는 역할을 했다. 지금의 터보퀀트 논란 역시 비슷하다. 매크로 변동성이 커질수록 시장은 기술의 본질보다 숫자가 주는 공포에 먼저 반응하는 경향이 있다.

결국 올해 GTC가 던진 메시지는 분명하다. AI 산업은 지금 연산량 폭증의 초입에 있고, 그 해법은 연산 축소가 아니라 연산 효율 극대화다. 따라서 터보퀀트를 AI 투자 사이클의 끝을 알리는 신호로 읽는 것은 무리다. 오히려 폭증하는 에이전트 수요를 떠받치기 위해 필요한 필수 기술 중 하나로 보는 편이 맞다. 지난해 딥시크 때와 마찬가지로, 이번에도 시장은 잠시 착각할 수 있다. 하지만 시간이 지나면 다시 본질을 보게 될 가능성이 높다.

Read Entire Article