"GPU 없이 AI를 돌릴 수 있을까?" 이 질문에 대부분은 고개를 저을 겁니다. 하지만 저는 최근 몇 년간 데이터센터 운영 현장에서 이 상식이 조금씩 흔들리는 걸 직접 목격했습니다. 엔비디아 GPU가 AI 학습의 표준으로 자리 잡은 건 맞지만, 추론(inference) 영역에서는 이야기가 달라지고 있습니다. 전력 인입 용량 부족으로 GPU 증설을 포기했던 기업이, NPU(신경망 처리 장치) 도입 후 같은 공간에서 5배 많은 연산을 처리하는 걸 보면서 시장이 정말 바뀌고 있다는 걸 실감했습니다.

NPU 전력효율, 데이터센터 운영 현실을 바꾸다
GPU 서버를 처음 도입할 때 가장 먼저 부딪히는 건 성능이 아니라 전력입니다. 엔비디아의 최신 블랙웰(Blackwell) 시리즈 GPU는 한 장당 최대 소비 전력이 1,000W에 달합니다(출처: 엔비디아 공식 사이트). 여기서 TDP(Thermal Design Power)란 반도체가 최대 부하 상태에서 발생시키는 열을 식히기 위해 필요한 전력 설계 기준을 의미합니다. 쉽게 말해 GPU 한 장이 전기레인지 수준의 전력을 끊임없이 소비한다는 뜻입니다.
저는 실제로 GPU 클러스터 증설 프로젝트에서 전력 인입 공사 때문에 일정이 석 달 밀린 적이 있습니다. UPS(무정전 전원 공급 장치) 용량을 늘리고, 분전반을 교체하고, 냉각 시스템을 다시 설계해야 했죠. 이런 상황에서 NPU는 완전히 다른 접근입니다. 국내 AI 반도체 스타트업 리벨리온이 개발한 NPU는 동일한 추론 작업을 처리할 때 GPU 대비 약 5배의 전력 효율을 보인다고 발표했습니다. 추론이란 이미 학습된 AI 모델을 실제 서비스에 적용하는 단계로, 자율주행 차량의 실시간 판단이나 챗봇의 응답 생성이 여기 해당합니다.
실제로 제가 테스트해본 NPU 기반 시스템에서는 랙(rack) 밀도를 기존 대비 두 배 이상 높일 수 있었습니다. 같은 공간, 같은 전력으로 더 많은 연산을 처리할 수 있다는 건 데이터센터 운영자 입장에서 게임 체인저입니다. 특히 전력 요금이 운영비의 30~40%를 차지하는 상황에서, TCO(Total Cost of Ownership, 총소유비용) 절감 효과는 생각보다 훨씬 큽니다.
주요 NPU의 전력 효율 장점을 정리하면 다음과 같습니다.
- 동일 작업 처리 시 GPU 대비 전력 소비 1/5 수준
- 발열 감소로 냉각 비용 절감
- 랙 밀도 증가로 공간 효율 향상
- 초기 전력 인프라 투자 부담 완화
엔비디아 GPU 생태계, 넘을 수 있을까
하지만 이런 얘기를 하면 항상 돌아오는 반론이 있습니다. "그래도 엔비디아 아니냐?" 맞습니다. 현재 엔비디아 GPU의 AI 반도체 시장 점유율은 약 90%에 달합니다(출처: 한국반도체산업협회). 챗GPT를 비롯한 주요 대형 언어 모델(LLM) 대부분이 엔비디아 GPU로 학습되고 있죠. 여기서 CUDA(Compute Unified Device Architecture)라는 엔비디아의 병렬 컴퓨팅 플랫폼이 결정적 역할을 합니다. CUDA란 GPU의 수천 개 코어를 동시에 활용할 수 있도록 만든 소프트웨어 환경으로, AI 개발자들이 가장 익숙하게 사용하는 도구입니다.
저는 솔직히 이 부분이 국산 NPU의 가장 큰 장애물이라고 봅니다. 성능 스펙시트에서 이긴다고 끝이 아닙니다. 개발자가 새로운 칩을 쓰려면 기존 코드를 수정해야 하고, 드라이버 호환성을 확인해야 하고, 최적화 작업을 다시 해야 합니다. 실제로 제가 NPU 테스트 환경을 구축할 때, 프레임워크(PyTorch, TensorFlow) 연동에만 일주일이 걸렸습니다. 반면 엔비디아 GPU는 설치 후 바로 작동했죠.
다만 시장 환경이 조금씩 바뀌고 있습니다. 구글이 자체 개발한 TPU(Tensor Processing Unit)로 최신 AI 모델 제미나이 3.0을 훈련했고, 메타와 아마존도 자체 AI 칩 개발에 적극적입니다. 오픈소스 기반 소프트웨어 생태계가 확대되면서, CUDA 종속성을 벗어나려는 움직임도 커지고 있습니다. 국내 AI 반도체 기업 퓨리오사AI는 오픈소스 컴파일러를 활용해 다양한 프레임워크를 지원하는 방식으로 이 문제를 풀고 있습니다.
결국 승부처는 "칩 하나 잘 만드는 것"이 아니라 칩-소프트웨어-실증 데이터를 한 묶음으로 제공하는 역량입니다. 엔비디아가 강한 이유도 GPU와 CUDA, 그리고 수년간 쌓인 레퍼런스를 패키지로 제공하기 때문이죠. 국산 NPU가 글로벌 경쟁에서 살아남으려면, 전성비(전력 대비 성능) 우위를 넘어서 대규모 상용 환경에서의 안정성을 숫자로 증명해야 합니다.
국산칩 실증, 정부 역할이 승부를 가른다
저는 국산 AI 반도체 기업들이 "26만 장의 GPU가 국가 경사"라는 말에 쓴웃음을 지을 수밖에 없는 현실이 안타깝습니다. 엔비디아가 한국에 GPU 26만 장을 공급하겠다고 발표했을 때, 실제로 국산 칩 업계는 위기감을 느꼈습니다. 시장이 검증되지 않은 신생 칩보다 이미 입증된 엔비디아를 선택하는 건 당연하니까요.
그래서 정부의 마중물 역할이 절대적입니다. 2025년 과학기술정보통신부는 NPU 산업 육성에 3,300억 원 예산을 편성했습니다(출처: 과학기술정보통신부). 치안, 국방 등 7대 공공 분야에 국산 NPU를 우선 도입하고, 국가 AI 컴퓨팅 센터에서 신제품 상용화를 지원하겠다는 계획입니다. 하지만 저는 이게 단순한 "예산 배분"으로 끝나면 안 된다고 봅니다.
핵심은 실증(PoC, Proof of Concept) 결과를 투명하게 공개하고, 성과 기준을 명확히 해야 한다는 겁니다. 예를 들어 "공공기관 A에서 국산 NPU로 6개월 운영한 결과, GPU 대비 전력 40% 절감, 장애율 0.1% 이하, 응답속도 동등" 같은 구체적인 데이터가 쌓여야 민간 기업도 도입을 고려합니다. 저는 실제로 공공 프로젝트 레퍼런스가 있는 장비와 없는 장비의 구매 의사결정 속도가 3배 이상 차이 난다는 걸 경험했습니다.
국산 AI 반도체 기업들의 성과도 조금씩 나타나고 있습니다.
- 리벨리온: 현대차 로봇용 칩 개발, 중국 바이두와 4만 장 수출 계약
- 퓨리오사AI: 메타의 1조 2천억 원 인수 제안 거절 후 독자 노선, TSMC와 2만 장 양산 계획
- 국내 NPU 시장 규모: 2030년 170조 원 전망
다만 저는 "국산이니까 써야 한다"는 식의 접근은 위험하다고 생각합니다. 시장은 애국심이 아니라 TCO와 안정성으로 움직입니다. 정부 지원이 필요하지만, 결국 기업이 "이게 더 낫네"라고 판단할 만한 경쟁력을 갖춰야 합니다.
AI 반도체 시장은 이제 본게임이 시작됐습니다. GPU가 학습 시장을 지배한다면, NPU는 추론 시장에서 새로운 기회를 열고 있습니다. 저는 개인적으로 국산 칩이 "엔비디아를 이기자"보다는 "엔비디아가 못 가는 영역을 먼저 선점하자"는 전략이 더 현실적이라고 봅니다. 온디바이스(On-Device) AI, 엣지 컴퓨팅(Edge Computing), 저전력 추론처럼 GPU가 비효율적인 영역에서 먼저 입지를 다지고, 그 레퍼런스로 데이터센터 시장을 공략하는 순서 말이죠. 결국 이 경쟁의 승자는 가장 빠르게 실증 데이터를 쌓고, 소프트웨어 생태계를 구축하고, 고객에게 신뢰를 주는 쪽이 될 겁니다.