AI 반도체 전환기 (NPU 부상, 메모리 병목, 국산 생태계)

구글이 제미나이 3.0을 TPU로 학습했다는 소식이 전해지면서, AI 반도체 시장에 큰 파장이 일고 있습니다. 지금까지 엔비디아 GPU가 거의 독점하다시피 했던 판에서 목적형 칩들이 본격적으로 부상하고 있다는 신호인데요. 저는 솔직히 "GPU면 다 되는 거 아냐?"라고 단순하게 생각했던 적이 있습니다. 그런데 최근 LLM을 직접 써보면서 느낀 건, 모델이 '분석 중'이라고 멈춰 있는 순간이 생각보다 길다는 점이었습니다. 그 느림이 단순히 칩 성능 문제가 아니라 데이터가 오가는 방식과 관련 있다는 설명을 접하면서, AI 인프라에 대한 관점이 완전히 바뀌었습니다.

LLM이 느린 진짜 이유는 연산이 아니라 메모리입니다

많은 분들이 "AI가 느린 건 GPU 성능이 부족해서 아니냐"고 생각하시는데, 실제로는 그렇지 않습니다. H100, H200, B200 같은 최신 칩들의 연산력은 이미 인간이 체감할 수 없는 수준까지 올라가 있죠. 진짜 병목은 메모리입니다. LLM의 80~95% 시간은 데이터를 가져오는 데 쓰입니다. 여기서 메모리 병목(Memory Bottleneck)이란 연산기가 아무리 빨라도, 필요한 데이터를 메모리에서 불러오는 속도가 느리면 전체 성능이 떨어지는 현상을 의미합니다(출처: 한국전자통신연구원).

모델 파라미터가 HBM(High Bandwidth Memory)에 저장되어 있으면, 필요할 때마다 거기서 꺼내와야 합니다. HBM이란 기존 메모리보다 훨씬 많은 데이터 통로를 제공하여 대역폭을 극대화한 특수 메모리로, 후공정 패키징 기술로 여러 층을 쌓아 올려 만듭니다. 기존 1024개의 통로에서 HBM4부터는 2048개로 늘어나면서, 데이터 이동 속도를 획기적으로 개선하려는 시도가 이어지고 있습니다. 결국 지금의 AI는 계산이 느린 게 아니라, 데이터가 안 움직여서 느리다고 볼 수 있습니다.

저는 이 설명을 듣고 나서야 "왜 엔비디아가 HBM을 그렇게 많이 쌓으려고 하는지" 이해가 됐습니다. GPU는 원래 그래픽 렌더링부터 과학 연산까지 다양한 작업을 처리하는 범용 칩이었는데, AI 시대에 들어오면서 점차 NPU(Neural Processing Unit) 구조를 하이브리드로 채택하고 있습니다. 그런데 여전히 범용성을 유지해야 하다 보니, 데이터 등록 과정이 복잡하고 계층도 여러 개죠. 반면 LLM은 구조가 오히려 단순해지고 있고, 거의 대부분이 행렬이나 벡터 연산으로 커버됩니다. 바로 여기서 TPU, NPU 같은 목적형 칩이 다시 주목받는 이유가 생깁니다.

엔비디아의 해자 쿠다, 그리고 새로운 언어의 등장

엔비디아가 지금까지 무적이었던 이유는 단순히 성능 때문만이 아닙니다. 진짜 이유는 CUDA(Compute Unified Device Architecture)라는 소프트웨어 생태계입니다. CUDA란 엔비디아 GPU에서 병렬 연산을 쉽게 수행할 수 있도록 만든 프로그래밍 플랫폼으로, 모든 AI 프레임워크와 라이브러리가 이 위에서 돌아갑니다. 개발자 입장에서는 GPU 코드를 직접 손대지 않아도 AI 모델을 실행할 수 있죠. 이게 바로 엔비디아의 절대 해자였습니다.

그런데 지금 처음으로 구조적 흔들림이 생겼습니다. 구글 내부는 이미 PyTorch에서 XLA(Accelerated Linear Algebra)를 거쳐 TPU 코드로 전환되는 구조를 운영 중인데, 중간에 CUDA가 없습니다. 쿠다가 아니어도 대형 모델을 학습하고 추론할 수 있는 시스템이 실제 서비스에서 검증되고 있다는 사실이죠. 게다가 기업들이 GPT-5 같은 초거대 모델 대신, 자기 회사에 최적화된 20~70B(Billion Parameters) 수준의 중형 모델을 직접 구축하는 흐름이 생기면서, 프레임워크와 컴파일러 구조도 점점 목적형 가속기 친화적으로 변하고 있습니다(출처: 과학기술정보통신부).

저는 개인적으로 "엔비디아는 소프트웨어 생태계로 이미 이겼다"고 생각했는데, 실제로 NPU 기업들이 국내 데이터 센터와 통신사에 칩을 공급하고 있다는 사례를 보면서 생각이 바뀌었습니다. 엔비디아 입장에서는 여전히 작은 영역일 수 있지만, 변화가 생길 가능성 자체가 열린 거죠.

한국은 LLM과 NPU를 동시에 키울 수 있는 유일한 나라입니다

우리나라는 참 특이한 포지션을 가지고 있습니다. 국산 LLM 개발사(네이버, 카카오, KT 등), 국산 NPU 팹리스(퓨리오사AI, 리벨리온, 하이퍼엑셀, 모빌린트, 디백스 등), 즉시 실증 가능한 산업군(통신, 가전, 로봇, 금융, 제조), 그리고 세계 최고 수준의 메모리 반도체 기업(삼성, SK하이닉스)이 모두 한 나라에 물리적으로 붙어 있습니다. 일반적으로 AI를 개발할 때는 모델은 미국, 칩은 대만, 서버는 유럽에 설치하고 실증은 또 다른 곳에서 하는 식으로 흩어져 있어서 반복 실험 루프가 오래 걸리는데, 우리는 그렇지 않다는 거죠.

정부가 연말에 발표한 'AI 반도체 산업 도약 전략'의 핵심은 바로 "독자 AI 모델 + NPU 패키지"입니다. 예전처럼 칩만 잘 만들겠다는 게 아니라, 국산 LLM과 국산 NPU를 아예 패키지로 묶어서 공공·민간 전반에 깔겠다는 전략입니다. 주요 방향은 크게 세 가지로 정리됩니다.

독자 AI 파운데이션 모델과 국산 AI 반도체를 묶어 공공·민간에 도입
모델 개발부터 NPU 최적화, 벤치마크, 실증까지 연속된 파이프라인 구축
국가가 초기 레퍼런스를 만들어 해외 수출 시 검증 사례로 활용

퓨리오사AI는 LLM용 고효율 NPU 'Renegade'를 개발하며, LG AI연구원 EXAONE과 공동 연구를 진행 중입니다. 리벨리온은 SKT 데이터 센터에 실제로 투입되어 에이닷 콜 요약, 스팸 필터링, 금융 어시스턴트 등에 시범 적용되면서 국산 인프라 자립도를 높이는 핵심축을 맡고 있습니다. 하이퍼엑셀은 아예 HBM 없이 LPDDR 기반으로 메모리 접근 패턴 자체를 최소화하는 LPU(Language Processing Unit) 구조를 개발 중이고, 모빌린트는 AI PC·가전·로봇 같은 엣지 디바이스용 NPU를, 디백스는 초저전력 로봇·드론용 NPU를 각각 특화하고 있습니다.

저는 솔직히 "국산 칩이라고 해서 쓸까?"라고 회의적이었는데, SKT가 실제로 리벨리온 칩을 데이터 센터에 넣어서 서비스를 돌리고 있다는 사실을 알고 나서 생각이 달라졌습니다. 이건 연구실의 미래가 아니라, 지금 현장에서 검증되고 있는 현실입니다.

AI 인프라 구조가 바뀌고 있는 지금, 칩·모델·서비스 회사가 각자만 잘한다고 해서 글로벌 경쟁력을 이기기는 어렵습니다. 정부가 모델-칩-서비스를 한 번에 지원하는 정책 패키지를 설계한 건 새로운 시도입니다. 다만 저는 여기서 두 가지 위험을 함께 봐야 한다고 생각합니다. 첫째, 패키지 전략이 성공하려면 개발자 생태계(툴체인·컴파일러·프레임워크 호환)가 중요합니다. 엔비디아의 해자는 칩 성능이 아니라 CUDA 생태계였던 것처럼, 국산 NPU도 개발자가 편하게 쓰지 못하면 실증은 해도 확산이 막힐 수 있습니다. 둘째, 정부 주도 실증이 레퍼런스를 만들 수는 있지만, 특정 사업·플레이어 중심의 보여주기식 도입으로 흐를 위험도 있습니다. 공공 분야 도입은 빠른 성공 사례가 될 수 있으나, 성능 평가·보안 책임·장애 대응 같은 운영 현실을 끝까지 감당해야 신뢰가 생깁니다. 그래서 저는 벤치마크의 투명성, 실패 사례 공유, 다수 기업이 참여 가능한 개방형 표준을 함께 밀어야 진짜 경쟁력이 된다고 봅니다. 기술은 선언보다 운영에서 증명됩니다.

참고: https://www.youtube.com/watch?v=n3qlQT9SO7g

haramsolution 님의 블로그

AI 반도체 전환기 (NPU 부상, 메모리 병목, 국산 생태계)

LLM이 느린 진짜 이유는 연산이 아니라 메모리입니다

엔비디아의 해자 쿠다, 그리고 새로운 언어의 등장

한국은 LLM과 NPU를 동시에 키울 수 있는 유일한 나라입니다

티스토리툴바

티스토리툴바