NVIDIA DGX Station 스파크(Spark)의 미국 출고가는 3,999달러, 국내 예판가는 약 750만 원입니다. RTX 4090 정가의 두 배에 달하는 이 장비를 받아보고 처음 든 생각은 "이걸 과연 제대로 써볼 수 있을까?"였습니다. 하지만 두 달간 실제로 다양한 AI 모델을 돌려본 결과, 이 장비가 누구를 위한 것인지, 그리고 왜 '메모리'가 AI 연산의 핵심인지 명확히 체감할 수 있었습니다.

스파크의 정체: 통합 메모리 구조가 만드는 차별점
NVIDIA DGX Station 스파크는 'GB Grace Blackwell 슈퍼칩'을 탑재한 소형 AI 워크스테이션입니다. 여기서 슈퍼칩이란 CPU, GPU, 메모리를 하나의 패키지로 통합한 설계를 의미하며, 애플 실리콘의 유니파이드 메모리 아키텍처(UMA)와 유사한 개념입니다. 쉽게 말해 GPU와 CPU가 하나의 메모리 풀을 공유하면서 데이터 이동 시간을 최소화하는 구조입니다.
스파크의 가장 큰 특징은 시스템 메모리 128GB를 CPU와 GPU가 공유한다는 점입니다. 일반적인 게이밍 GPU는 별도의 GDDR6 또는 GDDR7 메모리를 탑재하지만, 스파크는 저전력 LPDDR5X 메모리를 채택했습니다. 덕분에 소비전력은 240W에 불과하며, 이는 RTX 4090의 450W 대비 절반 수준입니다(출처: NVIDIA 공식 사이트). 하지만 메모리 대역폭은 273GB/s로, 워크스테이션급 GPU인 RTX 6000(약 1,800GB/s)보다 약 6.5배 낮습니다. 여기서 대역폭이란 초당 메모리와 프로세서 사이에서 전송할 수 있는 데이터 양을 의미하며, 이 수치가 낮으면 AI 모델이 답변을 생성하는 속도가 느려집니다.
제가 직접 RTX 4090을 탑재한 워크스테이션과 비교 테스트를 진행했을 때, 작은 모델(20B 파라미터)에서는 4090이 더 빨랐지만, 큰 모델(120B 파라미터)로 넘어가자 역전 현상이 발생했습니다. 20B 모델에서는 4090이 초당 토큰 수(tokens per second)가 네 배 더 높았지만, 120B 모델에서는 스파크가 오히려 세 배 빠른 답변 속도를 보였습니다. 이는 4090의 VRAM 32GB로는 120B 모델을 한 번에 올릴 수 없어 일부를 시스템 메모리로 스와핑(swapping)하면서 병목이 발생했기 때문입니다.
메모리 용량이 결정하는 AI 성능의 실제
AI 모델을 로컬에서 구동할 때 가장 먼저 확인해야 할 것은 GPU 성능이 아니라 메모리 용량입니다. 오픈AI의 GPT-4o-mini 같은 소형 LLM(대규모 언어 모델)은 16GB 정도면 충분하지만, GPT-4o 수준의 120B 이상 모델은 최소 80GB를 권장합니다(출처: OpenAI 공식 문서). 여기서 LLM이란 수십억 개 이상의 파라미터를 학습한 언어 이해 모델을 뜻하며, 챗GPT나 Claude 같은 대화형 AI의 기반 기술입니다.
제가 테스트한 GPT-4o-mini 20B 모델의 경우, 실제 구동 시 약 14GB의 VRAM을 사용했습니다. RTX 5090(VRAM 32GB)으로는 여유 있게 실행되었고, 질문 후 첫 답변까지 0.11초, 초당 약 120토큰의 생성 속도를 기록했습니다. 반면 스파크는 첫 답변까지 0.25초, 초당 약 60토큰으로 절반 수준이었습니다. 하지만 120B 모델로 전환하자 상황이 완전히 달라졌습니다. 5090은 VRAM 부족으로 모델의 일부를 시스템 메모리(DDR5 192GB)로 오프로드(offload)하면서 첫 답변까지 0.49초로 느려졌고, 생성 속도도 초당 20토큰 수준으로 급락했습니다.
솔직히 이 결과는 예상 밖이었습니다. 스파크는 연산 성능 자체가 RTX 4070 수준이지만, 128GB의 통합 메모리 덕분에 120B 모델을 통째로 올려 병목 없이 구동할 수 있었고, 첫 답변 0.25초, 초당 60토큰의 안정적인 성능을 유지했습니다. 이는 마치 고성능 스포츠카(5090)와 적재량이 큰 밴(스파크)의 차이와 같습니다. 짐이 적으면 스포츠카가 빠르지만, 짐이 트렁크를 초과하면 트레일러를 끌어야 하므로 오히려 밴이 효율적입니다.
로컬 AI 환경 구축: 보안과 비용의 균형
DGX Station 스파크를 실제 업무에 투입하면서 가장 크게 느낀 장점은 '데이터 반출 없는 로컬 연산'이었습니다. 클라우드 기반 AI 서비스는 편리하지만, 민감한 내부 자료나 고객 데이터를 외부 서버로 전송해야 한다는 부담이 있습니다. 특히 금융, 의료, 법률 분야에서는 개인정보보호법과 영업비밀 보호 의무 때문에 외부 API 사용이 제한되는 경우가 많습니다(출처: 개인정보보호위원회).
저희 팀에서는 영상 편집 과정에서 자막 생성, 배경 제거(누끼), 음성 클로닝 등 여러 AI 작업을 진행합니다. 기존에는 클라우드 API를 사용했지만, 월 사용량이 늘면서 비용이 부담스러워졌습니다. 스파크를 도입한 후 Whisper Large V3 모델을 로컬에서 돌려 자막을 생성하니, 1시간 분량 영상 기준 약 3분 내외로 처리가 완료되었습니다. 메타의 Segment Anything Model(SAM) V2를 활용한 배경 제거 작업도 로컬에서 실시간으로 가능했습니다.
또한 Stable Diffusion 기반의 이미지 생성 모델도 구동해봤습니다. 512×512 해상도 이미지 한 장 생성 시 약 34GB의 메모리를 사용했는데, 이는 RTX 5090의 VRAM(32GB)을 초과하는 수치입니다. 스파크는 이를 문제없이 처리했고, 품질도 클라우드 서비스와 큰 차이가 없었습니다. 제 경험상 이런 작업을 매일 10~20회씩 반복한다면, 클라우드 비용 대비 6개월 안에 투자 회수가 가능할 것으로 보입니다.
파인튜닝 도전과 한계: 초보자의 실패 경험
AI 장비를 구매하는 궁극적인 목적 중 하나는 자체 모델을 학습시키는 것입니다. 이를 파인튜닝(fine-tuning)이라 하며, 기존 오픈소스 모델을 특정 도메인이나 작업에 맞게 재학습시키는 과정을 의미합니다. 저는 NVIDIA의 공식 플레이북을 따라 PyTorch 라이브러리 기반으로 파인튜닝을 시도했습니다. 여기서 PyTorch란 머신러닝 모델을 구축하고 학습시키기 위한 오픈소스 프레임워크로, 테슬라의 FSD(Full Self-Driving) 시스템도 이를 활용합니다(출처: PyTorch 공식 문서).
준비한 데이터셋은 약 5,000개의 한국어 질문-답변 쌍이었고, 베이스 모델은 한국어에 강한 EXAONE 3.0을 선택했습니다. 학습 과정 자체는 큰 문제 없이 진행되었고, 약 3시간 만에 첫 체크포인트가 생성되었습니다. 하지만 결과는 완전한 실패였습니다. 질문을 입력하면 의미 없는 반복 문장이나 영어-한국어가 뒤섞인 횡설수설이 출력되었습니다. AI에게 원인을 물어보니 "과적합(overfitting) 가능성"을 지적했습니다. 과적합이란 모델이 학습 데이터만 암기하고 새로운 입력에 제대로 대응하지 못하는 현상입니다.
솔직히 이 부분에서 제 AI 지식의 한계를 뼈저리게 느꼈습니다. 학습률(learning rate) 조정, LoRA(Low-Rank Adaptation) 설정, 검증 세트 분리, 조기 종료(early stopping) 같은 기본 개념조차 제대로 이해하지 못한 채 플레이북만 따라 한 것이 문제였습니다. 장비 성능은 충분했지만, 사용자의 ML 엔지니어링 역량이 부족하면 아무 소용이 없다는 교훈을 얻었습니다. 향후 Hugging Face의 Trainer API나 Axolotl 같은 파인튜닝 자동화 도구를 활용해 재도전할 계획입니다.
두 달간 DGX Station 스파크를 실사용하면서 내린 결론은 명확합니다. 이 장비는 '만능 AI 슈퍼컴퓨터'가 아니라 '큰 모델을 로컬에서 안정적으로 돌리기 위한 메모리 중심 워크스테이션'입니다. 연산 속도 자체는 고성능 게이밍 GPU보다 느리지만, 128GB의 통합 메모리 덕분에 100B 이상의 대형 LLM, 고해상도 이미지 생성, 영상 세그멘테이션 등 메모리 집약적 작업에서 진가를 발휘합니다. 특히 데이터 보안이 중요하거나 클라우드 비용이 부담스러운 중소 연구팀, 스타트업, 프리랜서 AI 개발자에게는 합리적인 선택지가 될 수 있습니다. 다만 ML 기초 지식 없이 구매하면 활용도가 크게 떨어질 수 있으므로, 최소한 모델 추론과 파인튜닝의 기본 개념은 숙지한 후 도입을 검토하시길 권장합니다.