NVIDIA DGX Spark + Apple Mac Studio를 결합해 EXO 1.0으로 LLM 추론을 4배 빠르게

ko생성일: 2025. 12. 19.

DGX Spark의 높은 연산 성능과 Mac Studio M3 Ultra의 높은 메모리 대역폭을 프리필/디코드 단계로 분리해 결합하고, 레이어별 KV 스트리밍으로 통신 오버헤드를 숨겨 전체 추론 속도를 크게 높이는 방법을 살펴봅니다.