Groq의 컴파일러-퍼스트 설계가 SRAM 선택으로 이어진 이유, SRAM과 HBM의 경제성·기술적 트레이드오프, 그리고 NVIDIA가 인수 이후 구축할 가능성이 있는 이기종 추론 스택을 1원리 관점에서 정리한다.
GTC 2026 미리보기: Groq의 틈새를 통해 본 이기종 AI 추론의 새로운 시대
Groq의 SRAM 접근은 생태계에서 어디에 들어맞을까? SRAM이 HBM을 대체할까? NVIDIA는 Groq를 기존 제품 라인업에 어떻게 통합할까 — 기술 통합인가, 제품 라인 통합인가? 그리고 이번 인수가 Groq LPU에 어떤 업그레이드를 가져올까? 여기서는 1원리부터 출발해 논리 사슬을 엮어보려 한다.
Groq는 본질적으로 컴파일러-퍼스트 아키텍처를 극단까지 밀어붙인 존재다 — SRAM은 부산물이지, 1차 논제가 아니다.
범용 워크로드를 위해 설계된 CPU와 달리, AI 추론은 결정성이 매우 높다. 데이터 의존 분기가 사실상 없고, 텐서 형상이 고정되어 있으며, 메모리 접근 패턴이 예측 가능하다. Groq가 이런 렌즈로 하드웨어-소프트웨어 인터페이스를 들여다보며 “컴파일 타임에 할 일과 런타임에 할 일을 어떻게 나눌까?”를 물었을 때, AI 추론에 대한 답은 “거의 모든 것을 컴파일 타임에 할 수 있다”였다.
이것이 Groq의 가장 급진적이면서도 독특한 통찰이다. 완전히 결정적인 컴파일러를 만들고, 정확히 클록 사이클 단위까지 스케줄링한다.
완전한 결정성은 극단적 효율을 가능하게 한다. 이를 위해 컴파일러는 실행 중 매 순간 하드웨어의 모든 상태를 고려해야 한다 — 전지전능한 신처럼 행동하면서 — 낭비되는 하드웨어 자원을 없앤다. 그러려면 LPU 내부의 모든 연산, 모든 메모리 접근, 모든 통신 지연이 클록 사이클 단위로 정확해야 하는데, 이는 컴파일러 관점에서 대단히 복잡하다.
AI 워크로드의 높은 결정성과 Groq의 완전 결정적 컴파일러 접근이 결합되면, VLIW의 약점(예측 불가능한 메모리/분기 동작)은 자연스럽게 회피하면서 장점은 증폭된다.
다음 단계 — 효율과 병렬성의 증대 — 는 자연스럽게 VLIW 스타일의 명령 인코딩으로 이어진다. 컴파일러가 매 사이클 각 기능 유닛이 무엇을 할지 통제하므로, 여러 연산을 하나의 넓은 명령어에 패킹하면 효율이 높아진다. 이것이 VLIW다.
Groq 칩에는 out-of-order 실행도 없고, speculation도 없다. 하드웨어는 극적으로 단순화되며(명령 디스패치는 다이 면적의 3% 미만), 복잡도는 전부 정적 컴파일러로 이동한다. 이것이 VLIW 철학의 핵심이다.
컴파일러가 사이클 정확도의 결정적 스케줄링을 하려면 하드웨어의 모든 비결정성을 제거해야 한다 — arbiter, crossbar, replay, 그리고 자율 알고리즘으로 런타임 결정을 내리는 어떤 구성요소도 제거한다.
메모리 지연 역시 결정적이어야 하므로, 모든 캐시와 DRAM을 제거한다. 캐시는 scratchpad SRAM으로 대체되는데, 캐시 교체 정책은 런타임 결정이기 때문에 비결정적이기 때문이다. 주소는 컴파일러가 완전히 통제하여 결정성을 보장한다.
통신도 사이클 정밀해야 한다. send/receive 명령은 컴파일러가 스케줄한 시점에 실행되며, 전통적인 “패킷을 보내고 싶으니 메모리를 할당해 달라” 같은 동작이 없다. 대신 SRAM 할당과 데이터 전송은 컴파일러가 미리 정해둔 시간표에 따라 동기적으로 수행되고, 하드웨어는 그저 이를 따른다.
완전 결정적 컴파일러는 칩 간 통신에서 매우 낮은 오버헤드 지연도 제공한다 — 이는 아마 Groq의 가장 저평가된 장점일 것이다. 전통적 인터커넥트 아키텍처에서는 패킷 라우팅, arbiter 경합, 버퍼 큐잉이 지연 변동의 주요 원인이기 때문이다.
따라서 Groq는 근본적으로 SRAM-퍼스트 아키텍처도 아니고, 엄밀히 VLIW-퍼스트 아키텍처도 아니다 — 컴파일러-퍼스트 아키텍처다. 더 정확히 말하면, 완전 결정적 컴파일러가 Groq 설계 전체의 코어다. SRAM-only는 결정적 컴파일러의 필연적 결과가 되었다. 코어 디코드 단계에서 HBM/DRAM에 내재한 비결정성은 양립 불가능하기 때문이다.
아니오. 이유는 두 가지다.
이러한 비결정적 동작들은 기술적으로는 해결할 수 있다 — 하지만 DRAM 최적화 전략의 대부분을 포기해야 하며, 그 대가로 효율과 활용도가 크게 떨어진다.
Groq는 실제로 이 방향을 탐색했고 결정적 DRAM에 대한 특허도 제출했지만, 실용적 구현이 불가능하다고 결론 내렸다. 이것이 Groq가 SRAM-only를 선택한 핵심 이유 중 하나다.
DRAM에 결정적 컴파일러를 적용하는 문제는 가능/불가능의 이분법이 아니다 — 구조적으로, 그리고 피할 수 없이 HBM 효율과 대역폭을 희생하는 나쁜 선택일 뿐이다.
사실상 전체 메모리 컨트롤러를 컴파일러가 정의하는 소프트웨어 구성물로 다시 써야 하며, 이는 매우 복잡하고 메모리 세대가 바뀔 때마다 대규모 업데이트가 필요하며, 모든 DRAM 벤더/세대에 걸친 검증은 악몽이 된다.
두 아키텍처는 동일한 문제 — 런타임 비결정성 — 에 대해 정반대의 답을 준다.
NVIDIA GPU는 SIMT(Single Instruction, Multiple Threads)와 하드웨어 워프 스케줄러 위에 구축된다. 어떤 워프가 메모리 접근에서 stall되면 스케줄러는 즉시 준비된 다른 워프로 전환해 stall 지연을 숨긴다. 이 메커니즘 전체는 “지연은 예측 불가능하다”는 전제를 깔고 있으며, 파이프라인을 통계적으로 채우기 위해 충분한 동시 스레드가 필요하다.
이를 결정적 컴파일러로 대체한다는 것은 NVIDIA의 가장 근본적인 하드웨어 스케줄링 유닛을 포기하는 것을 뜻하며, 그와 함께 다중 워프 로테이션을 지원하는 대형 레지스터 파일의 필요성도 바뀐다.
역사적으로 AMD가 TeraScale(VLIW)에서 GCN(스칼라 SIMT)으로 전환한 것은 바로 대규모 VLIW→SIMT 마이그레이션이었다. 워크로드가 덜 예측 가능해지자 VLIW의 컴파일러 부담이 너무 커졌고, 스케줄링 권한을 하드웨어로 되돌려야 했다.
NVIDIA 내부에서 Groq가 갈 수 있는 유일하게 현실적인 길은, 저지연 디코드용으로 목적 특화된 독립 제품으로 존재하는 것이다.
Groq의 현재 병목을 단순히 말하면:
Groq의 코어 아키텍처는 사실상 2017–2018년, 즉 CNN 시대에 거의 완성되었다. 아키텍처는 CNN/LSTM 워크로드를 타깃으로 했고, ResNet50 같은 벤치마크에서 TSP 컴퓨트 카드당 230MB SRAM이면 충분했다.
하지만 LLM 시대에는 카드당 온칩 SRAM 230MB는 턱없이 부족하다. LLaMA 70B 모델의 파라미터 풋프린트는 ResNet50 약 3,000개에 해당하며, 긴 컨텍스트에서는 KV cache가 더 커진다. 스케일아웃이 유일한 선택지가 되었다.
따라서 70B 모델을 돌리려면 576카드 클러스터가 필요해진다. 16-stage pipeline parallelism(PP) × 36-way tensor parallelism(TP)로, 80개 트랜스포머 레이어를 16개 파이프라인 스테이지로 나누고 각 스테이지를 36장에 걸쳐 펼친다.
PP와 TP의 통신 오버헤드가 총 지연의 80% 이상을 차지하며, PP만 해도 50%를 넘는다.
NVIDIA의 제품 라인에 들어간 이후 Groq는 강점에 맞춰 디코드(강점)에만 집중하고 prefill(약점)은 피하는 방식으로 포지셔닝할 수 있다.
NVIDIA가 가져올 수 있는 가장 중요한 개선은 공정 노드 업그레이드와 하이브리드 본딩 기술(AMD의 3D V-Cache와 유사)을 통해 Groq LPU의 SRAM 용량을 늘리는 것일 가능성이 크다.
14nm에서 3nm로 가는 것만으로도 SRAM은 칩당 230MB에서 약 500MB까지 늘 수 있고, 3D SRAM 스태킹을 추가하면 다시 두 배로 늘 수 있다.
SRAM이 커지면, 이전에 576 LPU가 필요하던 70B 추론 작업이 256개만 필요해질 수도 있다. 32-way 텐서 병렬 × 8-stage 파이프라인 병렬로 구성하면 파이프라인 인터커넥트 지연을 대략 절반으로 줄일 수 있다.
NVIDIA의 핵심 기여: SRAM 용량 확대 → 스케일아웃 카드 수 감소 → 통신 지연 감소 → 토큰 처리량 증가.
아니오. SRAM은 본질적으로 몇 배의 속도를 위해 10× 비용을 지불하는 교환이다. 저지연을 위해 프리미엄을 지불할 의사가 있는 일부 고객에게만 유효하다.
AI 하드웨어 시장의 지배적 지표는 여전히 TCO(total cost of ownership)다. 간단한 비용 비교만으로도 분명해진다.
KV cache를 포함해 LLaMA 70B를 구동하려면 Groq 카드 576장이 필요하다. 카드당 소매가가 약 $20,000(CEO는 실제 가격이 훨씬 낮다고 했으니 $2,000을 사용하자)라고 하면, 하드웨어 비용만 $1.1M을 넘는다.
반면 H100 두 장이면 동일 모델을 $100,000 이하로 구동할 수 있다 — 비용 격차가 10×다.
Groq는 토큰 API 서비스를 판매하는 방향으로 피벗했고 가격도确실히 저렴하다 — 하지만 그 이유는 (1) NVIDIA GPU 클라우드 사업자는 보통 하드웨어 비용의 2×로 용량을 판매하고, (2) Groq 자체가 적자를 감수하고 있기 때문이다.
2025년에 Groq의 LPU 기반 API 추론 사업은 매출 약 $40M, 비용 약 $60M으로 –50% 매출총이익률이었다.
Groq의 낮은 토큰 가격은 SRAM의 경제적 우월성을 증명하는 것이 아니라 VC 보조금의 결과다.
속도 프리미엄을 지불할 시장이 있을까? 있다. Claude Opus 4.6의 Fast 모드는 중요한 시장 신호다. 출력이 2.5× 빠르며, 100만 토큰당 $30/$150로 가격이 $5/$25 대비 6× 비싸다 — 배치 효율을 희생해 달성했을 가능성이 크다.
이 시장 세그먼트는 실재하며, SRAM은 여기서 진정한 틈새를 가진다.
하지만 이 틈새는 얼마나 클까?
워크로드에 따라 하드웨어 요구는 크게 다르다.
지연 민감 디코드(동반 차트의 빨간 영역)는 SRAM의 영역이다. 실시간·대화형 LLM 애플리케이션 — 채팅, 코파일럿, 에이전트.
특히 추론(reasoning) 모델은 개선 폭이 크다. H100은 추론 체인을 완료하는 데 2–3분이 걸릴 수 있지만, Cerebras는 10초에 처리한다.
극단적 속도를 요구하는 추론 워크로드의 비중은(어떤 단일 데이터 포인트 기준) 하이퍼스케일러 컴퓨트의 약 10% 정도로 보인다.
에이전트 워크로드는 더 복잡하다. 일반적인 에이전트 프레임워크(SWE-Agent, LangChain, Toolformer)를 프로파일링하면 종단 지연의 최대 90%를 CPU가 차지할 수 있고, 처리량 병목도 디코드보다 CPU에서 더 자주 발생한다. 이 경우 SRAM의 속도 우위는 상당히 희석된다.
더 큰 볼륨의 워크로드 — 배치 추론, 오프라인 처리, 랭킹, 추천 — 은 지연에 둔감하다. 처리량과 토큰당 비용이 유일한 지표이며, 여기서 SRAM은 비용 우위가 전혀 없다.
비유하자면: H100/B200은 버스다 — 탑승객 수용량이 크고(큰 배치), 좌석당 비용이 낮지만 느리다. Groq/Cerebras는 페라리다 — 극단적 속도, 승객은 적고, 좌석당 비용이 10× 이상이다.
구조적으로 SRAM의 비용 불리함은 시간이 지나도 수렴하지 않는다. 6T SRAM 셀은 1T1C DRAM 셀보다 본질적으로 더 비싸며, 이는 공정 노드가 아니라 물리학이 결정한다.
그리고 SRAM 스케일링은 정체됐다. N5에서 N3E로 가는 동안 SRAM 셀 면적은 거의 줄지 않았다.
속도 우위조차 약해지고 있다. SRAM 접근 속도는 공정 한계에 가까워져 세대별 개선 여지가 작아지는 반면, HBM 대역폭은 기하급수적으로 스케일한다.
10년 전에는 SRAM의 HBM 대비 2자릿수 차수(order of magnitude) 속도 우위가 압도적이었다. 오늘날 격차는 1자릿수 차수보다 작다(Rubin HBM4: 22 TB/s). 또 10년 뒤에는 격차가 무시할 만해질 수도 있다.
결론: SRAM은 HBM을 대체하지 못하지만, 저지연·저배치·실시간 추론 세그먼트에서 대체 불가능한 역할을 가진다. 장기적으로 HBM 대역폭이 기하급수적으로 증가하면, 그 우위도 점차 약해질 것이다.
이 조각들을 맞춰보면, Groq 인수 이후 NVIDIA 전략의 윤곽 — 이기종 추론의 서막 — 이 드러난다.
추론 워크로드는 이미 분화되었다. 단일 아키텍처가 모든 워크로드의 최적 운용점을 커버할 수는 없다.
컴퓨터 아키텍처에서 가장 중요한 원리는 트레이드오프와, 그 아키텍처가 커버하는 스케일 범위다. 하나의 아키텍처는 자신의 최적 트레이드오프 공간 안에서는 비범할 수 있다. 워크로드 타입별로 맞춤화된 여러 아키텍처를 함께 쓰는 것이 이기종 컴퓨팅의 본질이다.
GTC 2026의 핵심 테마는 이기종 추론의 체계화다.
추론은 더 이상 단일 하드웨어가 처리하지 않는다 — 분해된다:
LPU와 GPU는 추론 스택에서 서로 다른 두 티어가 될 가능성이 크다. 소형 모델·저지연·저배치 워크로드는 LPU로, 장문 컨텍스트·고배치 워크로드는 HBM GPU로.
CPX가 LPU/GPU에 어떻게 연결되는지는 아직 불분명하다. 일반적 워크플로는 다음과 같을 것이다.
CPU가 제어와 스케줄링을 담당 → CPX가 prefill을 완료하고 수십 GB의 KV cache를 생성 → Groq LPU SRAM 어레이 또는 HBM GPU로 분산 → 디코드 시작.
또 하나의 더 추측적인 가능성도 있다. speculative decoding에서 LPU가(보통 더 작은) draft 모델을 엄청난 속도로 실행하고, HBM GPU가 verifier로 동작하는 방식이다. 이런 이기종 디코딩 구조는 토큰 레이트를 크게 높일 수 있다 — 어떤 시나리오에서는 두 배까지도(예: 문법이 예측 가능한 코딩 작업에서 작은 draft 모델이 높은 수용률을 보일 때).
NVIDIA의 야망이 GPU를 넘어 전체 에이전트 워크플로의 시스템 수준 최적화로 확장되면, 경쟁의 난이도는 더 이상 어떤 단일 차원에 있지 않게 된다.
NVIDIA는 과거에는 GPU 아키텍처와 파라미터의 브루트포스 발전으로 큰 도약을 만들었다. 이제는 CPX, LPU, ICMS가 이기종 추론 스택에 합류하면서, NVIDIA는 시스템 관점에서 움직인다 — 에이전트 플로 전체에 걸쳐 이기종 하드웨어를 처음부터 오케스트레이션한다.
시스템 복잡도와 소프트웨어 스택 깊이(Dynamo / ICMS / CMX) 측면에서, 이 움직임은 경쟁의 기준을 “훌륭한 칩을 만들기”에서 “범용 가속 컴퓨팅 솔루션으로서 전체 이기종 시스템을 정의하기”로 끌어올린다.
컴퓨팅의 모든 패러다임 전환은 반도체 스타트업의 موج을 낳았다. 하지만 소프트웨어와 애플리케이션 형태가 수렴하면, 대형 기존 기업이 인수를 통해 기능을 흡수하는 경우가 결국 많다 — 더 큰 스케일로 파라미터를 올리고, 시스템을 더 깊고 포괄적으로 통합하며, 비용을 낮추고, 전력 효율과 벤치마크 점수를 개선해, 점차 독립 스타트업을 밀어낸다.
초기 모바일 시대에는 애플리케이션 프로세서, 독립 베이스밴드 칩, ISP, GPU를 만드는 독립 회사가 난립했다.
최종 승자는 GPU, ISP, 모뎀을 하나의 SoC로 통합하고 완전한 시스템 수준 이기종 컴퓨트 플랫폼을 만든 쪽이었다.
Apple은 PA Semi의 CPU 팀, Infineon의 모뎀을 인수했고, Imagination의 GPU를 사실상 잠식했다.
Qualcomm은 ATI의 모바일 GPU, Wi‑Fi를 위한 Atheros, CPU를 위한 Nuvia, Bluetooth/DSP를 위한 CSR을 인수했다 — 모두 전형적 사례다.
이기종 추론이 복잡해질수록, 시스템 수준 통합을 수행할 수 있는 기업이 점점 더 유리해질 것이다. 논리는 모바일 SoC 시대와 동일하다.
AI 시대에 NVIDIA의 Arm(실패), Mellanox, Groq 인수는 이 새로운 역사적 사이클의 시작에 불과하다.
fin
@fi56622380
10h
GTC 2026 preview: 从Groq生态位看AI异构推理(Heterogeneous Inference)新时代 Groq的SRAM路线的生态位在哪里?SRAM会不会替代HBM路线? Nvidia如何整合groq到现有的产品线?是技术整合还是产品线整合?收购之后会给groq LPU产品带来怎样的升级? 这里尝试从基本原理出发去拼凑一个逻辑链