Furiosa의 추론용 ASIC RNGD 서버가 H100 대비 전력 효율과 토큰 생성 효율에서 유의미한 개선을 보인다는 주장과, 데이터센터 경제성·GPU 생태계·AI 투자 버블 등을 둘러싼 논쟁.
URL: https://news.ycombinator.com/item?id=46626410
Title: Furiosa: 3.5x efficiency over H100s
저는 지금의 아키텍처로는 Nvidia가 벽에 부딪혔다고 생각합니다. 과거에 인텔이 여러 아키텍처에서 그랬던 것과 비슷하게요. 현 세대의 전력·냉각 요구사항은 완전히 새로운 형태의 데이터센터(건물 구조 자체가 다른)를 짓도록 강요하고 있고, 그건 추론 경제성(GPU + 데이터센터 + 전력 + 발전소 + 핵융합 연구 부서 + 데이터센터 부지 확보를 위한 로비 + 수자원 권리 + …)을 완전히 망가뜨릴 겁니다.
당시 인텔 이야기는 보통 이랬죠. AMD나 사이릭스(Cyrix), ARM, 애플 등 누군가가 인텔 세대보다 분명 한 세대 앞선 새 아키텍처를 들고 등장하는데, 가장 중요한 건 그게 인텔 세대의 열·전력 한계를 뚫는 것처럼 보인다는 점입니다(그 시점에서 인텔은 보통 칩 설계팀을 해고하고 AMD 등에서 사람들을 대거 데려와 Core 같은 걸 내놓곤 했죠).
Nvidia는 사실상 경쟁이 없거나 적어도 지금까지는 없었습니다. 아무도 CUDA의 해자를 깨지 못했으니까요. 그래서 인텔도 AMD도 그 누구도 데이터센터 시장에서 제대로 경쟁하지 못했고, Blackwell 같은 멀티킬로와트 전력 소모 같은 문제에 대해 Nvidia가 실질적 경쟁 압박을 받은 적도 없습니다.
이게 중요한 이유는, LLM은 정말 멋지고 종종 유용한 도구이지만 AGI는 아니고, 스케일링도 벽에 부딪히는 것처럼 보이기 때문입니다. Blackwell 기반 데이터센터의 경제성이 성립하려면, ‘몇 가지 유용한 도구와 개선된 인터페이스’ 수준이 아니라 ‘경제 전체가 그 위에서 돌아갈 것’이라고 가정해야 합니다. 그렇지 않으면 투자 규모가 도저히 말이 안 됩니다. 현장에서 우리가 보는 LLM의 실제 사용 방식(실제로는 가치가 있지만 제한적인)과, 새로 지어야 하는 단일 목적의 ‘AI 데이터센터’로 그 서비스를 제공하는 데 드는 총비용 사이의 간극이 너무 큽니다.
이건 보도자료이긴 하지만, 추론을 위한 진짜 새 하드웨어 아키텍처처럼 보이는 걸 볼 때마다—특히 새 건물을 지을 필요도 없고 핵융합을 해결할 필요도 없는 것이라면—저는 좋은 신호로 받아들입니다. 저는 LLM을 좋아하고 많은 가치를 얻었지만, 업계의 재무는 지금 전혀 맞아떨어지지 않습니다.
저는 지금의 아키텍처로는 Nvidia가 벽에 부딪혔다고 생각합니다
무슨 근거로요? 사람들이 중요하게 여기는 것들에서 측정된 성능은 계속 올라가고 있고, 소프트웨어 스택도 계속 개선되면서 기존 하드웨어에서도 더 많은 성능을 끌어내고 있습니다.
추론 테스트: https://inferencemax.semianalysis.com/
훈련 테스트:
하지만 업계의 재무는 지금 전혀 맞아떨어지지 않습니다
그건 HN의 “돈이 엄청 많이 들면 그건 말이 안 되는 거다”류의 집단지성(?)에 근거한 건가요? 공개된 수치들을 보면 추론 제공자들과 Anthropic은 꽤 잘 하고 있는 것 같고, OpenAI가 추론에서 적자를 보는 건 무료 ChatGPT 사용 때문인 것으로 보입니다.
게다가, 많은 사람들이 들었을 텐데요. 어떤 이름 없는 기업이 Anthropic에 개발자 1인당 월 5000달러(!!)를 추론에 쓰고 있다는 얘기요. 그렇게 비용에 둔감한 회사가 있다면 Anthropic이 굳이 보조금을 줄 이유가 있나요?
사람들이 중요하게 여기는 것들에서 측정된 성능은 계속 올라가고 있고, 소프트웨어 스택도 계속 개선되면서 기존 하드웨어에서도 더 많은 성능을 끌어내고 있습니다
저는 “칩이 더 빨라지냐”보다, 데이터센터·전력 비용까지 포함한 완전 적재 기준의 달러/토큰이 더 걱정됩니다. Nvidia가 칩을 더 빠르게 만들 수 없다면 논쟁도 없겠죠. 지금 질문은 “그 개선의 비용이 얼마냐”입니다.
그 숫자에 대한 답은 저도 없지만, 새 데이터센터 비용으로 떠도는 수치들은 별로 낙관적이게 만들지 않습니다.
그건 HN의 “돈이 엄청 많이 들면 그건 말이 안 되는 거다”류의 집단지성(?)에 근거한 건가요?
OpenAI는 향후 10년간 1.15조 달러의 지출 약정을 갖고 있습니다: https://tomtunguz.com/openai-hardware-spending-2025-2035/
수익 측면에서, 이 분야 거의 누구의 공개 수치도 의심스럽습니다. 상장사가 아니어서 내부를 볼 수 없으니까요. 숫자를 고문하면 원하는 말을 뭐든 하게 만들 수 있죠.
우리가 실제로 볼 수 있는 건 예컨대 2025년 내내 Anthropic이 대략 3개월마다 수십억 달러씩 자금을 조달하는 모습 같은 겁니다. 그들이 그만큼 야심차서일 수도 있지만, 그런 건 저를 불안하게 만듭니다.
GPU는 공급이 제한돼 있고 가격도 그렇게 빨리 떨어지지 않는데, 왜 토큰 가격이 내려가길 기대하나요? 제 생각엔 공급 문제는 1~2년 내로 해결될 겁니다. 이제 시장 성장 속도에 대한 예측이 좋아졌으니까요. Nvidia는 이익률 90%로 GPU를 팔고 있는데도 전부 품절입니다. 이전엔 들어본 적도 없는 일입니다.
OpenAI는 향후 10년간 1.15조 달러의 지출 약정을 갖고 있습니다
네, 하지만 그건 계약된 약정이 아니고, 일부는 지분 스왑이라는 것도 알고 있죠. 예를 들어 각주에 있는 “Microsoft(2,500억 달러 Azure 약정)”은 실제 현금이 얼마인지 알 수 없습니다.
그리고 같은 링크의 다른 정보도 언급하는 게 공정하다고 봅니다. “OpenAI는 2025년에 48%의 매출총이익률을 예상하며, 2029년에는 70%로 개선될 것이라 전망한다.”
“OpenAI는 2025년에 48%의 매출총이익률을 예상하며, 2029년에는 70%로 개선될 것이라 전망한다.”
OpenAI는 원하는 대로 뭐든 전망할 수 있죠. 상장사가 아니잖아요.
그들도 여전히 주주가 있고, 허위정보에 대해 소송을 당할 수 있습니다. 비상장사는 주주에게 거짓말할 면허가 있는 게 아닙니다.
OpenAI, Microsoft, NVidia, AMD 등 사이에 거대한 미래 거래 약속을 서로에게 제공하는 근친상간적 순환 구조가 있다는 사실은 정말 웃깁니다. 이 전체 구조의 경제성은 우스꽝스럽고, 명백히 거대한 버블입니다. 현재 밸류에이션을 정당화하려면 현실적으로 불가능한 수준의 이익이 나와야 합니다.
OpenAI의 해자가 뭔가요? 저는 사실상 없다고 봅니다. 엄청나게 낙관적인 전망을 내놓고 폭발적 성장 기회가 있는 듯한 이미지를 만들지만, 버블이 터진 뒤에도 그게 살아남을까요?
저는 이 “순환 구조” 문제가 잘 이해되지 않아요. 제가 당신 욕실을 고쳐주고, 그 대신 당신이 제게 새 테이블을 만들어준다면 그게 근친상간적 순환인가요? 우리 둘 다 가치를 교환한 것 아닌가요?
그 순환 구조는 그 서비스에 임의의 “가격”을 붙일 수 있게 해줍니다. 욕실과 테이블이 각각 100달러라고 말할 수도 있고, 각각 100만 달러짜리 일이라고 주장할 수도 있죠. 실제 돈이 그 순환 밖으로 나가고 들어오지 않으면, 그 주장들은 현실에 닿아 있지 않습니다.
Microsoft가 Nvidia GPU를 살 때 실제 돈이 오가고 있지 않다고 생각하나요?
Nvidia가 고객에게 GPU를 팔고, 그다음 그 고객 지분 10%를 사는 경우는요?
그 지분은 고객의 밸류에이션에 기반할 텐데, 공개시장이면 외부에서 가격이 매겨집니다. 비공개면 더 불투명하지만, 그래도 어떤 형태로든 현실에 기반이 있어 Nvidia가 회사의 적정 지분을 얻겠죠.
제 요지는 그게 간접 보조금이라는 겁니다. NVIDIA는 고객을 떠받치려고 할인 판매를 하고 있습니다.
기본적으로는 부드러운 형태의 화폐 발행(머니 프린팅)입니다. 이 회사들은 서로에게 엄청난 미래 거래를 약속하면서 서로의 밸류에이션을 부풀리고 있어요.
순진하게 보면 헤드라인만 보고 “AI에 훨씬 더 많은 돈이 곧 유입되겠구나”라고 결론 내릴 겁니다. 물론 합리적 투자자는 그 약속 대부분이 현실 근거 없는 미친 성장에 전제된다는 걸 감안해 할인하겠죠. 하지만 탐욕스럽거나 비이성적인 투자자도 많고, 그들의 무모함은 그들만이 아니라 모두에게 영향을 줍니다.
Nvidia 입장에선: 현금을 투기적 사업의 주식으로 바꾸면서 동시에 자사 제품 수요 증가를 보장하는 건 꽤 괜찮은 아이디어고, 아마 단점이 없을 겁니다.
인수되는 AI 회사 입장에선: 저는 이런 주식이나 밸류에이션을 믿지 않을 겁니다. 투자된 돈이 GPU로 들어갔다가 다시 Nvidia로 돌아가니까요.
네, 하지만 그건 계약된 약정이 아니고, 일부는 지분 스왑이라는 것도 알고 있죠.
계약된 약정이 아닌 것보다 더 나쁩니다. Nvidia가 실적 발표 콜에서 OpenAI 약정은 “아마도(maybe)”라고 했어요.
게다가, 많은 사람들이 들었을 텐데요. 어떤 이름 없는 기업이 Anthropic에 개발자 1인당 월 5000달러(!!)를 추론에 쓰고 있다는 얘기요
기업들은 더 멍청한 것에도 더 많은 돈을 낭비해왔으니 지출이 좋은 척도는 아닙니다. 그리고 다른 수많은 AI 회사들은요?
Anthropic은 코딩에서 최상위 모델 중 하나니까, 그건 마치 “아마존이 잘 되고 있으니 닷컴 버블 전에도 문제 없다”는 식의 얘기죠.
AI의 진짜 효과는 그 AI 회사들의 고객이 이익이 증가하느냐로 측정해야 합니다. 그렇지 않으면 삽 파는 사람들(도구 제공자)만 보는 겁니다.
그건 HN의 “돈이 엄청 많이 들면 그건 말이 안 되는 거다”류의 집단지성(?)에 근거한 건가요?
즉, 소수의 AI 회사에만 투자된 돈의 규모가 지금 _어마어마_하고, 그들 매출은 필요 수준에 한참 못 미칩니다. 회의적으로 볼 만한 타당한 이유죠.
이 정도 규모의 투기적 투자를 우리가 얼마나 자주 봤나요? 이건 미국의 도시·주(州) 경제 전체를 뒤흔들고 있습니다.
OpenAI만 해도 2028~2029년쯤까지 1000억 달러 이상을 태울 거라는 전망이 있죠(며칠 전에 읽은 걸 잊었습니다). 연간 수백억 달러입니다. 투자자들에게는 엄청난 도박이죠.
반대편 관점은 이 회사들이 용량(캐파) 제약을 받고 있다는 겁니다(확인하기는 어렵지만요). 만약 연구소들이 캐파 제약을 받는다고 가정하면, 더 많은 캐파를 구축하는 건 더 많은 고객을 обслуж하고 고객당 매출을 늘릴 수 있어 투자 회수가 가능할 수 있습니다.
즉 핵심 질문은: 연구소들이 컴퓨트 제약을 받고 있다고 믿는지, 그리고 캐파를 늘리면 실매출을 끌어올릴 수 있다고 믿는지입니다. 저는 그게 사실일 가능성이 꽤 있다고 봅니다. 그리고 이 현실에서는 투자가 더 말이 됩니다.
특히 Claude Code 같은 고비용 제품이 사용자당 토큰 사용량이 훨씬 높은 채로 빠르게 성장하는 걸 보면 더더욱요.
이 모든 건 캐파 증가 시 수요가 실제로 나타나고, 그 수요에서의 마진이 ROI가 나올 만큼 충분히 좋아야 한다는 전제에 달려 있습니다. 하지만 투자자 입장에선, 오늘의 매출만 보고 미래 캐파 투자와 비교하는 것(그림의 일부만 보는 것)보다 이해하기 쉬운 베팅일 수 있습니다.
저는 공장/제조에 대해 전문가라고 불릴 사람은 아니지만, 제(엄청나게 기초적인) 이해로는, 어떤 “공장”이든 위젯이든 뭐든 만들어서 이익을 내거나, 투자/대출을 갚기 위한 명확한 수익성 경로가 있어야 합니다.
부채는 있어도, 구체적이고 비교적 예측 가능한 방식으로 흑자 전환을 향해 갑니다. AI 회사들처럼 그렇게까지 투기적으로 공장에 투자하진 않죠.
만약 그 공장이 생산능력이 한계까지 찼는데도 여전히 돈을 못 벌면, 그건 실패한 투자고 확장하지 않을 겁니다.
그래서 이건 사과와 사과 비교가 아닌 것 같습니다.
대체로 연구소들은 추론에서는 수익이 난다는 게 컨센서스 같습니다. 그들이 돈을 잃는 건 훈련과 무료 사용자 때문이죠.
경쟁 때문에 훈련과 무료 사용자에 돈을 써야 한다는 점은 일을 복잡하게 만들지만, 추론만 놓고 보면 이런 데이터센터를 토큰 공장으로 보는 건 말이 됩니다.
예를 들어 저는 Opus 4.5를 더 빠르게 추론할 수 있다면 더 돈을 낼 의향이 있습니다.
또 이것은, R&D에 큰 돈을 쓰면서도 제조는 수익적으로 운영하는 다른 산업과 완전히 다르지도 않습니다. 제약, 반도체, 삼성이나 애플 같은 하드웨어 회사들도 그렇죠.
AI 연구소가 특이한 점은 비율과 불확실성이지만, 종류가 다른 게 아니라 정도의 차이입니다.
하지만 추론만 놓고 보면 이런 데이터센터를 토큰 공장으로 보는 건 말이 됩니다.
그러니까 큰 비용의 대부분을 무시하면 말이 된다는 거죠.
Opus 4.5는 2025년 11월 25일에 출시됐습니다. 2개월도 안 됐어요. 새 모델 훈련을 멈추면 그때는 훈련 비용을 잊어도 되겠죠.
저는 어느 편도 들 생각은 없고(잘 모르니까요), 다만 흥미로운 논리입니다. 그래서 묻고 싶은데, 그게 팹(fab)과 뭐가 다른가요?
제가 이해하기로는 R&D 비용은 터무니없고 새 공정 노드로 업그레이드하는 건 더 터무니없습니다. 결과물인 칩은 개당 가격이 푼돈 수준(토큰과 유사)인데, 어떻게든 다 돌아갑니다. 뭐, 완전히는 아니지만요.
최첨단 회사들은 계속 탈락해서 지금은 한 손으로 셀 수 있을 정도죠. 얼핏 보기엔 이 비유가 맞는 것 같기도 합니다.
다른 분이 이 스레드 다른 곳에서 언급했는데, 저는 이게 핵심이라고 봅니다. 이 모든 것은 실제 최종 사용자가 LLM 서비스에서 충분한 이득을 얻어 ‘돈잔치(그레이비 트레인)’를 계속 굴릴 수 있느냐에 달려 있습니다.
삽(=인프라)을 얼마나 확장 가능하고 수익적으로 만들 수 있는지는 중요하지 않아요. 장기적으로 이 비즈니스가 유지되려면 삽질하는 사람들—즉 최종 사용자—이 삽을 써서 돈을 벌어야 합니다. 그런데 그 기대가 지금은 말도 안 되게 부풀려져 있어요. 과거 어떤 때보다도요.
결국 과열은 무너지고 버블은 터질 것이며, 투자 디레버리징이 단기간에 많은 돈을 시장에서 빼낼 겁니다. 버블이 클수록 그 사건은 더 고통스럽고 생존 가능성이 낮아집니다.
추론 비용은 사용량에 따라 선형적으로 증가합니다. R&D 비용은 그렇지 않습니다.
AI에서도 이게 সত্য인가요?
네. R&D는 결국 비용 대비 비중이 떨어질 수밖에 없습니다. 문제는 그게 언제냐, 그리고 그때까지 누가 생존해 있느냐입니다.
경쟁과 혁신 레이스가 R&D 비중을 높게 유지시키고 있는 것이고, 영원히 그렇게 높게 유지되진 않을 겁니다. 어느 시점엔 매출이 늘거나 경쟁이 줄어 R&D 비용이 매출 대비 비중으로 내려갈 겁니다.
네, 하지만 ‘결국’이 시장이 버틸 수 있는 기간보다 더 길 수도 있죠. 지금까지 R&D 비용은 폭증해왔고, 가까운 시일 내 바뀔 것 같지도 않습니다.
그건 고정비와 변동비의 정의에 가깝습니다. 취미 사용자 1명만 있든 시장 점유율이 90%든 R&D에 쓰는 돈은 같습니다.
컨센서스는 연구소들이 추론에서 수익이 난다는 것 같습니다. 그들이 돈을 잃는 건 훈련과 무료 사용자 때문이죠.
그건 “가장 큰 비용을 무시하면 수익이다”처럼 들립니다. 지금 당장 수익이 날 수 있다면, 최소한 몇몇 회사는 흑자로 전환하고 큰 지출을 멈췄을 겁니다.
제 추측은 그게 사실이 아니거나, 혹은 모두가 경쟁 때문에 계속 과도하게 써야만 하는 사이클에 갇혀 있고 아무도 먼저 멈추고 싶지 않은 거겠죠. 어느 쪽이든 결과는 같습니다.
그건 사실이 아닙니다. 많은 회사들은 성장, 시장점유율, 경쟁에서 이기기 위해 가능한 한 오래 적자를 유지할 겁니다.
언젠가 균형이 맞춰지겠지만, 값싼 자본을 쉽게 조달할 수 있고 그 돈을 써서 성장할 수 있는 동안엔 그렇게 할 겁니다. OpenAI는 내일 당장 광고를 넣으면 하룻밤 사이에 엄청 벌 수 있을 거예요. 안 하는 이유는 경쟁 때문입니다.
하지만 성장을 위한 자본 조달이 어려워지면, 그들은 그렇게 할 겁니다.
역사적으로 이게 어떻게 작동했는지는 이해하지만, 이렇게 짧은 시간에 이렇게 큰 돈이 새로운 분야로 들어간 적이 언제 있었나요?
크립토, 소셜미디어도 비교가 안 됩니다. 저는 그런 규칙이 더는 적용되지 않는다고 봅니다.
앞선 댓글에서 말했듯, 이건 미국 도시와 주 경제를 실제로 바꾸고 있고, 전부 기술기업의 투기적 기대에 기반합니다.
제가 무지한 걸 수도 있지만, 이런 규모의 투자를 겪은 어떤 산업도 떠올릴 수 없습니다. 19세기 미국의 철도 건설 정도일까요? 그때 숫자가 어땠는지 봐야겠지만, 그마저도 사과와 사과 비교인지 모르겠네요.
소수의 AI 회사에만 투자된 돈의 규모가 지금 어마어마하고, 그들 매출은 필요 수준에 한참 못 미칩니다. 회의적으로 볼 만한 타당한 이유죠.
맞기도 하고 아니기도 합니다. 일부는 그냥 “AI”라고 주장할 뿐이죠. 하이퍼스케일러들이 데이터센터를 짓고 증설하는 건 맞지만, 그 전부가 “AI”는 아닙니다. 크립토 하는 사람들이 데이터센터를 “AI”로 리브랜딩한 것도 있고요.
크립토 하는 사람들이 데이터센터를 “AI”로 리브랜딩한 것도 있고요.
이전의 지속불가능한 버블이 새 버블로 리브랜딩한다는 게, 우리가 바랄 만한 안정성 지표인지는 모르겠네요.
어떤 이름 없는 기업이 Anthropic에 개발자 1인당 월 5000달러(!!)를 추론에 쓰고 있다는 얘기요
저는 못 들었고 더 알고 싶습니다.
이런 건 예전에 봤습니다. 2001년에 OC-768 하드웨어 스타트업이 50개 이상 있었어요. 그때 OC-768 링크 5개 정도면 _전 세계 모든 트래픽_을 나를 수 있었습니다.
12개월마다 지수적으로 두 배씩 성장한다 해도, 그 많은 스타트업에 쏟아진 자금을 정당화할 만큼 고객이 생기진 못했을 겁니다.
비즈니스 모델이 “세상의 모든 <X>”에 부딪히는 순간, 큰일 난 겁니다.
당신 말이 맞지만, Nvidia는 인텔이 항상 허술한 설계를 가리기 위해 써먹던 중요한 장점—공급망—을 누리고 있습니다.
대규모로 HBM을 조달할 수가 없어요. Nvidia가 다 사버렸거든요. TSMC N3도 전부 예약이 찼고, 애플과 Nvidia 사이에서 인텔 18A도 이미 상당히 빠졌을 겁니다.
그리고 장인정신(?) 넘치는 추론 하드웨어를 서로 연결하고 싶다면 축하합니다. 그쪽도 Nvidia가 리더라서 스위치는 무조건 사야 합니다.
비즈니스 측면에선, LLM 덕분에 변혁적 성과를 낸 사례를 아직 못 들었습니다(언젠가 나오겠지만 아직은요). 돈 버는 건 삽 파는 사람들뿐입니다. 이 시장은 국부펀드와 경기순환 투자로 돌아가고 있어요. 미쳤습니다.
예를 들어 콜센터는 큰일 났고, 특정 전문 계약업자(예: SOC 제출 준비 등)도 그렇다고 봅니다.
다만 amazon.com의 챗봇(루퍼스, Rufus)이 얼마나 형편없는지 웃깁니다. 특정 카드 청구가 어디서 발생했는지 물으면 제 계정에 SQL 쿼리를 이것저것 날리는데, 실제 청구 내역 링크를 주는 건 귀찮아합니다(그 페이지는 존재하고, 문제를 아주 쉽게 해결해주는데도요).
그래서 콜센터 문제도 현실화되기까지는 시간이 걸릴지도 모르겠습니다.
맞습니다. Core는 Pentium M에서 나왔고, Pentium M은 실제로 펜티엄 3 아키텍처를 가져온 이스라엘 팀이 펜티엄 4의 장점과 결합한 겁니다.
네, 그 부분은 순수한 비꼼이었습니다. 요지는 인텔이 아키텍처가 오래되면 몇 번이나 자만하다가 걸려 넘어졌고, 종종 그걸 구해낸 팀은 그걸 만든 팀이 아니었다는 겁니다.
그건 아주 복잡한 문제를 지나치게 단순화해서, 사후(후견지명)로 보는 관점이라고 생각합니다. 그 요지를 말하고 싶었다면 Core보다 Itanium이나 64비트/멀티코어 데스크톱 처리 같은 예가 더 나았을 겁니다.
TPU는 어떤가요? TPU는 nvidia GPU보다 더 효율적이고, 엄청난 양의 추론이 TPU에서 이뤄집니다. 비록 공공에 그대로 판매되진 않지만, 이 기술은 AMD가 인텔에 영향을 준 것처럼 Nvidia의 다음 행보에 영향을 주지 않나요?
TPU가 더 효율적일 수는 있지만, 효율적으로 프로그래밍하기가 꽤 어렵습니다(포화시키기 어려움). 그래서 구글은 TPU를 원시 접근 형태로 팔기보다는 TPU 서비스 형태로 파는 경향이 있어요. 그래야 스택을 통제하고 높은 활용도를 낼 수 있으니까요.
GPU는 다루기 더 쉽습니다. 소프트웨어 측면이 과소평가되고 있다고 생각합니다. Nvidia는 거기에 큰 해자와 방대한 커뮤니티 지원이 있습니다.
제 이해로는 구글의 AI는 꽤 오래됐지만 잘 설계된 TPU에서 학습·추론이 이뤄집니다.
한동안 문제는 AI 모델 개발에 여전히 유연성이 필요해 TPU 같은 맞춤 하드웨어가 그걸 수용하기 어렵다는 것이었죠.
이제 모델 아키텍처가 조금 더 예측 가능하게 안정되었으니, 하드웨어 쪽에서도 약간 더 특화가 진행되는 걸 보게 되어도 놀랍지 않을 것 같습니다.
예컨대 Blackwell 기반 데이터센터의 경제성이 성립하려면, ‘몇 가지 유용한 도구와 개선된 인터페이스’ 수준이 아니라 ‘경제 전체가 그 위에서 돌아갈 것’이라고 가정해야 합니다.
그리고 저는 여전히 우리가 진짜 가격을 내고 있지 않다고 확신합니다. 모두 시장 점유율을 잡으려 하고 있어서, 이게 자생적으로 유지돼야 할 때가 오면 가격은 올라갈 겁니다.
그 시점에서 어떤 사용 사례가 너무 비싸져서 탈락하고, 그게 적용 가능성을 줄이지 않을까요?
LLM은 … 스케일링도 벽에 부딪히는 것처럼 보이기 때문입니다
이 말을 누가 들어야 할지 모르겠지만, 우리가 AI에서 이룬 진짜 돌파구는 LLM이 아니라 생성형 AI입니다. LLM은 그중 특정 사례일 뿐이죠.
그리고 우리는 어떤 벽에도 전혀 부딪히지 않았습니다. 2024년 1월 모델 하나, 2025년 1월 모델 하나, 올해 모델 하나를 다운받아 비교해보세요. 얼마나 좋아졌는지 차이가 기하급수적입니다.
기하급수적
이게 (literally 다음으로) 두 번째로 남용되는 영어 단어인가요?
2024년 1월 모델 하나, 2025년 1월 모델 하나, 올해 모델 하나
데이터 포인트 3개로는 차이가 ‘기하급수적’인지, ‘이차함수적’인지 뭔지 구분할 수 없습니다.
그리고 제 경험은 전혀 그렇지 않습니다. Deepseek 이후로 소비자 하드웨어에서 돌릴 수 있는 모델이 크게 좋아졌다는 걸 못 느꼈습니다.
맞아요! 저도 한동안 이게 궁금했어요. 왜 다들 “자릿수(orders of magnitude)”라고 말하면 제가 당연히 10진법을 쓴다고 가정하죠?!
저는 인간의 100%가 대부분의 시간에 10진법을 쓴다고 주장하겠습니다. 아마 1~5%가 가끔 다른 체계를 쓰겠죠.
어쨌든, 사람은 10가지 유형이 있습니다. 이진수를 이해하는 사람과 이해하지 못하는 사람.
xkcd 169가 말하듯, 나쁘게 소통하고 오해받았다고 잘난 척하는 건 영리함이 아닙니다.
“orders of magnitude”는 대부분의 용례에서 10진법을 뜻합니다(확실한 데이터는 없지만, 10진법이라는 참고문헌은 많이 찾을 수 있고 다른 진법일 수 있다는 건 ‘가능성’ 정도로만 언급됩니다).
명시적으로 다른 의미라고 밝히지 않았다면, 사람들이 다른 의미로 받아들일 이유가 없습니다.
LLM 성능을 논할 때 서로 엇갈리는 대화가 많이 일어납니다.
보통 사람(전형적인 용도가 ‘ChatGPT에 달걀을 몇 분 삶아야 하냐고 묻는 것’)은 18개월 동안 개선을 못 봤다고 느낄 수 있습니다.
반면 로컬 모델 같은 걸 깊게 파는 사람이라면, 체감 개선이 과장 없이 거의 매달 일어나고 있습니다.
전형적인 용도가 ‘ChatGPT에 달걀을 몇 분 삶아야 하냐고 묻는 것’인 보통 사람은 18개월 동안 개선을 못 봤다고 느낄 수 있습니다
그건 사실이 아니라고 생각합니다. 제 어머니와 장모님은 4o로 되돌아가면 금방 불평할 겁니다.
변화가 점진적으로 느껴졌을 수는 있지만, 그건 기계가 뭘 해줄지에 대한 기대와 신뢰가 커졌기 때문이라고 봅니다.
그리고 “달걀 삶는 법”은 많은 걸 놓치고 있어요. 두 분 다 요즘은 온갖 일에서 ChatGPT를 구글 대신 쓰는데, 그중엔 쓰면 안 되는 것도 있습니다(예: “내일 시에서 쓰레기 수거하나요?”).
두 분 다 꽤 똑똑하지만 기술과는 거리가 멉니다.
모델을 다운받아라
원 댓글 작성자는 데이터센터에서 돌아가는 상업적 호스팅 LLM을 말하고 있었지, 무료 중국 모델을 말한 게 아닙니다.
로컬은 확실히 계속 좋아지고 있습니다. 그게 바로 ‘메가 데이터센터 모델(NVDA의 영원한 대형 라인업 계획)’이 금융적 재앙이 되거나, 혹은 사상 최대의 구제금융이 될 또 다른 이유죠.
5.2는 공학 질문이나 엔지니어가 할 법한 질문을 하면 훌륭합니다.
하지만 I-80 베이브리지(예르바부에나 섬) 터널이 세계 최대 굴착인지 같은 잡학을 묻기 시작하면, 3/o4 시대 모델보다도 심각하게 평범하고 오히려 더 나쁩니다.
음성 채팅 버튼에 연결된 모델은 말도 꺼내지 마세요.
다만, 물리적으로 정확한 러스트 비행 시뮬레이터를 한 번에 완벽하게 짜 주긴 합니다. 제가 증명했어요.
제가 말하고 싶은 건 Anthropic이 코딩에서 그들을 압도하고 있었고 OpenAI가 그 도전에 응답했지만, 엔지니어링 작업이 아니라면 지금 모델은 예전보다 더 나쁘다고 주장할 수도 있다는 겁니다.
엔지니어링 작업 외에도, 이건 광고 없는 답변 박스입니다. 교차검증하거나 검색 결과를 브라우징하는 걸 제외하면, 제게는 완전히 구글/검색 엔진을 대체했습니다.
저는 검색용으로 Kagi에도 돈을 내요.
지난 1년 동안 gmail과 지도만 제외하면 구글 생태계와 완전히 결별할 수 있었습니다.
제 인상으로는 소프트웨어 개발자가 AI에 실제로 돈을 내는 사람들의 대부분(사자의 몫)인 것 같은데, 그건 제 버블 세계관일지도 모르겠습니다.
OpenAI에 따르면 사용의 4.2% 정도라고 합니다. 다만 이 데이터는 Codex에 구독 지원이 추가되기 전 것이고, ChatGPT만을 대상으로 한 것으로 보입니다(당시엔 에이전트가 좋아지기 전이라 대부분 사람들이 코딩에 ChatGPT를 썼을 때죠).
https://i.imgur.com/0XG2CKE.jpeg
제가 대화한 임원들은, 자본지출(capex) 관련 질문 답변, 의사결정의 사운딩보드, 그리고 아마 가장 중요한 용도로 이메일의 톤/내용을 작성·수정하는 데 돈을 내고 있습니다.
특히 베이 에어리어에는 영어가 제2언어인 외국인 임원이 많고, LLM이 이메일 작성 시간을 절반으로 줄여줄 수 있습니다.
그건 믿겠지만, 저는 누가 실제로 돈을 내는지에 대해 말한 거였습니다. 제 추측으론 개인 생활에서 AI를 쓰는 대부분의 개인은 어떤 형태로든 무료 티어를 쓰고 있을 겁니다.
2024년 1월 모델 하나, 2025년 1월 모델 하나, 올해 모델 하나를 다운받아 비교해보세요.
저는 했습니다. 오래된 게 더 똑똑합니다. (대신 새 모델은 더 장황하긴 하죠. 그게 인상적이라면, 아마 국회의원들이 천재라고 생각하실 겁니다.)
동의합니다. 약간의 개선은 있었지만, 최근 릴리스는 대체로 벤치마크 과최적화된 아첨성(sycophantic) 헛소리로, 종이 위에서만 좋아 보이고 쓰기는 끔찍합니다.
합성 데이터를 더 넣을수록 모델의 세계 지식이 줄어들고 더 쓸모없어집니다. 그래도 이제 기본 계산기를 거의 흉내 내긴 하죠 /s
API 모델 기준으로, OpenAI의 릴리스는 꽤 오래 전부터 정기적으로 개선이 아니었습니다.
Sonnet 4.5가 3.5보다 더 낫나요? 그 모델이 학습된 거만한 에이전트 워크플로우 밖에서는 거의 구분이 안 됩니다. 가끔 같은 바보 같은 실수를 하거든요.
대규모 데이터센터에서 GPU를 관리하는 사람들과 나눈 대화를 바탕으로 하면, 추론은 부차적인 것 같습니다.
지금은 훈련 쪽에 골드러시가 있고, 거대한 클러스터는 거기에 쓰입니다. LLM은 현재 사용 중인 전체 GPU 컴퓨트 중 작은 비율일지도 모릅니다.
저는 앞으로 5년 내에(적어도 특수효과는) 완전한 헐리우드 영화가 AI로 완전히 생성되는 걸 보게 될 거라고 의심합니다.
헐리우드 스튜디오는 지금 숨이 넘어가기 직전입니다. 누구나 AI로 블록버스터급 영화를 만들 수 있게 될 거고, 헐리우드의 해자는 빠르게 무너지고 있습니다.
혹시… 비디오 생성기 써봤나요? 그들이 만드는 건 아무 말도 안 됩니다. 가짜 LSD 트립 시뮬레이터보다 한 단계 위 정도예요.
이런 것들의 문제는, 최신 모델조차도 “AI 느낌(AI look)”이 있다는 겁니다.
사람들은 짧은 광고에서도 이미 그 느낌에 질렸어요. 5분도 싫은데 2시간은 더더욱 싫겠죠.
품질이 시간이 지나며 엄청 좋아진 건 사실이지만, 그 “AI 느낌”을 제거하는 방향의 진전은 전혀 보지 못했습니다.
제 느낌으로는 “AI 느낌”의 정의가 모델이 발전하면서 진화해왔습니다.
예전엔 가장 이상한 꿈이나 LSD 트립에나 나올 법한 사이키델릭한 이상함을 의미했죠.
그다음엔 이상하게 흐릿하고, 외계 문자가 뒤틀리고, 손가락이 15개이며, 어떤 손가락은 다른 손가락의 두 번째 마디에서 튀어나오는 걸 의미했어요.
지금은 뭔가 이상하고 어긋나 있으며, 분명 눈에 띄지만 설명하기 어려운 느낌입니다. 예를 들어 007 ‘다이 어나더 데이’의 CGI 투명 자동차(3D 모델이 너무 단순해서 나쁜 유리 조각상처럼 보이고, 빛을 네모로 굴절시키는 것?)나 얼음 절벽(조명이 완전히 틀리고 색이 이상한 것 같음) 같은요.
그렇다면 이 모델들은 컴퓨터 그래픽/CGI가 같은 지점에 도달하는 데 걸린 시간보다 훨씬 짧은 시간에 훨씬 더 많은 구간을 커버한 셈입니다.
누구나 차세대 위대한 소설을 쓸 수 있는 능력은 예전부터 있었지만, 성공하는 사람은 드뭅니다.
서점 책장에는 최근의 아주 좋은 소설들이 많습니다. 확실히 영화보다 자릿수(orders of magnitude)로 더 많죠.
또 비교할 건 내러티브 품질입니다. 저는 평범한 책이라도 평균적으로 블록버스터 영화보다 훨씬 높은 품질이라고 느낍니다. 아니, 보통의 각본이라고 불리는 것들이 얼마나 끔찍한지에 계속 충격을 받죠.
제작비가 너무 비싸서 더 넓은 대중에게 어필해야 하기 때문이라고 추측하지만, 이유를 안다고 결과가 나아지진 않죠.
그래서 만약 우리가 여기서 얻는 게 제작비 1000배 절감뿐이고 그게 미디어 양을 100배 늘린다면, 소비자 입장에선 엄청난 승리일 거라 생각합니다.
새 모델을 학습시키려고 그렇게 돈을 쓰고는 오픈소스로 풀어버리는 게 정말 이상합니다. 골드러시지만 금은 nvidia가 다 가져가네요.
하지만 업계의 재무는 지금 전혀 맞아떨어지지 않습니다
업계 전체의 재무인가요, 아니면 Anthropic과 OpenAI의 재무인가요?
OpenRouter의 오픈 모델 제공자 목록을 보면, 그들 전부가 돈을 잃고 있다고는 믿기 어렵습니다.
참고로 Anthropic은(기억이 맞다면) 추론에서는 돈을 잃지 않는다고 주장합니다. 그래서 업계 전체나 ‘추론 판매’ 모델 자체가 위험하다고 보진 않습니다.
저는 오히려 Anthropic과 OpenAI가 막대한 돈을 들여 독점 모델을 만드는 비즈니스 모델에 더 회의적입니다. 최신 Claude와 GPT는 정말 정말 좋지만, 경쟁자 대비 그 지출을 정당화할 만큼 충분히 더 좋지는 않습니다.
이 시점에서 누가 시장을 “승자독식”할 것 같지도 않습니다.
Anthropic이나 OpenAI가 독립적으로 생존할 수 있는지, 혹은 현재 소유자들이 엄청난 손실 없이 버틸 수 있는지 잘 모르겠어요. Sam Altman이 오라클을 역합병한다든가 하는 미친 짓을 하지 않는 한요.
편집: 그리고 Musk가 해자가 얼마나 얕은지도 보여준 것 같습니다. 충분한 현금과 뛰어난 엔지니어 접근권만 있으면, 아무리 인간성이 별로라도 최전선급 모델을 마치 무에서 마법처럼 만들어낼 수 있죠.
로컬 LLM 커뮤니티가 따라잡는 걸 보면 해자가 없다는 게 꽤 분명해졌습니다.
모두가 그저 이 멋진 자료구조가 어떻게 그렇게 강력한 ‘발현적 행동’을 만들어내는지 겨우 이해해가는 중이고, 아직 진정한 비밀 소스(secret sauce)는 없습니다.
로컬 LLM 커뮤니티가 따라잡는 걸 보면 해자가 없다는 게 꽤 분명해졌습니다.
그들은 중국 오픈 LLM을 쓰지만, 중국 회사들에겐 해자가 있습니다: 학습 데이터셋과 일부 비오픈소스 기술, 그리고 급여를 받는 인재들이죠. 오늘 경쟁력 있는 최전선 모델을 부트스트랩하려면 진지한 투자금이 필요합니다.
저는 여기엔 약간의 비밀 소스가 _있다_고 보지만, 그게 프로프-AI 회사들의 밸류에이션을 정당화할 만큼 충분하냐가 문제고, 그럴 가능성은 낮아 보입니다.
저는 지금의 아키텍처로는 Nvidia가 벽에 부딪혔다고 생각합니다
구글은 2015년에 TPU를 발표했습니다. NVIDIA는 2018년에 Tensor Core를 도입했죠. 둘 다 시스토릭 어레이(systolic array)를 활용합니다.
그리고 지난달 NVIDIA는 Groq를 (사실상) 인수했는데, 창업자이자 오리지널 TPU 인력도 포함되어 있습니다.
Groq의 LPU는 추론에서 훨씬 더 효율적입니다.
또한 Groq는 전부 미국에서 만들고, 구형 노드를 활용하는 매우 다양한 공급망을 갖고 있다는 점도 주목할 만합니다.
NVIDIA 아키텍처는 충분히 괜찮습니다. 그들은 자금력이 있고 기술 리더십도 강합니다.
그들의 약점은 고객 쪽(에너지 부족)과, TSMC 및 메모리 카르텔에 대한 의존성에 더 있습니다.
과소평가된 인수입니다. NVIDIA에 추론 특화 하드웨어 라인업 전체를 제공해주고, 기억이 맞다면 냉각 업그레이드 없이 기존 공랭 데이터센터에 레트로핏할 수도 있습니다.
순수 추론에만 집중한 저전력·고효율(달러/와트 및 와트/토큰) 경쟁에 대한 훌륭한 헤지입니다.
그리고 Groq는 SRAM을 쓰니까 메모리 카르텔에 대한 헤지도 됩니다. 또한 대만이 봉쇄된다든지 하는 경우에 대한 합리적인 헤지이기도 하고요.
저는 지금의 아키텍처로는 Nvidia가 벽에 부딪혔다고 생각합니다
TSMC에 큰 폭의 개선이 있는 새 공정이 있으니 그럴 가능성은 낮습니다.
인텔 이야기
그건 설계가 아니라 팹이 못 따라간 게 컸죠.
인텔의 원래 10nm 공정과 Cannon Lake가 2016/17년이라는 원래 일정대로 출시됐다면 업계 최고였을 겁니다.
하지만 10nm를 제대로 만들지 못해서 2018년에 거의 절반 다이를 비활성화한 저전력 SKU 하나를 내놓는 데 그쳤고, 2014~2021년 내내 14nm에 머물렀죠.
고마워요. 이건 제가 AI 경제성에 대해 느꼈던 불편함을 말로 잘 정리해줬습니다.
스펙 봤나요? 소비자용 RTX 5090이 Furiosa RNGD Gen 2보다 빠르고 더 쌉니다. 더 나쁜 성능인데 5배 비싼 걸 사는 건 미친 짓이죠.
LLM이 이익이 나든 말든 무슨 상관이죠… 저는 그냥 DDR5를 팔·다리값 내지 않고 사고 싶고 전기요금도 그렇게 비싸지 않았으면 좋겠어요!
추론 경제성을 완전히 망가뜨릴 겁니다
이 시점에서는 그들도 대충 계산(봉투 뒷면 계산)조차 안 하는 것 같아요. 투자자들이 속아서 줄 수 있는 돈만큼을 컴퓨트에 쓸 겁니다. IPO 때까지 살아남기만 하면 되니까요!
실질적 경쟁이 없으면, Nvidia는 16배 빠른 걸 한 번에 내놓을 유인이 거의 없습니다. 2배 빠른 걸 네 번 내놓아도 되니까요.
하지만 업계의 재무는 지금 전혀 맞아떨어지지 않습니다.
인수는 맞아떨어집니다. Groq 기억하나요?
그건 좋은 예가 아닐 수도 있어요. 다들 Groq가 200억 달러 가치가 아니라는 얘기를 하니까요.
그들은 3개월 전에 69억 달러 밸류에이션이었는데, Nvidia가 200억 달러에 샀습니다. 3배죠. 그 숫자는 공중에서 뚝 떨어진 것처럼 보입니다.
일반적으로 말하면, 인수가격이 밸류에이션보다 프리미엄이 붙는 건 자연스럽습니다. 경영진이 “계속 성장하는 것보다 인수되는 게 낫다”고 설득해야 하는 역학도 있고, 경쟁자로서의 위협에 대한 기대 위험도 있으니까요. 대부분의 M&A는 가치투자자가 하는 게 아닙니다.
벤치마크 플롯에 Llama 3.1 8b가 언급되는 걸 보면, 그 모델을 위해 핸드-구현한 것처럼 보이고, 더 새롭거나 더 큰 모델은 못 돌릴 가능성이 큽니다.
왜 그렇게 구형 모델을 벤치마크하죠? gpt-oss-120b 같은 더 비슷한 걸로 벤치마크를 보여주세요.
많은 사람들은 알고 있지만, 그 하드웨어에 올릴 수가 없죠.
8B 모델은 RTX 같은 로컬 추론과 비교하기 쉬워서요. RTX 5080에서 llama가 40t/s라면 Furiosa는 40,000t/s든 뭐든 할 수 있을 거고… llama.cpp가 돌아가는 다양한 하드웨어 간에 평평한 비교를 하기가 쉽습니다.
우리는 gpt-oss-120b를 RNGD 칩 두 개에서 실행하는 걸 시연했고 [중략] 출력 토큰당 5.8ms를 달성했습니다
그건 칩당 초당 86 토큰입니다.
비교하면 H100은 GPU당 초당 2390 토큰을 합니다.
제가 뭔가를 잘못 비교하고 있는 건가요?
[1] https://inferencemax.semianalysis.com/
동시성이 얼마인지 모르니 지연시간의 역수를 처리량으로 바꿀 수는 없습니다. 그리고 RNGD 결과는 아마 동시성=1일 겁니다.
저는 그들이 성능이 아니라 효율, 즉 와트당 토큰을 말하는 줄 알았습니다. 그 지표에서 직접 비교는 못 봤는데 제가 잘 못 본 걸 수도 있겠네요.
아마 그럴 겁니다. 기업들은 성능에서 진다는 걸 알면 효율로 팔죠.
효율적인 칩이 있다면 더 많이 붙이면 결국 이길 수 있습니다. 이건 단일 코어 성능이 중요한 CPU가 아니잖아요.
음, 반대편에 사람이 있다면 단일 스트림 성능이 그 사람에게는 중요할 겁니다.
맞지만, 데이터센터는 전기비로도 굴러가니까 의미 없는 얘기는 아닙니다.
여전히 ‘핸드 구현된 매우 제한된 모델 범위’라는 점을 보여주는 것 같긴 하지만, 적어도 제가 실제로 쓸 만한 모델입니다.
표준 데이터센터에 일반 전원 공급으로 넣을 수 있는 박스 형태로 준다면 저는 확실히 관심이 있습니다. 다만 가격이 궁금하네요 :-)
많은 사람들이 거대한 LLM 모델만을 좇는 건, AI 응용의 아주 좁은(하지만 매우 수익성 높은) 하위 영역에만 초점을 맞춘 결과로 보입니다. 그건 실수입니다.
Nvidia GPU와 어떻게 다른지 궁금해하는 분들을 위해:
Nvidia = 유연한 범용 GPU로, 훈련과 혼합 워크로드에 강함.
Furiosa = 추론에 목적 특화된 ASIC으로, 유연성을 희생하는 대신 더 나은 비용/전력 효율과 대규모에서 예측 가능한 지연시간을 제공.
저는 단순한 원시 성능보다 효율에 집중하는 게 정말 멋지다고 생각합니다!
카드 페이지는 더 자세한 내용과 꽤 괜찮은 그래프도 있습니다: https://furiosa.ai/rngd
RNGD가 H100 SXM 카드 구성보다 느릴 수 있다는 걸 인정하지만, 동시에 와트당 초당 토큰이 훨씬 좋다는 걸 볼 수 있어요.
한편 이게 Cerebras 칩과 얼마나 다른지 궁금하네요. Cerebras는 속도에 매우 최적화되어 있고, 그럼 효율도 꽤 큰 영향을 받을 것 같거든요: https://www.cerebras.ai/
8장짜리 풀 서버 시스템도 현대의 큰 오픈 모델을 돌리기엔 RAM이 간신히 충분할 정도입니다.
그리고 사용자 요청을 배치로 묶으면 메모리도 꽤 먹죠.
이 머신과 카드가 시장에서 어떻게 받아들여질지 궁금합니다.
정말 이상한 그래프네요. 3x H100 PCI-E와 비교하고 있는데, 그런 구성은 아무도 안 쓰는 것 같습니다.
동전력(iso-power) 비교를 하려는 건가요?
저는 그들의 박스 vs 8x H100 박스를 보고 싶어요. 그게 사람들이 실제로 살 거니까요. 그리고 그게 피치라면 토큰과 와트를 나눠 보여주면 됩니다.
동전력(iso-power) 비교를 하려는 건가요?
네, 그들은 “랙”을 15kW로 정의하고 있습니다. 그런데 3x H100 PCIe는 1kW를 조금 넘는 정도죠.
즉 GPU가 랙 전력 사용의 10% 미만이라고 가정하는데, 그건 수상할 정도로 낮아 보입니다.
만약 이게 3x H100 박스 가격 정도라면, 고객들이 현재 사는 것과 직접 비교는 아니더라도 공정한 비교일 수 있습니다.
박스당 GPU 8개. 이건 지난 8년 정도 데이터센터 표준이었습니다.
게다가 보통 박스 내부에서 NVLink로 연결됩니다(PCIe 카드 대신 SXM이지만 물리 데이터 링크는 여전히 PCIe입니다).
이게 중요한 이유는, 딸보드가 PCIe 스위치를 제공해서 NVMe 드라이브, NIC, GPU를 함께 연결하며, 그 하위 서브컴플렉스 안에서 PCIe 오버서브스크립션이 없도록 만들기 때문입니다.
작년부터 많은 제공자에서 표준은 GB200이라고 주장하겠습니다.
흥미롭네요! 그러면 각 GPU가 디스크와 NIC와 짝지어져서 그 ‘슬라이스’ 안에서는 대역폭 오버서브스크립션이 없도록 하는 건가요? (용어가 뭔지 모르겠네요)
그리고 이런 8개 슬라이스가 NVLink로 호스트에 연결되나요?
이 정도 규모에서는 데이터가 올바른 드라이브에 있거나 올바른 NIC를 통해 흐르도록 하는(소프트웨어) 오케스트레이션도 있을 것 같네요. 이런 스케일의 복잡성은 생각해본 적이 없었습니다.
GB200을 찾아보니 Nvidia가 DIY PC를 조립하라고 하기보다 유닛 형태로 파는 게 멋지네요.
보통 2-2-2(2 GPU, 2 NIC, 2 NVMe 드라이브가 하나의 PCIe 컴플렉스)에요.
여기엔 NVLink가 아니라 그냥 PCIe입니다. 이 PCIe 스위치 칩 아래에서는 풀 대역폭이지만, 위로 올라가면 보통 제한된 대역폭이죠.
그래서 예를 들어 GPU-to-GPU를 PCIe로 하면 GPU -> PCIe 스위치 -> PCIe 스위치(대개 CPU, 제한된 BW) -> PCIe 스위치 -> GPU 같은 경로를 걷습니다.
NVLink는 GPU 간에 별도의 두 번째 링크로 등장합니다: GPU-to-GPU가 필요하면 NVLink를 쓸 수 있습니다.
DIY 할 필요는 원래 없었습니다(적어도 지난 10년간). 대부분의 하드웨어 벤더(Supermicro, Dell 등)가 8 GPU 완제품 시스템을 팝니다.
GH200/GBx00/VR 시스템의 좋은 점은 CPU와 GPU 사이에 칩-투-칩 NVLink를 쓸 수 있어서, CPU가 GPU 메모리에 코히어런트하게 접근할 수 있고 그 반대도 가능하다는 겁니다.
왜 거의 항상 안 되냐면 다음 중 하나입니다:
이걸 극복하는 방법은 영리함과 복잡성(캐시라인, 더 똑똑한 알고리즘, 가속 구조 등)이지만, 이런 것들은 코히어런트 캐시 계층, 분기, 동기화 로직 등 복잡한 컴퓨터가 필요합니다.
그래서 NVIDIA 같은 회사는 계속해서 수많은 ‘파괴자’의 공세 속에서도 살아남는 겁니다.
사실 이건 점점 더 사실이 됩니다. 메모리 대역폭은 칩 가장자리의 트랜시버에 의존하고, 칩 크기가 늘지 않으면 공정 노드가 바뀐다고 자동으로 대역폭이 늘진 않아요.
지연시간은 전혀 개선되지 않습니다.
하지만 트랜지스터는 늘어나니, 그걸 더 영리하게 워크로드를 처리하는 데 쓸 수 있죠.
저는 CPU 기반 대규모 병렬 컴퓨트가 다시 돌아올 가능성도 배제하지 않습니다.
프로그래밍하기 어렵지만 더 빠른 아키텍처가 개발자들에 의해 결국 해결될 거라 가정합니다. 안 됩니다.
아니면, 최대 성능을 쥐어짜기 위해 정말 어려운 걸 해결할 의지가 있는 틈새 분야(사모펀드, 헤지펀드, 정보기관)에서는 해결될 수도 있죠.
어쨌든 동의합니다. 소프트웨어 생태계가 피드백을 주지 않으면 대중 채택을 얻기 어렵습니다.
TSMC 입장에선 Nvidia 경쟁자들에게 우선 테이프아웃을 제공하는 게 당연히 이익일 것 같네요. 고객 기반이 덜 집중되면, 가격도 더 경쟁적으로 올라갈 테니까요.
현재 모든 지표는, 미래 LLM의 주된 비용 동인이 추론이 될 거라고 가리키고 있습니다.
테스트 타임 컴퓨트(test-time compute)는 추론에서 엄청난 토큰을 요구하고, 최전선 모델을 서비스로 제공하는 걸 비수익적으로 만듭니다.
어떤 수출 제한도 없는 곳에서는 최전선 모델을 훈련시킬 GPU를 긁어모으는 건 누구나 할 수 있습니다(수출 제한이 있는 DeepSeek조차도 했으니까요). 하지만 OpenAI 등과 경쟁할 수 있는 서비스를 제공하는 건 꽤 비쌀 겁니다.
그러니 추론에서 3배 개선은 결코 하찮지 않습니다.
제가 10년 전 반도체 제조에 발을 담갔을 때의 최선의 추측은, 화산 아래 동굴에 사는 수수께끼의 구루가 누가 어떤 노드를 어떤 가격에 쓰는지 결정한다는 것입니다.
WebGL이 활성화되어 있지 않아서 텍스트 기반 블로그 글을 단어 하나도 읽을 수 없는 게, 제가 이상한 건가요?
당신은 타깃 고객이 아닙니다. 전형적인 투자자/C-suite 노트북과 폰(신형 iPhone/MacBook의 “기본” Safari, 기업 환경에서는 Chrome이 깔린 저주받은 Windows 설정 같은 것)에서 돌아가면 OK인 거죠.
그리고 반짝이(글리터)는 최대치로 해야죠, 2020년대니까요.
보안 위생(infosec) 이유로 WebGL을 꺼 둔 iPhone 17 Pro 사용자들도 압니다 :) 아마 이 사이트가 LLM에 의해 스크랩되는 걸 원치 않는 걸 수도 있는데, 아이러니하네요.
저는 Firefox에서 ‘리더 보기’를 켜니까 해결됐습니다. 그들이 비합리적인 게 아니라 버그일 수도 있어요.
공랭 데이터센터에서 추론의 전력·냉각·TCO 한계를 겨냥하는 건 현실적입니다. 하지만 공개된 벤치마크는 좁고, 이것이 다양한 모델과 혼합된 실서비스 워크로드로 얼마나 일반화되는지 불분명합니다.
GPU는 여기서는 비효율적이지만, 유연성이 여전히 중요합니다.
“2024년에 전 세계 데이터센터 수요가 60GW”라고 언급하네요.
또 최신 세대 NVDA 칩 언급이 없습니다.
“RNGD 서버 5대가 15kW에서 단일 H100 SXM 1개보다 3.5배 속도로 토큰을 생성한다”라고 하는데, 벤치마크를 3대의 H100 PCIe 서버로 바꾸면 1.5배로 줄어듭니다.
가장 중요한 정보, 가격과 납기(얼마나 빨리 배송 가능한지)가 빠졌네요.
그들이 실제로 납품할 수 있고 NVidia의 시장점유율을 조금이라도 가져갈 수 있다면 저는 기쁠 겁니다.
평균적인 비-AI 조직에게 실무적으로 얼마나 쓸만한가요?
제공 가능한 모델 선택지를 제한하는 니치 생태계에 잠기는 건가요?
네, 하지만 원칙적으로는 Trainium이나 Inferentia에서 돌리는 것과 크게 다르지 않습니다(정도의 문제죠). 그리고 많은 비-AI 조직이 Trainium/Inferentia를 채택했습니다.
제 iPhone15에서는 WebGL을 초기화하지 못해서 에러가 나고 내용이 안 보입니다.
왜 사람들은 아직도 이런 기능에 의존하는 콘텐츠를 링크하나요? 간단한 HTML/CSS는 요즘 어디로 갔죠?
편집: 댓글과 로드되는 한 페이지를 보면, 이건 2024년에 발표한 5nm 기술이고 그래서 H100과 비교하는 것 같습니다. GB300이 있는 지금 시점에서는 구식으로 느껴지네요.
100% 동의. 여긴 토론하는 곳이기도 하고, 댓글 섹션이 보통 글 자체보다 가치가 최고입니다.
2026년 1월 인콰이어리와 주문을 받고 있습니다.
그래서 관련성이 있는 걸지도요.
Meta의 8억 달러 제안을 거절했다는데, 뭐에 취한 거죠?
스펙을 봤는데 RTX 5090과 비교해서 Furiosa RNGD Gen 2 카드가 특별할 게 없습니다. SRAM이 더 많긴 하지만 치명적인 차이는 아니죠.
전력도 마찬가지입니다. 데이터센터는 전력에 대한 인센티브가 있긴 하죠.
만약 RNGD Gen 2 카드가 1장에 1만 달러이고 RTX 5090은 2천 달러인데, RTX 5090이 LLM에서 더 좋은 성능이라면, Furiosa로 데이터센터를 채우는 건 미친 짓이거나 Nvidia에 개인적 원한이 있거나, 그냥 이유 없이 돈을 태우고 싶은 겁니다.
그 회사 가치는 줄어들 거고 다음 오퍼는 15억 달러를 넘지 못할 겁니다. 사실 매년 Nvidia, Intel, 다른 AI 하드웨어 스타트업이 더 낫고 더 빠른 카드를 내놓으니, 8억 달러보다도 낮아질 겁니다.
Furiosa 카드가 기적적으로 Nvidia와 비슷한 하드웨어보다 더 싸진다면 Furiosa는 2억 5천만 달러 정도 가치일 수도 있겠죠.
하지만 최첨단 리소그래피로 AI 연산을 만드는 건 엄청 비싸고 정치도 많이 얽혀 있으니, 그런 일이 일어날 거라 보긴 어렵습니다.
소비자 RTX나 프로 카드에도 가져올 수 있나요?
(글을 읽고 나서요 :))
FuriosaAI의 NXT RNGD 서버의 개선은 주로 소프트웨어나 코드 변경이 아니라 하드웨어 혁신에 의해 추진됩니다.
서버는 멋져 보이지만, 네트워킹은 데이터센터에 충분하지 않아 보입니다.
이게 어떻게 가능한 거죠? “듀얼 AMD EPYC 프로세서”로 AI를 한다고요.
LLM을 훈련시키는 데 필요한 행렬 곱셈은 GPU 같은 게 필요하다고 생각했는데요? 그 통념이 틀렸나요?