sipki.online
// доклад · AI Conf 2026

Не NVIDIA единой,
или как строить
архитектуру железа
для LLM-продукта

Эдгар Сипки // Sipki Tech && EasyP

// speaker.bio

Кто я?

@zergslaw
  • Founder в EasyP и Sipki Tech
  • Запустил >7 стартапов, оптимизирую затраты на железо и инфру
  • Ментор по Go, gRPC и LLM-агентам
  • Автор «Алло, Ада» — научно-популярный YouTube-канал
  • Спикер HighLoad++, GolangConf, AI Conf, OSDEVCONF
// agenda

О чем поговорим?

  • Memory wall и причём тут Nvidia?
  • Cerebras
  • Groq
  • Apple
  • Выводы (?)
// scissors.svg · COMPUTE × BANDWIDTH

Ножницы: compute растёт быстрее памяти

A100 · 2020H100 · 2022B200 · 202414×relative growth (×)COMPUTE · 14×BANDWIDTH · 4×↓ growing memory wall ↓
// memory_wall.diag

Memory wall

GPUcompute4500TFLOPSHBMVRAM · 80 GB3TB/sWALLcompute >> bandwidth · 85 % времени GPU простаивает
// H100 × Llama 70B

H100 запускает Llama 70B

peak compute
4500 TFLOPS
actually used
≈400 TFLOPS
разрыв 11× · 85% времени GPU ждёт память
85%idle / waiting RAM15% · работа
// llama-70b @ h100

Llama 70B на H100

85 / 15idle · работа
  • Параметров в 10× больше, чем влезает в SRAM
  • KV-cache на длинном контексте съедает ~10 ГБ
  • На каждый токен — целый прогон весов через шину
  • Шина не успевает — compute простаивает
// llm.execution_phases

PREFILL vs DECODE

compute-bound · GPU горит
PREFILL
  • матрица × матрица
  • FLOPs/byte → высокое
  • compute даёт результат
memory-bound · GPU ждёт
DECODE
  • вектор × матрица
  • один токен за шаг
  • всё упирается в HBM
// batching.txt

Батчинг!

1
  • один запрос — один прогон весов
  • веса грузятся ради одного токена
  • arithmetic intensity = низкая
  • GPU undeployed
64
  • один прогон весов — 64 токена
  • FLOPs/byte растёт в десятки раз
  • compute начинает работать
  • throughput взлетает
// gpu_util(batch_size)

Батчинг! · GPU utilization

141664256batch size0%25%50%75%100%GPU utilizationknee · батч 64
// arithmetic_intensity

Почему батчинг помогает

vector × matrix
×
≈ 2 FLOPs/byte
memory-bound
matrix × matrix
×
≈ 128 FLOPs/byte
compute-bound
// cuda.lock_in

Почему не слезть с CUDA?

  • 2006 — NVIDIA выпустила CUDA
  • 500K+ моделей и open-source ядер заточены под неё
  • PyTorch / JAX / TensorRT всё равно компилируются в CUDA
  • Вокруг CUDA выросла экосистема инструментов — переписать дороже, чем купить H100
// cuda · 20 years compounding

CUDA — 20 лет компаундинга

CUDA · v12006AlexNet2012PyTorch / TF2017LLM era · HF2023B200 / B3002026
PyTorch ◾ HuggingFace ◾ TensorRT ◾ Triton ◾ vLLM ◾ FlashAttention
// patches.list

Пластыри NVIDIA

TensorRT-LLM
compile-time fusion и kernel-кешинг
FlashAttention
переиспользует SRAM, реже идёт в HBM
FP8 / FP4
квантизация — меньше байт по шине

→ борются со следствием, а не с причиной

// metrics.txt

Какие метрики реально считать

смотреть на это
  • tok/s на батч
  • memory bandwidth
  • capacity модели · KV-cache
не вестись на это
  • TOPS из datasheet
  • peak TFLOPS
  • теоретические числа маркетинга
// agenda · checkpoint

О чем поговорим?

  • Memory wall и причём тут Nvidia?
  • Cerebras
  • Groq
  • Apple
  • Выводы (?)
// chip.lithography

А как вообще делают чипы?

  • Литограф ASML EUV — машина за ~$200M
  • Засветка пластины 300мм, слой за слоем
  • Один транзистор = единицы нанометров
  • Одна пылинка → дефект → брак
EUV · 13.5nmwafer · 300 mm
// wafer.dies

Пластина → дайсы → чипы

scribe line · резка по сетке
  • Пластину режут вдоль scribe line
  • Каждый прямоугольник — будущий чип
  • Чем больше дайса, тем больше шанс брака
  • Цена на чип растёт нелинейно
// wafer.yield

Yield: брак — это норма

  • OK · ~70 %
  • нестабильный · ~18 %
  • brick · ~12 %
  • Ровно поэтому чем меньше чип — тем дешевле
// cerebras · idea

А что если не пилить?

// option 1
Традиционно
~140 чипов с пластины
// option 2
NVIDIA H100
~36 крупных дайсов
// option 3
Cerebras
1 чип · 46 225 mm² · 900K cores
// cerebras.systems

Cerebras WSE-3

  • Вся пластина = один чип
  • Память живёт рядом с компьютом (L1 SRAM на каждом ядре)
  • Двумерная mesh-сеть между ядрами
  • Программная модель — поток через mesh
// WSE-3 · datasheet

WSE-3 в цифрах

4 трлн
транзисторов
900 K
ядер AI
44 ГБ
on-chip SRAM
21 ПБ/с
aggregate bw

// для сравнения: H100 = 80 ГБ HBM @ 3 ТБ/с

// inside.core

Внутри одного из 900K ядер

SRAM48 KBcomputeFMAC unitrouter4 соседа · 2D mesh5×5 mesh
// sram_vs_hbm

SRAM рядом vs HBM через CoWoS

top · Cerebras
computeSRAM≈ 1 cycle latency
bottom · NVIDIA H100 (CoWoS interposer)
computesilicon interposer · CoWoSHBM≈ десятки циклов
// memoryX · 1.5 PB

А как же memory wall?

  • MemoryX — внешний пул на 1.5 ПБ
  • Double-buffering: пока считается слой N, грузится слой N+1
  • Веса не лежат в SRAM — они через неё проходят
  • Wall есть, но он спрятан в пайплайне
MemoryX1.5 ПБWSE-344 ГБ SRAMlayer Nlayer N+1
// cerebras.cons

Почему не Cerebras везде?

  • Цена одного CS-3: $2-3 млн
  • Жидкостное охлаждение и спец-стойка
  • Тулчейн пока не догнал PyTorch
  • Поддерживается ограниченный список архитектур
  • Сильно лучше на очень крупных моделях
// agenda · checkpoint

О чем поговорим?

  • Memory wall и причём тут Nvidia?
  • Cerebras
  • Groq
  • Apple
  • Выводы (?)
// groq.lpu

Groq · LPU

  • Делают один токен за один такт
  • Никакой HBM — только on-chip SRAM
  • Компилятор раскладывает граф во времени
  • Детерминированный latency
SRAMVXMMXMSXMfabric
// groq · datasheet

Groq LPU в цифрах

230 МиБ
on-chip SRAM
750 TOPS
INT8 compute
80 ТБ/с
memory bw
725 mm²
die size

// bandwidth выше H100 в 25× при сопоставимой площади

// pipeline · 1 cycle = 1 step

Один такт → один шаг

loadnormalizematmulroutematmulactivatestorecompiler-scheduled · детерминированный пайплайн
// gpu_vs_groq

GPU vs Groq

NVIDIA · iterative
SM + L2HBMкаждый токен — round-trip
Groq · streaming
SRAMVXMMXMSXMMXMVXMSRAM
// determinism

Убрали планировщик — убрали джиттер

NVIDIA · runtime scheduler
tail latency · jitter
Groq · compile-time
flat · детерминированно
// groq.cluster

Сборка кластера Groq

1
LPU
8
плата
72
стойка
576
кластер · Llama 70B
// groq · ceiling

Потолок Groq · Dragonfly

Tier 1 · 1 стойка1 hop · детерминизм · sweet spotTier 2 · 10+ стоек3 hops · adaptive routing · latency ×3Tier 3 · 100+ стоек5-6 hops · fabric съедает преимущество
  • Dragonfly topology — 3 hops от любой ноды до любой
  • 1 hop = native fabric, дальше adaptive routing
  • На сотнях стоек физика сети съедает latency-преимущество
  • Groq оптимален в одной стойке
// rumour · CNBC 2026

Сделка NVIDIA ↔ Groq

groq
~$20 млрд активов
NVIDIA
экосистема + capex
// groq · summary

So?

  • Memory wall не пробили, но отодвинули
  • CNBC сообщали о сделке NVIDIA по активам Groq на ~$20 млрд
  • Построить экосистему оказалось сложнее, чем чип
// agenda · checkpoint

О чем поговорим?

  • Memory wall и причём тут Nvidia?
  • Cerebras
  • Groq
  • Apple
  • Выводы (?)
// apple.silicon

Apple Silicon

  • Всё на одной подложке
  • Нет отдельной памяти под GPU
  • Приватная инфраструктура — внутри MacOS
  • Зачем тебе HBM, если есть LPDDR5X?
  • Дешёвая!
// apple · UMA

Apple Silicon — один кристалл, одна память

SoC · M3 Max · TSMC N3BP-cores · 8E-cores · 4GPU · 40 coresNeural Engine · 16Media / ISP / Secure EnclaveFabric · ~400 ГБ/сLPDDR5XLPDDR5XLPDDR5XLPDDR5X

один кремний · один пул памяти · все блоки читают напрямую (zero-copy)

// llama-70b · desktop

Llama 70B на десктопе

  • Инференс в вашем контуре
  • В разы дешевле облака
  • Можно загнать модель целиком в RAM
  • Идеально для небольших команд
Mac Studio · M3 Ultra32-core CPU · 80-core GPU · 512 ГБ UMA819 ГБ/с · 512 ГБ unified
// data path

Путь данных: dGPU vs Apple UMA

Traditional dGPU · NVIDIA RTX/H100 — два адресных пространства
SSDCPU + DDR5PCIeGPU + VRAM (HBM)2 spaces · explicit copy
Apple Silicon UMA — одно адресное пространство · zero-copy
SSDCPUGPUNEUnified LPDDR5X · ~400 ГБ/с1 space · zero-copy
// bench · tok/s

Бенчи: Llama 70B / DeepSeek V3 671B

Dense · Llama 70B
M3 Max 128 GB
8 tok/s
M3 Ultra 512 GB
16 tok/s
H100 80 GB · vLLM
120 tok/s

MoE · DeepSeek V3 671B
M3 Ultra 512 GB
>20 tok/s
RTX 4090 / 5090
×
не запускается
H100 80 GB · single
×
нужен 8× кластер
// ARM · server CPU share

Доля ARM в server CPU (%)

0102030402020202120222023202420252026AWS Graviton rampAmpere + cloud ARM CPUsNVIDIA Grace-Blackwell rolloutVera CPU launch (forecast)
// apple · summary

Apple silicon · итог

  • Memory wall — отодвинули
  • Производительность не самая высокая
  • Идеально для self-hosted — OpenClaw!
  • Можно собрать кластер из Mac Studio
// agenda · checkpoint

О чем поговорим?

  • Memory wall и причём тут Nvidia?
  • Cerebras
  • Groq
  • Apple
  • Выводы (?)

Выводы

  • Memory wall никто не сломал, лишь отодвинули
  • Узкое место — не compute
  • Экосистему сложнее построить, чем чип
  • Экосистема CUDA NVIDIA не сдвинулась
// links

Где попробовать NVIDIA B300

H3llo Cloud
h3llo.cloud
Cloud4Y
cloud4y.ru
// channel

Мой канал :-)

// feedback

Буду рад
отзыву

Эдгар Сипки // @zergslaw