sipki.online// доклад · AI Conf 2026Не NVIDIA единой,
// agenda // scissors.svg · COMPUTE × BANDWIDTH // memory_wall.diag // H100 × Llama 70B // llama-70b @ h100 // llm.execution_phases // batching.txt // gpu_util(batch_size) // arithmetic_intensity // cuda.lock_in // cuda · 20 years compounding // patches.list // metrics.txt // agenda · checkpoint // chip.lithography // wafer.dies // wafer.yield // cerebras · idea // cerebras.systems // WSE-3 · datasheet // inside.core // sram_vs_hbm // memoryX · 1.5 PB // cerebras.cons // agenda · checkpoint // groq.lpu // groq · datasheet // pipeline · 1 cycle = 1 step // gpu_vs_groq // determinism // groq.cluster // groq · ceiling // rumour · CNBC 2026 // groq · summary // agenda · checkpoint // apple.silicon // apple · UMA // llama-70b · desktop // data path // bench · tok/s
// ARM · server CPU share // apple · summary // agenda · checkpoint // links // channel
Не NVIDIA единой,
или как строить
архитектуру железа
для LLM-продукта
Эдгар Сипки // Sipki Tech && EasyP
// speaker.bio
Кто я?
@zergslaw
- Founder в EasyP и Sipki Tech
- Запустил >7 стартапов, оптимизирую затраты на железо и инфру
- Ментор по Go, gRPC и LLM-агентам
- Автор «Алло, Ада» — научно-популярный YouTube-канал
- Спикер HighLoad++, GolangConf, AI Conf, OSDEVCONF
О чем поговорим?
- Memory wall и причём тут Nvidia?
- Cerebras
- Groq
- Apple
- Выводы (?)
Ножницы: compute растёт быстрее памяти
Memory wall
H100 запускает Llama 70B
peak compute
4500 TFLOPS
actually used
≈400 TFLOPS
разрыв 11× · 85% времени GPU ждёт память
Llama 70B на H100
- Параметров в 10× больше, чем влезает в SRAM
- KV-cache на длинном контексте съедает ~10 ГБ
- На каждый токен — целый прогон весов через шину
- Шина не успевает — compute простаивает
PREFILL vs DECODE
compute-bound · GPU горит
PREFILL
- матрица × матрица
- FLOPs/byte → высокое
- compute даёт результат
memory-bound · GPU ждёт
DECODE
- вектор × матрица
- один токен за шаг
- всё упирается в HBM
Батчинг!
1
- один запрос — один прогон весов
- веса грузятся ради одного токена
- arithmetic intensity = низкая
- GPU undeployed
64
- один прогон весов — 64 токена
- FLOPs/byte растёт в десятки раз
- compute начинает работать
- throughput взлетает
Батчинг! · GPU utilization
Почему батчинг помогает
vector × matrix
≈ 2 FLOPs/byte
memory-bound
matrix × matrix
≈ 128 FLOPs/byte
compute-bound
Почему не слезть с CUDA?
- 2006 — NVIDIA выпустила CUDA
- 500K+ моделей и open-source ядер заточены под неё
- PyTorch / JAX / TensorRT всё равно компилируются в CUDA
- Вокруг CUDA выросла экосистема инструментов — переписать дороже, чем купить H100
CUDA — 20 лет компаундинга
PyTorch ◾ HuggingFace ◾ TensorRT ◾ Triton ◾ vLLM ◾ FlashAttention
Пластыри NVIDIA
TensorRT-LLM
compile-time fusion и kernel-кешинг
FlashAttention
переиспользует SRAM, реже идёт в HBM
FP8 / FP4
квантизация — меньше байт по шине
→ борются со следствием, а не с причиной
Какие метрики реально считать
смотреть на это
- tok/s на батч
- memory bandwidth
- capacity модели · KV-cache
не вестись на это
- TOPS из datasheet
- peak TFLOPS
- теоретические числа маркетинга
О чем поговорим?
- Memory wall и причём тут Nvidia?
- Cerebras
- Groq
- Apple
- Выводы (?)
А как вообще делают чипы?
- Литограф ASML EUV — машина за ~$200M
- Засветка пластины 300мм, слой за слоем
- Один транзистор = единицы нанометров
- Одна пылинка → дефект → брак
Пластина → дайсы → чипы
- Пластину режут вдоль scribe line
- Каждый прямоугольник — будущий чип
- Чем больше дайса, тем больше шанс брака
- Цена на чип растёт нелинейно
Yield: брак — это норма
- OK · ~70 %
- нестабильный · ~18 %
- brick · ~12 %
- Ровно поэтому чем меньше чип — тем дешевле
А что если не пилить?
// option 1
Традиционно
~140 чипов с пластины
// option 2
NVIDIA H100
~36 крупных дайсов
// option 3
Cerebras
1 чип · 46 225 mm² · 900K cores
Cerebras WSE-3
- Вся пластина = один чип
- Память живёт рядом с компьютом (L1 SRAM на каждом ядре)
- Двумерная mesh-сеть между ядрами
- Программная модель — поток через mesh
WSE-3 в цифрах
4 трлн
транзисторов
900 K
ядер AI
44 ГБ
on-chip SRAM
21 ПБ/с
aggregate bw
// для сравнения: H100 = 80 ГБ HBM @ 3 ТБ/с
Внутри одного из 900K ядер
SRAM рядом vs HBM через CoWoS
top · Cerebras
bottom · NVIDIA H100 (CoWoS interposer)
А как же memory wall?
- MemoryX — внешний пул на 1.5 ПБ
- Double-buffering: пока считается слой N, грузится слой N+1
- Веса не лежат в SRAM — они через неё проходят
- Wall есть, но он спрятан в пайплайне
Почему не Cerebras везде?
- Цена одного CS-3: $2-3 млн
- Жидкостное охлаждение и спец-стойка
- Тулчейн пока не догнал PyTorch
- Поддерживается ограниченный список архитектур
- Сильно лучше на очень крупных моделях
О чем поговорим?
- Memory wall и причём тут Nvidia?
- Cerebras
- Groq
- Apple
- Выводы (?)
Groq · LPU
- Делают один токен за один такт
- Никакой HBM — только on-chip SRAM
- Компилятор раскладывает граф во времени
- Детерминированный latency
Groq LPU в цифрах
230 МиБ
on-chip SRAM
750 TOPS
INT8 compute
80 ТБ/с
memory bw
725 mm²
die size
// bandwidth выше H100 в 25× при сопоставимой площади
Один такт → один шаг
GPU vs Groq
NVIDIA · iterative
Groq · streaming
Убрали планировщик — убрали джиттер
NVIDIA · runtime scheduler
Groq · compile-time
Сборка кластера Groq
1
LPU
8
плата
72
стойка
576
кластер · Llama 70B
Потолок Groq · Dragonfly
- Dragonfly topology — 3 hops от любой ноды до любой
- 1 hop = native fabric, дальше adaptive routing
- На сотнях стоек физика сети съедает latency-преимущество
- Groq оптимален в одной стойке
Сделка NVIDIA ↔ Groq
~$20 млрд активов
↔
экосистема + capex
So?
- Memory wall не пробили, но отодвинули
- CNBC сообщали о сделке NVIDIA по активам Groq на ~$20 млрд
- Построить экосистему оказалось сложнее, чем чип
О чем поговорим?
- Memory wall и причём тут Nvidia?
- Cerebras
- Groq
- Apple
- Выводы (?)
Apple Silicon
- Всё на одной подложке
- Нет отдельной памяти под GPU
- Приватная инфраструктура — внутри MacOS
- Зачем тебе HBM, если есть LPDDR5X?
- Дешёвая!
Apple Silicon — один кристалл, одна память
один кремний · один пул памяти · все блоки читают напрямую (zero-copy)
Llama 70B на десктопе
- Инференс в вашем контуре
- В разы дешевле облака
- Можно загнать модель целиком в RAM
- Идеально для небольших команд
Путь данных: dGPU vs Apple UMA
Traditional dGPU · NVIDIA RTX/H100 — два адресных пространства
Apple Silicon UMA — одно адресное пространство · zero-copy
Бенчи: Llama 70B / DeepSeek V3 671B
Dense · Llama 70B
M3 Max 128 GB
8 tok/s
M3 Ultra 512 GB
16 tok/s
H100 80 GB · vLLM
120 tok/s
MoE · DeepSeek V3 671B
M3 Ultra 512 GB
>20 tok/s
RTX 4090 / 5090
×
не запускается
H100 80 GB · single
×
нужен 8× кластер
Доля ARM в server CPU (%)
Apple silicon · итог
- Memory wall — отодвинули
- Производительность не самая высокая
- Идеально для self-hosted — OpenClaw!
- Можно собрать кластер из Mac Studio
О чем поговорим?
- Memory wall и причём тут Nvidia?
- Cerebras
- Groq
- Apple
- Выводы (?)
Выводы
- Memory wall никто не сломал, лишь отодвинули
- Узкое место — не compute
- Экосистему сложнее построить, чем чип
- Экосистема CUDA NVIDIA не сдвинулась
Где попробовать NVIDIA B300
H3llo Cloud
h3llo.cloud
Cloud4Y
cloud4y.ru
Мой канал :-)
- YouTube · @allo_ada — научпоп про железо и LLM
- Telegram · @zergslaw_channel
- YouTube · @zergslaw
// feedbackБуду рад
Буду рад
отзыву
Эдгар Сипки // @zergslaw
→