// доклад · AI Conf 2026

Не NVIDIA единой,
или как строить
архитектуру железа
для LLM-продукта

Эдгар Сипки // Sipki Tech && EasyP

// speaker.bio

Кто я?

@zergslaw

Founder в EasyP и Sipki Tech
Запустил >7 стартапов, оптимизирую затраты на железо и инфру
Ментор по Go, gRPC и LLM-агентам
Автор «Алло, Ада» — научно-популярный YouTube-канал
Спикер HighLoad++, GolangConf, AI Conf, OSDEVCONF

// agenda

О чем поговорим?

Memory wall и причём тут Nvidia?
Cerebras
Groq
Apple
Выводы (?)

// scissors.svg · COMPUTE × BANDWIDTH

Ножницы: compute растёт быстрее памяти

// memory_wall.diag

Memory wall

// H100 × Llama 70B

H100 запускает Llama 70B

peak compute

4500 TFLOPS

actually used

≈400 TFLOPS

разрыв 11× · 85% времени GPU ждёт память

// llama-70b @ h100

Llama 70B на H100

Параметров в 10× больше, чем влезает в SRAM
KV-cache на длинном контексте съедает ~10 ГБ
На каждый токен — целый прогон весов через шину
Шина не успевает — compute простаивает

// llm.execution_phases

PREFILL vs DECODE

compute-bound · GPU горит

PREFILL

матрица × матрица
FLOPs/byte → высокое
compute даёт результат

memory-bound · GPU ждёт

DECODE

вектор × матрица
один токен за шаг
всё упирается в HBM

// batching.txt

Батчинг!

один запрос — один прогон весов
веса грузятся ради одного токена
arithmetic intensity = низкая
GPU undeployed

один прогон весов — 64 токена
FLOPs/byte растёт в десятки раз
compute начинает работать
throughput взлетает

// gpu_util(batch_size)

Батчинг! · GPU utilization

// arithmetic_intensity

Почему батчинг помогает

vector × matrix

≈ 2 FLOPs/byte

memory-bound

matrix × matrix

≈ 128 FLOPs/byte

compute-bound

// cuda.lock_in

Почему не слезть с CUDA?

2006 — NVIDIA выпустила CUDA
500K+ моделей и open-source ядер заточены под неё
PyTorch / JAX / TensorRT всё равно компилируются в CUDA
Вокруг CUDA выросла экосистема инструментов — переписать дороже, чем купить H100

// cuda · 20 years compounding

CUDA — 20 лет компаундинга

PyTorch ◾ HuggingFace ◾ TensorRT ◾ Triton ◾ vLLM ◾ FlashAttention

// patches.list

Пластыри NVIDIA

TensorRT-LLM

compile-time fusion и kernel-кешинг

FlashAttention

переиспользует SRAM, реже идёт в HBM

FP8 / FP4

квантизация — меньше байт по шине

→ борются со следствием, а не с причиной

// metrics.txt

Какие метрики реально считать

смотреть на это

tok/s на батч
memory bandwidth
capacity модели · KV-cache

не вестись на это

TOPS из datasheet
peak TFLOPS
теоретические числа маркетинга

// agenda · checkpoint

О чем поговорим?

Memory wall и причём тут Nvidia?
Cerebras
Groq
Apple
Выводы (?)

// chip.lithography

А как вообще делают чипы?

Литограф ASML EUV — машина за ~$200M
Засветка пластины 300мм, слой за слоем
Один транзистор = единицы нанометров
Одна пылинка → дефект → брак

// wafer.dies

Пластина → дайсы → чипы

Пластину режут вдоль scribe line
Каждый прямоугольник — будущий чип
Чем больше дайса, тем больше шанс брака
Цена на чип растёт нелинейно

// wafer.yield

Yield: брак — это норма

OK · ~70 %
нестабильный · ~18 %
brick · ~12 %
Ровно поэтому чем меньше чип — тем дешевле

// cerebras · idea

А что если не пилить?

// option 1

Традиционно

~140 чипов с пластины

// option 2

NVIDIA H100

~36 крупных дайсов

// option 3

Cerebras

1 чип · 46 225 mm² · 900K cores

// cerebras.systems

Cerebras WSE-3

Вся пластина = один чип
Память живёт рядом с компьютом (L1 SRAM на каждом ядре)
Двумерная mesh-сеть между ядрами
Программная модель — поток через mesh

// WSE-3 · datasheet

WSE-3 в цифрах

4 трлн

транзисторов

900 K

ядер AI

44 ГБ

on-chip SRAM

21 ПБ/с

aggregate bw

// для сравнения: H100 = 80 ГБ HBM @ 3 ТБ/с

// inside.core

Внутри одного из 900K ядер

// sram_vs_hbm

SRAM рядом vs HBM через CoWoS

top · Cerebras

bottom · NVIDIA H100 (CoWoS interposer)

// memoryX · 1.5 PB

А как же memory wall?

MemoryX — внешний пул на 1.5 ПБ
Double-buffering: пока считается слой N, грузится слой N+1
Веса не лежат в SRAM — они через неё проходят
Wall есть, но он спрятан в пайплайне

// cerebras.cons

Почему не Cerebras везде?

Цена одного CS-3: $2-3 млн
Жидкостное охлаждение и спец-стойка
Тулчейн пока не догнал PyTorch
Поддерживается ограниченный список архитектур
Сильно лучше на очень крупных моделях

// agenda · checkpoint

О чем поговорим?

Memory wall и причём тут Nvidia?
Cerebras
Groq
Apple
Выводы (?)

// groq.lpu

Groq · LPU

Делают один токен за один такт
Никакой HBM — только on-chip SRAM
Компилятор раскладывает граф во времени
Детерминированный latency

// groq · datasheet

Groq LPU в цифрах

230 МиБ

on-chip SRAM

750 TOPS

INT8 compute

80 ТБ/с

memory bw

725 mm²

die size

// bandwidth выше H100 в 25× при сопоставимой площади

// pipeline · 1 cycle = 1 step

Один такт → один шаг

// gpu_vs_groq

GPU vs Groq

NVIDIA · iterative

Groq · streaming

// determinism

Убрали планировщик — убрали джиттер

NVIDIA · runtime scheduler

Groq · compile-time

// groq.cluster

Сборка кластера Groq

LPU

плата

стойка

576

кластер · Llama 70B

// groq · ceiling

Потолок Groq · Dragonfly

Dragonfly topology — 3 hops от любой ноды до любой
1 hop = native fabric, дальше adaptive routing
На сотнях стоек физика сети съедает latency-преимущество
Groq оптимален в одной стойке

// rumour · CNBC 2026

Сделка NVIDIA ↔ Groq

~$20 млрд активов

↔

экосистема + capex

// groq · summary

So?

Memory wall не пробили, но отодвинули
CNBC сообщали о сделке NVIDIA по активам Groq на ~$20 млрд
Построить экосистему оказалось сложнее, чем чип

// agenda · checkpoint

О чем поговорим?

Memory wall и причём тут Nvidia?
Cerebras
Groq
Apple
Выводы (?)

// apple.silicon

Apple Silicon

Всё на одной подложке
Нет отдельной памяти под GPU
Приватная инфраструктура — внутри MacOS
Зачем тебе HBM, если есть LPDDR5X?
Дешёвая!

// apple · UMA

Apple Silicon — один кристалл, одна память

один кремний · один пул памяти · все блоки читают напрямую (zero-copy)

// llama-70b · desktop

Llama 70B на десктопе

Инференс в вашем контуре
В разы дешевле облака
Можно загнать модель целиком в RAM
Идеально для небольших команд

// data path

Путь данных: dGPU vs Apple UMA

Traditional dGPU · NVIDIA RTX/H100 — два адресных пространства

Apple Silicon UMA — одно адресное пространство · zero-copy

// bench · tok/s

Бенчи: Llama 70B / DeepSeek V3 671B

Dense · Llama 70B

M3 Max 128 GB

8 tok/s

M3 Ultra 512 GB

16 tok/s

H100 80 GB · vLLM

120 tok/s

MoE · DeepSeek V3 671B

M3 Ultra 512 GB

>20 tok/s

RTX 4090 / 5090

не запускается

H100 80 GB · single

нужен 8× кластер

// ARM · server CPU share

Доля ARM в server CPU (%)

// apple · summary

Apple silicon · итог

Memory wall — отодвинули
Производительность не самая высокая
Идеально для self-hosted — OpenClaw!
Можно собрать кластер из Mac Studio

// agenda · checkpoint

О чем поговорим?

Memory wall и причём тут Nvidia?
Cerebras
Groq
Apple
Выводы (?)

Выводы

Memory wall никто не сломал, лишь отодвинули
Узкое место — не compute
Экосистему сложнее построить, чем чип
Экосистема CUDA NVIDIA не сдвинулась

// links

Где попробовать NVIDIA B300

H3llo Cloud

h3llo.cloud

Cloud4Y

cloud4y.ru

// channel

Мой канал :-)

YouTube · @allo_ada — научпоп про железо и LLM
Telegram · @zergslaw_channel
YouTube · @zergslaw

// feedback

Буду рад
отзыву

Эдгар Сипки // @zergslaw

→

Не NVIDIA единой,или как строитьархитектуру железадля LLM-продукта

Кто я?

О чем поговорим?

Ножницы: compute растёт быстрее памяти

Memory wall

H100 запускает Llama 70B

Llama 70B на H100

PREFILL vs DECODE

Батчинг!

Батчинг! · GPU utilization

Почему батчинг помогает

Почему не слезть с CUDA?

CUDA — 20 лет компаундинга

Пластыри NVIDIA

Какие метрики реально считать

О чем поговорим?

А как вообще делают чипы?

Пластина → дайсы → чипы

Yield: брак — это норма

А что если не пилить?

Cerebras WSE-3

WSE-3 в цифрах

Внутри одного из 900K ядер

SRAM рядом vs HBM через CoWoS

А как же memory wall?

Почему не Cerebras везде?

О чем поговорим?

Groq · LPU

Groq LPU в цифрах

Один такт → один шаг

GPU vs Groq

Убрали планировщик — убрали джиттер

Сборка кластера Groq

Потолок Groq · Dragonfly

Сделка NVIDIA ↔ Groq

So?

О чем поговорим?

Apple Silicon

Apple Silicon — один кристалл, одна память

Llama 70B на десктопе

Путь данных: dGPU vs Apple UMA

Бенчи: Llama 70B / DeepSeek V3 671B

Доля ARM в server CPU (%)

Apple silicon · итог

О чем поговорим?

Выводы

Где попробовать NVIDIA B300

Мой канал :-)

Буду радотзыву

Не NVIDIA единой,
или как строить
архитектуру железа
для LLM-продукта

Буду рад
отзыву