Презентации лучше смотреть с десктопа
Слайды рассчитаны на широкий экран, клавиатуру и формат 16:9. Откройте эту страницу на ноутбуке или компьютере.
Вернуться на сайтLLM на iPhone:
от Ollama
до Foundation Models
Инженерный взгляд на on-device AI в эпоху Apple × Google
Виктория Сипки//iOS Developer · BLACKHUB GAMES
Кто говорит

Виктория Сипки — iOS Developer в BLACKHUB GAMES.
Swift · Core ML · Metal · llama.cpp · Foundation Models. Делаю on-device AI в продакшене.
Apple и Google заключили альянс
Next-gen Apple Foundation Models построят на базе Gemini и Google Cloud. ~$1 млрд в год.
О чём поговорим
- 01 · 2026: поворотный момент
- 02 · Зачем on-device LLM
- 03 · Apple stack
- 04 · Как запустить
- 05 · Выводы
Зачем on-device
LLM
Cloud vs On-device
| критерий | Cloud API | On-device |
|---|---|---|
| приватность | данные уходят на чужие сервера | не покидают устройство |
| compliance | NDA, GDPR, экспортные ограничения | нет передачи третьим сторонам |
| cost | per-token биллинг, растёт с объёмом | инференс бесплатный |
| offline | не работает без сети | работает в самолёте и метро |
От чат-бота к AI-native приложению
Локальные LLM уже в продакшене
Карта доклада
- 01 · 2026: поворотный момент
- 02 · Зачем on-device LLM
- 03 · Apple stack
- 04 · Как запустить
- 05 · Выводы
Apple stack
Четыре слоя Apple AI
Apple Foundation Models
На устройстве уже есть модель Apple (~3B). Фреймворк даёт API для работы с ней в вашем приложении — суммаризация, генерация, tool calling.
Что внутри
- ~3B параметров, 2-bit quantization-aware training
- KV-cache sharing — экономит RAM при длинных контекстах
- ~30 токенов/сек на iPhone 15 Pro
- Adapters — специализация под задачи без переобучения базовой модели
- Серверная модель — PT-MoE на Apple Silicon серверах
source: machinelearning.apple.com/research/introducing-apple-foundation-models
Foundation Models за 5 строк
import FoundationModels
let session = LanguageModelSession()
let response = try await session.respond(
to: "Перепиши это письмо в формальном тоне: \(draft)"
)
print(response.content)Карта доклада
- 01 · 2026: поворотный момент
- 02 · Зачем on-device LLM
- 03 · Apple stack
- 04 · Как запустить
- 05 · Выводы
Как запустить
Когда что использовать
| критерий | Foundation Models | Core ML | llama.cpp / MLX |
|---|---|---|---|
| когда | быстрый AI-фичинг | своя обученная модель | кастомные open-source LLM |
| размер модели | фикс (~3B Apple) | любой, что конвертится | GGUF любого размера |
| код | 5 строк | ~20 строк + .mlmodel | C++ обёртка + сборка |
| deployment | iOS 18+, iPhone 15 Pro+ | iOS 13+ | любая платформа с Metal |
| контроль | минимум | средний | максимум |
Open-source модель за 7 строк
import LLM
let bot = LLM(
from: "/path/to/Llama-3.2-3B-Instruct-Q5_K_M.gguf",
template: .llama
)
let answer = await bot.respond(to: "Сделай саммари: \(text)")
print(answer)SmartGym · Foundation Models в деле

AI-саммари тренировок, подбор упражнений, анализ прогресса — всё на устройстве через FoundationModels framework.
Core ML — тоже просто
import CoreML
import Vision
func classify(_ image: CGImage) -> String? {
let model = try! VNCoreMLModel(
for: MobileNetV2().model
)
let request = VNCoreMLRequest(model: model)
let handler = VNImageRequestHandler(
cgImage: image
)
try? handler.perform([request])
}SLM-ландшафт 2025–2026
Карта доклада
- 01 · 2026: поворотный момент
- 02 · Зачем on-device LLM
- 03 · Apple stack
- 04 · Как запустить
- 05 · Выводы
Выводы
Будущее — гибридное
«Всё локально» — лозунг 2024. В 2026 побеждает архитектура, где чувствительное и быстрое живёт на устройстве, а сложное и редкое — в облаке.
Спасибо!
Виктория Сипки//iOS Developer · BLACKHUB GAMES