// desktop only

Презентации лучше смотреть с десктопа

Слайды рассчитаны на широкий экран, клавиатуру и формат 16:9. Откройте эту страницу на ноутбуке или компьютере.

Вернуться на сайт
// AppsConf X · 2025

LLM на iPhone:
от Ollama
до Foundation Models

Инженерный взгляд на on-device AI в эпоху Apple × Google

Виктория Сипки//iOS Developer · BLACKHUB GAMES

Кто говорит

Виктория Сипки

Виктория Сипки — iOS Developer в BLACKHUB GAMES.

Swift · Core ML · Metal · llama.cpp · Foundation Models. Делаю on-device AI в продакшене.

// 12 января 2026

Apple и Google заключили альянс

Next-gen Apple Foundation Models построят на базе Gemini и Google Cloud. ~$1 млрд в год.

О чём поговорим

  • 01 · 2026: поворотный момент
  • 02 · Зачем on-device LLM
  • 03 · Apple stack
  • 04 · Как запустить
  • 05 · Выводы
// 02 / why on-device

Зачем on-device
LLM

Cloud vs On-device

критерийCloud APIOn-device
приватностьданные уходят на чужие серверане покидают устройство
complianceNDA, GDPR, экспортные ограничениянет передачи третьим сторонам
costper-token биллинг, растёт с объёмоминференс бесплатный
offlineне работает без сетиработает в самолёте и метро

От чат-бота к AI-native приложению

// 2023–2024
Чат-бот
Отдельный экран. Промпт → ответ.
// 2025–2026
AI-native
LLM встроен в каждую функцию. Невидимый.
.rewrite()
переписать письмо в другом тоне
.extract()
вытащить даты и адреса из сообщения
.summarize()
свернуть thread в три буллета
.classify()
разложить уведомления по важности

Локальные LLM уже в продакшене

// platform · system-level
Apple
Writing Tools, Siri
on-device ~3B model
Samsung
Galaxy AI
400M+ devices · Gemini Nano
Google
Pixel · Android
Gemini Nano v2/v3
// apps · Foundation Models framework
SmartGym
AI-саммари тренировок
iOS · FoundationModels
Signeasy
суммаризация документов, Q&A
iOS · FoundationModels
Stoic
генерация персональных journaling-промптов
iOS · FoundationModels
VLLO
AI-фичи в видео-редакторе
iOS · FoundationModels
// dev tools · llama.cpp / MLX
Klarnacustomer support
JetBrainslocal AI Assistant
// where we are

Карта доклада

  • 01 · 2026: поворотный момент
  • 02 · Зачем on-device LLM
  • 03 · Apple stack
  • 04 · Как запустить
  • 05 · Выводы
// 03 / apple stack

Apple stack

Четыре слоя Apple AI

Foundation Models
Platform layer · iOS 18+
LanguageModelSessionGuided GenerationTool Calling@Generable
Core ML
High-level inference framework
.mlmodelauto device routingVision / NL / Speech integration
Metal Performance Shaders
Low-level GPU compute
matmulattentionconvsoftmax
Apple Neural Engine
Hardware · Apple Silicon
16 cores~38 TOPS (A17 Pro)energy-efficient matmul
// iOS 26+ · WWDC 2025

Apple Foundation Models

На устройстве уже есть модель Apple (~3B). Фреймворк даёт API для работы с ней в вашем приложении — суммаризация, генерация, tool calling.

LanguageModelSession
Guided Generation
Tool Calling
@Generable

Что внутри

  • ~3B параметров, 2-bit quantization-aware training
  • KV-cache sharing — экономит RAM при длинных контекстах
  • ~30 токенов/сек на iPhone 15 Pro
  • Adapters — специализация под задачи без переобучения базовой модели
  • Серверная модель — PT-MoE на Apple Silicon серверах

source: machinelearning.apple.com/research/introducing-apple-foundation-models

Foundation Models за 5 строк

import FoundationModels

let session = LanguageModelSession()
let response = try await session.respond(
    to: "Перепиши это письмо в формальном тоне: \(draft)"
)
print(response.content)
// where we are

Карта доклада

  • 01 · 2026: поворотный момент
  • 02 · Зачем on-device LLM
  • 03 · Apple stack
  • 04 · Как запустить
  • 05 · Выводы
// 04 / how to ship

Как запустить

Когда что использовать

критерийFoundation ModelsCore MLllama.cpp / MLX
когдабыстрый AI-фичингсвоя обученная моделькастомные open-source LLM
размер моделификс (~3B Apple)любой, что конвертитсяGGUF любого размера
код5 строк~20 строк + .mlmodelC++ обёртка + сборка
deploymentiOS 18+, iPhone 15 Pro+iOS 13+любая платформа с Metal
контрольминимумсредниймаксимум

Open-source модель за 7 строк

import LLM

let bot = LLM(
    from: "/path/to/Llama-3.2-3B-Instruct-Q5_K_M.gguf",
    template: .llama
)
let answer = await bot.respond(to: "Сделай саммари: \(text)")
print(answer)
// пример из App Store

SmartGym · Foundation Models в деле

SmartGym — AI-саммари тренировок

AI-саммари тренировок, подбор упражнений, анализ прогресса — всё на устройстве через FoundationModels framework.

Core ML — тоже просто

import CoreML
import Vision

func classify(_ image: CGImage) -> String? {
    let model = try! VNCoreMLModel(
        for: MobileNetV2().model
    )
    let request = VNCoreMLRequest(model: model)
    let handler = VNImageRequestHandler(
        cgImage: image
    )
    try? handler.perform([request])
}

SLM-ландшафт 2025–2026

Llama 3.2Meta · 3B
Gemma 4 E4BGoogle · 4B
Phi-4 MiniMicrosoft · 3.8B
Qwen 3Alibaba · 4B
DeepSeek-R1-Distill1.5B / 7B
Apple FM~3B on-device
// MMLU-Pro benchmark · 5-shot CoT
GPT-3.5
49%
Gemma 4 E4B
~66%
Qwen 3 4B
~63%
Phi-4 Mini
52.8%
Llama 3.2
~36%
// источники: TIGER-Lab leaderboard · LLM-Stats · Microsoft · HuggingFace
Лидеры 4B (2025–2026) обгоняют GPT-3.5 (175B, 2023)
// where we are

Карта доклада

  • 01 · 2026: поворотный момент
  • 02 · Зачем on-device LLM
  • 03 · Apple stack
  • 04 · Как запустить
  • 05 · Выводы
// 05 / takeaways

Выводы

Будущее — гибридное

«Всё локально» — лозунг 2024. В 2026 побеждает архитектура, где чувствительное и быстрое живёт на устройстве, а сложное и редкое — в облаке.

Спасибо!

Виктория Сипки//iOS Developer · BLACKHUB GAMES

QR код: слайды доклада на sipki.onlineslides
QR код: Telegram @helloviktoriatelegram