ML Kit и Core ML: искусственный интеллект на устройстве — без серверов и утечек данных
ML Kit и Core ML — фреймворки Google и Apple, которые выполняют модели машинного обучения прямо на смартфоне, без отправки данных на сервер. Они распознают текст, лица, объекты и речь за миллисекунды, работают офлайн, не требуют оплаты облачных API, а персональные данные пользователя физически не покидают устройство.
Зачем переносить ИИ с сервера на устройство
Классическая схема «приложение → API в облаке → ответ» имеет три слабых места: задержку сети, цену за каждый запрос и передачу персональных данных третьей стороне. On-device подход убирает все три. Модель лежит внутри приложения или догружается один раз, инференс выполняется на нейропроцессоре телефона (Neural Engine у Apple, NNAPI/TPU-блоки у Android-флагманов), и каждый следующий запрос стоит ноль тенге.
Для казахстанского рынка это особенно ощутимо. Закон «О персональных данных» требует внимательного отношения к трансграничной передаче, а пользователи за пределами Алматы и Астаны нередко сидят на нестабильном мобильном интернете. Сканер документов, который работает в лифте, в метро и в селе без 4G, — это не маркетинговая фраза, а прямое следствие архитектуры. Подробный разбор того, куда движется AI в мобильных приложениях в 2026 году, мы публиковали отдельно — on-device-инференс там среди главных направлений.
Важно понимать границу: on-device ИИ — это про быстрые специализированные задачи (зрение, текст, классификация). Большие генеративные сценарии вроде полноценного диалогового ассистента по-прежнему живут в облаке — как устроен ИИ-чат в мобильном приложении, мы разбирали в соседней статье. Сильные продукты обычно комбинируют оба подхода.
ML Kit: готовый ИИ от Google для Android и iOS
ML Kit — это набор готовых SDK, которые подключаются к проекту за часы, а не недели. Google уже обучил модели, сжал их под мобильные процессоры и отдаёт бесплатно, причём библиотека кроссплатформенная: один и тот же API работает на Android и iOS.
Что ML Kit умеет «из коробки»
- Распознавание текста (OCR) — латиница, кириллица, китайский и ещё десятки скриптов. База для сканеров удостоверений, накладных, чеков.
- Сканирование штрих- и QR-кодов — все основные форматы, стабильно ловит код под углом и при плохом свете.
- Детекция лиц — координаты, контуры, наклон головы, открыты ли глаза. Основа для масок, проверки селфи, контроля присутствия.
- Распознавание и трекинг объектов — поиск товара по фото, подсчёт предметов в кадре.
- Перевод текста — 50+ языков офлайн, словари по ~30 МБ на пару.
- Сегментация селфи — отделение человека от фона без зелёного экрана.
Если готовых моделей мало, ML Kit запускает кастомные модели TensorFlow Lite: обучаете нейросеть под свою задачу — например, классификацию дефектов продукции — и кладёте её в то же API.
Core ML: максимум из железа Apple
Core ML — нативный слой машинного обучения в iOS, iPadOS, watchOS и macOS. В отличие от ML Kit это не набор готовых сценариев, а среда исполнения: вы конвертируете любую обученную модель (PyTorch, TensorFlow, scikit-learn) в формат .mlmodel, а система сама решает, на чём её считать — CPU, GPU или Neural Engine.
Поверх Core ML Apple даёт прикладные фреймворки, закрывающие типовые задачи без обучения собственных моделей:
- Vision — OCR (с поддержкой кириллицы), детекция лиц и поз, сегментация, поиск похожих изображений;
- Natural Language — определение языка, токенизация, тональность, именованные сущности;
- Speech / SoundAnalysis — офлайн-распознавание речи и классификация звуков;
- Create ML — обучение моделей на Mac без Python: классификатор изображений тренируется буквально перетаскиванием папок с примерами.
Главный козырь Core ML — производительность. Модель, скомпилированная под Neural Engine, на iPhone последних поколений обрабатывает кадр камеры быстрее, чем уходит сетевой пакет до ближайшего дата-центра. Для AR-примерок, live-фильтров и анализа видео в реальном времени это единственный рабочий вариант. Этими же инструментами пользуемся мы в разработке мобильных приложений, когда продукту нужны функции компьютерного зрения без серверной инфраструктуры.
ML Kit или Core ML: что выбрать бизнесу
Короткий ответ: это не конкуренты, а инструменты разного уровня. ML Kit — быстрый старт и кроссплатформенность, Core ML — глубина и скорость на технике Apple. В проектах под обе платформы они часто живут вместе.
| Критерий | ML Kit | Core ML |
|---|---|---|
| Платформы | Android + iOS | Только экосистема Apple |
| Готовые сценарии | 12+ SDK «из коробки» | Через Vision / NL / Speech |
| Кастомные модели | TensorFlow Lite | Любые через конвертацию в .mlmodel |
| Использование нейрочипа | Зависит от устройства | Полный доступ к Neural Engine |
| Стоимость инференса | 0 ₸, без лимитов | 0 ₸, без лимитов |
| Работа офлайн | Да (on-device API) | Да, всегда |
| Типовой срок интеграции | 1–3 недели на функцию | 2–6 недель на функцию |
Практическое правило, которым руководствуемся мы: если задача закрывается готовым API ML Kit — берём его на обеих платформах и экономим бюджет клиента. Если нужна максимальная точность, своя модель или тяжёлая работа с видео на iPhone — подключаем Core ML и Vision на iOS, а на Android ту же модель запускаем через TensorFlow Lite.
Приватность: главный аргумент on-device подхода
Когда фото удостоверения, голос или медицинские показатели обрабатываются на устройстве, у компании исчезает целый класс рисков. Нечего перехватывать в канале связи, нечего терять при взломе сервера, не нужно объяснять регулятору, в какой юрисдикции крутится облачный API.
Для каких отраслей в Казахстане это критично:
- Финтех и МФО — проверка документов и селфи при онбординге без выгрузки биометрии наружу;
- Медицина — анализ фото кожи, подсчёт пульса по камере: данные о здоровье не покидают телефон пациента;
- Госсектор и B2G — требования по локализации данных закрываются по определению;
- Ритейл и логистика — сканирование тысяч накладных в день без оплаты облачного OCR за каждый документ.
Есть и продуктовый эффект: формулировка «данные не покидают ваше устройство» повышает конверсию в установку, а privacy-метки приложения в сторах выглядят чище — меньше категорий собираемых данных, меньше вопросов на модерации.
Сколько стоит внедрение on-device AI в Казахстане
Вилки актуальны для рынка КЗ на 2026 год и зависят от сложности сценария, требований к точности и того, встраиваем мы функцию в существующее приложение или строим продукт с нуля.
| Задача | Стоимость | Срок |
|---|---|---|
| Сканер документов / OCR-модуль в готовое приложение | от 900 000 ₸ | 2–3 недели |
| Сканер штрих-кодов с привязкой к учётной системе | от 700 000 ₸ | 1–2 недели |
| Детекция лица + проверка живости для онбординга | от 1 800 000 ₸ | 3–5 недель |
| Сегментация / виртуальная примерка по фото | от 2 200 000 ₸ | 4–6 недель |
| Конвертация и оптимизация вашей модели под Core ML / TFLite | от 1 200 000 ₸ | 2–4 недели |
| Приложение с on-device AI под ключ (iOS + Android) | от 6 500 000 ₸ | от 10 недель |
Заметная статья экономии — операционные расходы. Облачный OCR при потоке в десятки тысяч документов в месяц съедает сотни тысяч тенге ежемесячно; on-device-распознавание после внедрения не стоит ничего, сколько бы пользователей ни сканировало. Чем выше нагрузка, тем быстрее окупается разница в цене разработки.
Точная смета зависит от вашей задачи — присылайте описание, посчитаем за 24 часа. Команда разработки мобильных приложений в Алматы работает с рынками Казахстана, ОАЭ и Таиланда с 2007 года, за плечами 300+ проектов.
Когда on-device не подходит и как строить гибрид
Честный разбор ограничений, чтобы вы не заложили в продукт ложные ожидания:
- Генеративные задачи. Полноценные LLM-диалоги, генерация изображений и длинных текстов пока требуют облака — мобильные нейрочипы тянут лишь компактные модели.
- Размер приложения. Каждая модель — это мегабайты в дистрибутиве. Решается отложенной загрузкой моделей после установки.
- Старые устройства. На бюджетных Android-телефонах без NPU инференс заметно медленнее — нужен фолбэк или упрощённая модель.
- Обновление моделей. Улучшили точность — нужно доставить новую модель пользователям: через обновление приложения или загрузку с CDN.
Рабочая гибридная схема выглядит так: быстрые и чувствительные к приватности операции (распознавание, классификация, проверка документов) выполняются на устройстве, а тяжёлая аналитика и генеративные функции уходят на сервер — туда передаётся уже обезличенный результат, а не сырые данные. Так продукт получает и скорость, и приватность, и интеллект облачных моделей.
Частые вопросы
ML Kit действительно бесплатный?
Да, все on-device API ML Kit бесплатны без лимитов на количество запросов — вы платите только за разработку и интеграцию. У Google есть отдельные облачные API (Cloud Vision и другие) с тарификацией за запрос, но это другой продукт. Core ML и фреймворки Apple также не тарифицируются: они часть операционной системы.
Насколько точен on-device OCR для казахского языка?
Кириллица распознаётся уверенно и в ML Kit, и в Vision у Apple, включая казахские специфические буквы в большинстве сценариев. Для документов со сложной вёрсткой или рукописным текстом мы проводим тест на реальных образцах клиента до старта проекта и при необходимости дообучаем кастомную модель — это надёжнее любых обещаний «из коробки».
Можно ли добавить on-device ИИ в уже работающее приложение?
Да, это типовая задача. ML Kit и Core ML подключаются как обычные библиотеки в нативные проекты, а также во Flutter и React Native через плагины. Встраивание одной функции — например, сканера документов — занимает от двух недель и не требует переписывать приложение. Сначала мы делаем аудит архитектуры, затем называем точный срок и смету.
Что выбрать для Flutter-приложения?
Для Flutter существуют официальные и поддерживаемые сообществом плагины ML Kit, закрывающие OCR, штрих-коды, лица и сегментацию сразу на двух платформах — это самый экономный путь. Если на iOS нужна максимальная производительность, отдельные модули пишутся нативно на Core ML и подключаются к Flutter через platform channels.
Безопасно ли хранить модель внутри приложения — её не украдут?
Риск извлечения модели из пакета приложения существует, как и для любого кода. На практике он снижается обфускацией, шифрованием файла модели с расшифровкой в рантайме и доставкой модели с сервера после авторизации. Для большинства бизнес-задач ценность представляет не сама модель, а данные и процесс её обучения, которые остаются у вас.