Computer Vision в мобильном приложении: распознавание фото, OCR и AR-примерка
Computer Vision в мобильном приложении — это распознавание объектов на фото, чтение текста с документов (OCR) и AR-примерка товаров через камеру смартфона. В 2026 году эти функции работают прямо на устройстве без постоянного интернета, внедряются за 3–12 недель и стоят в Казахстане от 1,2 млн ₸ за отдельный модуль.
Почему компьютерное зрение перестало быть «дорогой игрушкой»
Ещё пять лет назад распознавание изображений требовало собственного сервера с GPU и команды ML-инженеров. Сегодня нейропроцессор стоит в каждом смартфоне среднего сегмента: Apple Neural Engine обрабатывает до десятков триллионов операций в секунду, аналогичные NPU есть в чипах Snapdragon и Exynos. Это значит, что модель распознавания живёт внутри приложения и отвечает за 30–100 миллисекунд — быстрее, чем уходит запрос на сервер.
Второй фактор — зрелые бесплатные инструменты. Google ML Kit, Apple Vision и Core ML закрывают типовые задачи (текст, лица, штрих-коды, позы, сегментация) без лицензионных платежей. Платить нужно только за разработку и, при необходимости, за обучение кастомной модели. Поэтому CV-функции всё чаще закладывают уже на этапе разработки мобильного приложения, а не добавляют «когда-нибудь потом».
Распознавание фото: какие задачи реально закрывает
Распознавание изображений — самая широкая категория. На практике казахстанский бизнес чаще всего заказывает четыре сценария:
- Поиск по фото. Пользователь фотографирует товар — приложение находит его или аналоги в каталоге. Для маркетплейсов и мебельных магазинов это альтернатива текстовому поиску, которым покупатели пользуются неохотно.
- Контроль качества контента. Автоматическая проверка фото товара перед публикацией: размытость, плохой свет, посторонние предметы, водяные знаки конкурентов. Модерация перестаёт быть ручной.
- Оценка состояния объекта. Страхование и логистика: фото повреждений автомобиля или груза классифицируется по типу и серьёзности, заявка формируется без выезда оценщика.
- Распознавание в полевых условиях. Агро и ритейл-аудит: болезни растений по фото листа, выкладка товара на полке, подсчёт SKU в торговой точке.
Технически задача решается тремя путями: готовые модели ML Kit (быстро и дёшево, но без специфики), дообучение открытых моделей вроде YOLO под ваши классы объектов, либо полностью кастомная модель — когда объекты уникальны и нужна точность выше 95%. Выбор пути определяет 70% бюджета, поэтому мы всегда начинаем с теста готовых моделей на реальных данных заказчика.
OCR: распознавание документов, чеков и удостоверений
OCR (optical character recognition) — самый востребованный CV-модуль в Казахстане, потому что он напрямую убирает ручной ввод. Типовые применения:
- KYC-онбординг. Пользователь фотографирует удостоверение личности РК — приложение извлекает ФИО, ИИН, срок действия и автозаполняет анкету. Регистрация сокращается с пяти минут до тридцати секунд, ошибки ввода исчезают.
- Чеки и накладные. Бухгалтерские и складские приложения распознают позиции, суммы и БИН поставщика. Один снимок вместо десяти полей формы.
- Автономера. Паркинги, автомойки, логистика: камера фиксирует номер, система находит клиента и открывает шлагбаум или заказ.
- Банковские карты и счётчики. Привязка карты по фото и передача показаний коммунальных счётчиков без набора цифр.
Нюанс казахстанского рынка: два алфавита
Готовые OCR-движки уверенно читают русскую кириллицу и латиницу, но казахские специфические символы (ә, ғ, қ, ң, ө, ұ, ү, h, і) распознают нестабильно — особенно на документах со сложным фоном. Для проектов, где казахский текст критичен, мы дообучаем модель на собственном датасете символов и применяем словарную пост-обработку: распознанный текст сверяется со справочниками ФИО и адресов. Это добавляет к бюджету 400–800 тыс. ₸, но поднимает точность с 80–85% до рабочих 97%+.
AR-примерка: камера, которая продаёт
Дополненная реальность решает главный страх онлайн-покупателя — «а как это будет выглядеть у меня?». Рабочие форматы:
- Мебель и техника в интерьере. ARKit (iOS) и ARCore (Android) определяют плоскости пола и стен, 3D-модель дивана ставится в комнату в реальном масштабе. Покупатель видит, влезет ли шкаф в нишу, до оформления заказа.
- Очки, часы, украшения. Трекинг лица и кисти накладывает товар на видеопоток. Точность посадки достаточна, чтобы оценить форму и размер.
- Косметика. Виртуальный макияж по 468 точкам лица: оттенок помады или тона примеряется за секунду.
- Обувь. Самый сложный кейс — трекинг стопы в движении. Реализуем через специализированные SDK, закладывайте бюджет выше среднего.
Главная статья расходов в AR — не код, а контент: каждому товару нужна оптимизированная 3D-модель (USDZ для iOS, glTF для Android) весом до 5–10 МБ. Подготовка одной модели по фото товара стоит 15 000–60 000 ₸ в зависимости от детализации, поэтому AR-примерку выгодно запускать на ограниченной витрине из 20–50 ходовых позиций, а не на всём каталоге сразу.
AR хорошо сочетается с рекомендательными механиками: примерил диван — получи подборку ковров под него. Как строится такая логика, мы разбирали в статье про AI-персонализацию в мобильных приложениях.
On-device или облако: где обрабатывать изображения
Архитектурное решение, которое нужно принять до старта разработки:
| Критерий | On-device (на смартфоне) | Облако (свой сервер / API) |
|---|---|---|
| Скорость ответа | 30–150 мс | 0,5–3 секунды + сеть |
| Работа офлайн | Да, полностью | Нет |
| Приватность данных | Фото не покидает телефон | Нужны согласия и защита канала |
| Стоимость эксплуатации | ~0 ₸ за запрос | От 2–15 ₸ за изображение |
| Сложность моделей | Ограничена ресурсами устройства | Любая, включая тяжёлые LLM-vision |
| Обновление модели | Через релиз приложения | Мгновенно на сервере |
Наша практика: типовые задачи (OCR, классификация, AR-трекинг) выносим на устройство, а редкие и сложные (глубокий анализ, сверка с базой из миллионов изображений) — в облако. Гибридная схема даёт скорость без счетов за API на каждый кадр камеры.
Сколько стоит Computer Vision в приложении: цены 2026
Ориентиры для рынка Казахстана при разработке в студии уровня middle/senior:
| Модуль | Стоимость | Срок |
|---|---|---|
| OCR документов РК (удостоверение, чеки) | 1,2–2,5 млн ₸ | 3–5 недель |
| Распознавание фото на готовых моделях | 1,5–3 млн ₸ | 4–6 недель |
| Кастомная модель под ваши объекты | 3,5–7 млн ₸ | 6–10 недель |
| AR-примерка (20–30 3D-моделей) | 3–6,5 млн ₸ | 6–12 недель |
| Приложение с CV-функциями под ключ | от 8 млн ₸ | от 12 недель |
Вилка зависит от трёх факторов: нужна ли кастомная модель или хватит готовой, сколько платформ (iOS + Android почти всегда дешевле на Flutter, чем два натива), и требуется ли серверная часть с админ-панелью. Подробный разбор структуры бюджета — в материале сколько стоит AI-приложение.
Как мы внедряем CV: пять этапов без сюрпризов
- Проверка гипотезы (1 неделя). Берём 100–300 реальных фото заказчика и прогоняем через готовые модели. Если точность достаточна — экономим миллионы на кастомной разработке.
- Прототип на реальных данных (2–3 недели). Рабочий экран с камерой и распознаванием, который можно дать в руки сотрудникам. Решение о продолжении принимается по цифрам точности, а не по презентации.
- Дообучение модели — только если готовые решения не дотянули. Собираем и размечаем датасет, обучаем, замеряем на отложенной выборке.
- Интеграция и оптимизация. Квантование модели под NPU, обработка плохого света и дрожащих рук, fallback-сценарии, когда распознавание не уверено.
- Запуск и контроль качества. Метрики точности в проде: что не распозналось, собирается в очередь на ручную проверку и идёт в следующий цикл дообучения.
Applications.kz работает с 2007 года, за это время команда выпустила 300+ проектов для рынков Казахстана, ОАЭ и Таиланда. Офис в Алматы, очные встречи и работа по договору с фиксированной сметой — детали на странице разработки мобильных приложений в Алматы. Опишите задачу по телефону +7 (707) 928-13-15 — посчитаем смету за 24 часа: какие CV-функции дадут эффект в вашем случае, что взять из готового, а что обучать под вас.
Частые вопросы
Работает ли распознавание без интернета?
Да, если модель встроена в приложение и исполняется на устройстве. OCR, классификация фото и AR-трекинг полностью работают офлайн — это стандартная схема для полевых сценариев: склады, сельская местность, паркинги. Интернет нужен только для синхронизации результатов с сервером, и её можно делать отложенно, когда связь появится.
Распознаёт ли OCR казахский язык?
Русский текст готовые движки читают с точностью 95%+ сразу. Специфические казахские символы (ә, қ, ң, ө, ұ, ү и другие) требуют дообучения модели и словарной пост-обработки — это плюс 400–800 тыс. ₸ к бюджету. Для документов РК, где казахский дублируется русским, часто достаточно гибридной логики без полного дообучения.
Сколько 3D-моделей нужно для запуска AR-примерки?
Рекомендуем стартовать с 20–50 ходовых товаров: этого хватает, чтобы измерить влияние на конверсию, не вкладываясь в оцифровку всего каталога. Подготовка одной модели стоит 15 000–60 000 ₸. Если AR показывает результат, каталог масштабируется поэтапно, начиная с категорий с высоким процентом возвратов.
Нужно ли собирать данные для обучения?
Не всегда. Типовые задачи — текст, лица, штрих-коды, общие категории объектов — закрываются готовыми моделями без единого размеченного фото. Собственный датасет нужен, когда объекты уникальны: ваши товары, специфические дефекты, документы нестандартного формата. Обычно достаточно 500–3000 размеченных изображений, и разметку мы берём на себя.
Что выбрать: готовый SDK или свою модель?
Начинайте с готового — ML Kit и Vision бесплатны и закрывают 70% задач. Своя модель оправдана, когда точность готовой ниже 90% на ваших данных, объекты специфичны или SDK-вендор берёт оплату за каждый запрос при больших объёмах. Мы проверяем это за неделю на реальных фото до подписания основной сметы.