Computer Vision в мобильном приложении — это распознавание объектов на фото, чтение текста с документов (OCR) и AR-примерка товаров через камеру смартфона. В 2026 году эти функции работают прямо на устройстве без постоянного интернета, внедряются за 3–12 недель и стоят в Казахстане от 1,2 млн ₸ за отдельный модуль.

Почему компьютерное зрение перестало быть «дорогой игрушкой»

Ещё пять лет назад распознавание изображений требовало собственного сервера с GPU и команды ML-инженеров. Сегодня нейропроцессор стоит в каждом смартфоне среднего сегмента: Apple Neural Engine обрабатывает до десятков триллионов операций в секунду, аналогичные NPU есть в чипах Snapdragon и Exynos. Это значит, что модель распознавания живёт внутри приложения и отвечает за 30–100 миллисекунд — быстрее, чем уходит запрос на сервер.

Второй фактор — зрелые бесплатные инструменты. Google ML Kit, Apple Vision и Core ML закрывают типовые задачи (текст, лица, штрих-коды, позы, сегментация) без лицензионных платежей. Платить нужно только за разработку и, при необходимости, за обучение кастомной модели. Поэтому CV-функции всё чаще закладывают уже на этапе разработки мобильного приложения, а не добавляют «когда-нибудь потом».

Распознавание фото: какие задачи реально закрывает

Распознавание изображений — самая широкая категория. На практике казахстанский бизнес чаще всего заказывает четыре сценария:

  • Поиск по фото. Пользователь фотографирует товар — приложение находит его или аналоги в каталоге. Для маркетплейсов и мебельных магазинов это альтернатива текстовому поиску, которым покупатели пользуются неохотно.
  • Контроль качества контента. Автоматическая проверка фото товара перед публикацией: размытость, плохой свет, посторонние предметы, водяные знаки конкурентов. Модерация перестаёт быть ручной.
  • Оценка состояния объекта. Страхование и логистика: фото повреждений автомобиля или груза классифицируется по типу и серьёзности, заявка формируется без выезда оценщика.
  • Распознавание в полевых условиях. Агро и ритейл-аудит: болезни растений по фото листа, выкладка товара на полке, подсчёт SKU в торговой точке.

Технически задача решается тремя путями: готовые модели ML Kit (быстро и дёшево, но без специфики), дообучение открытых моделей вроде YOLO под ваши классы объектов, либо полностью кастомная модель — когда объекты уникальны и нужна точность выше 95%. Выбор пути определяет 70% бюджета, поэтому мы всегда начинаем с теста готовых моделей на реальных данных заказчика.

OCR: распознавание документов, чеков и удостоверений

OCR (optical character recognition) — самый востребованный CV-модуль в Казахстане, потому что он напрямую убирает ручной ввод. Типовые применения:

  • KYC-онбординг. Пользователь фотографирует удостоверение личности РК — приложение извлекает ФИО, ИИН, срок действия и автозаполняет анкету. Регистрация сокращается с пяти минут до тридцати секунд, ошибки ввода исчезают.
  • Чеки и накладные. Бухгалтерские и складские приложения распознают позиции, суммы и БИН поставщика. Один снимок вместо десяти полей формы.
  • Автономера. Паркинги, автомойки, логистика: камера фиксирует номер, система находит клиента и открывает шлагбаум или заказ.
  • Банковские карты и счётчики. Привязка карты по фото и передача показаний коммунальных счётчиков без набора цифр.

Нюанс казахстанского рынка: два алфавита

Готовые OCR-движки уверенно читают русскую кириллицу и латиницу, но казахские специфические символы (ә, ғ, қ, ң, ө, ұ, ү, h, і) распознают нестабильно — особенно на документах со сложным фоном. Для проектов, где казахский текст критичен, мы дообучаем модель на собственном датасете символов и применяем словарную пост-обработку: распознанный текст сверяется со справочниками ФИО и адресов. Это добавляет к бюджету 400–800 тыс. ₸, но поднимает точность с 80–85% до рабочих 97%+.

AR-примерка: камера, которая продаёт

Дополненная реальность решает главный страх онлайн-покупателя — «а как это будет выглядеть у меня?». Рабочие форматы:

  • Мебель и техника в интерьере. ARKit (iOS) и ARCore (Android) определяют плоскости пола и стен, 3D-модель дивана ставится в комнату в реальном масштабе. Покупатель видит, влезет ли шкаф в нишу, до оформления заказа.
  • Очки, часы, украшения. Трекинг лица и кисти накладывает товар на видеопоток. Точность посадки достаточна, чтобы оценить форму и размер.
  • Косметика. Виртуальный макияж по 468 точкам лица: оттенок помады или тона примеряется за секунду.
  • Обувь. Самый сложный кейс — трекинг стопы в движении. Реализуем через специализированные SDK, закладывайте бюджет выше среднего.

Главная статья расходов в AR — не код, а контент: каждому товару нужна оптимизированная 3D-модель (USDZ для iOS, glTF для Android) весом до 5–10 МБ. Подготовка одной модели по фото товара стоит 15 000–60 000 ₸ в зависимости от детализации, поэтому AR-примерку выгодно запускать на ограниченной витрине из 20–50 ходовых позиций, а не на всём каталоге сразу.

AR хорошо сочетается с рекомендательными механиками: примерил диван — получи подборку ковров под него. Как строится такая логика, мы разбирали в статье про AI-персонализацию в мобильных приложениях.

On-device или облако: где обрабатывать изображения

Архитектурное решение, которое нужно принять до старта разработки:

Критерий On-device (на смартфоне) Облако (свой сервер / API)
Скорость ответа 30–150 мс 0,5–3 секунды + сеть
Работа офлайн Да, полностью Нет
Приватность данных Фото не покидает телефон Нужны согласия и защита канала
Стоимость эксплуатации ~0 ₸ за запрос От 2–15 ₸ за изображение
Сложность моделей Ограничена ресурсами устройства Любая, включая тяжёлые LLM-vision
Обновление модели Через релиз приложения Мгновенно на сервере

Наша практика: типовые задачи (OCR, классификация, AR-трекинг) выносим на устройство, а редкие и сложные (глубокий анализ, сверка с базой из миллионов изображений) — в облако. Гибридная схема даёт скорость без счетов за API на каждый кадр камеры.

Сколько стоит Computer Vision в приложении: цены 2026

Ориентиры для рынка Казахстана при разработке в студии уровня middle/senior:

Модуль Стоимость Срок
OCR документов РК (удостоверение, чеки) 1,2–2,5 млн ₸ 3–5 недель
Распознавание фото на готовых моделях 1,5–3 млн ₸ 4–6 недель
Кастомная модель под ваши объекты 3,5–7 млн ₸ 6–10 недель
AR-примерка (20–30 3D-моделей) 3–6,5 млн ₸ 6–12 недель
Приложение с CV-функциями под ключ от 8 млн ₸ от 12 недель

Вилка зависит от трёх факторов: нужна ли кастомная модель или хватит готовой, сколько платформ (iOS + Android почти всегда дешевле на Flutter, чем два натива), и требуется ли серверная часть с админ-панелью. Подробный разбор структуры бюджета — в материале сколько стоит AI-приложение.

Как мы внедряем CV: пять этапов без сюрпризов

  1. Проверка гипотезы (1 неделя). Берём 100–300 реальных фото заказчика и прогоняем через готовые модели. Если точность достаточна — экономим миллионы на кастомной разработке.
  2. Прототип на реальных данных (2–3 недели). Рабочий экран с камерой и распознаванием, который можно дать в руки сотрудникам. Решение о продолжении принимается по цифрам точности, а не по презентации.
  3. Дообучение модели — только если готовые решения не дотянули. Собираем и размечаем датасет, обучаем, замеряем на отложенной выборке.
  4. Интеграция и оптимизация. Квантование модели под NPU, обработка плохого света и дрожащих рук, fallback-сценарии, когда распознавание не уверено.
  5. Запуск и контроль качества. Метрики точности в проде: что не распозналось, собирается в очередь на ручную проверку и идёт в следующий цикл дообучения.

Applications.kz работает с 2007 года, за это время команда выпустила 300+ проектов для рынков Казахстана, ОАЭ и Таиланда. Офис в Алматы, очные встречи и работа по договору с фиксированной сметой — детали на странице разработки мобильных приложений в Алматы. Опишите задачу по телефону +7 (707) 928-13-15 — посчитаем смету за 24 часа: какие CV-функции дадут эффект в вашем случае, что взять из готового, а что обучать под вас.

Частые вопросы

Работает ли распознавание без интернета?

Да, если модель встроена в приложение и исполняется на устройстве. OCR, классификация фото и AR-трекинг полностью работают офлайн — это стандартная схема для полевых сценариев: склады, сельская местность, паркинги. Интернет нужен только для синхронизации результатов с сервером, и её можно делать отложенно, когда связь появится.

Распознаёт ли OCR казахский язык?

Русский текст готовые движки читают с точностью 95%+ сразу. Специфические казахские символы (ә, қ, ң, ө, ұ, ү и другие) требуют дообучения модели и словарной пост-обработки — это плюс 400–800 тыс. ₸ к бюджету. Для документов РК, где казахский дублируется русским, часто достаточно гибридной логики без полного дообучения.

Сколько 3D-моделей нужно для запуска AR-примерки?

Рекомендуем стартовать с 20–50 ходовых товаров: этого хватает, чтобы измерить влияние на конверсию, не вкладываясь в оцифровку всего каталога. Подготовка одной модели стоит 15 000–60 000 ₸. Если AR показывает результат, каталог масштабируется поэтапно, начиная с категорий с высоким процентом возвратов.

Нужно ли собирать данные для обучения?

Не всегда. Типовые задачи — текст, лица, штрих-коды, общие категории объектов — закрываются готовыми моделями без единого размеченного фото. Собственный датасет нужен, когда объекты уникальны: ваши товары, специфические дефекты, документы нестандартного формата. Обычно достаточно 500–3000 размеченных изображений, и разметку мы берём на себя.

Что выбрать: готовый SDK или свою модель?

Начинайте с готового — ML Kit и Vision бесплатны и закрывают 70% задач. Своя модель оправдана, когда точность готовой ниже 90% на ваших данных, объекты специфичны или SDK-вендор берёт оплату за каждый запрос при больших объёмах. Мы проверяем это за неделю на реальных фото до подписания основной сметы.