Назад ко всем статьям

Как ИИ считает объекты на фотографиях (и почему он делает это лучше вас)

Ваши глаза устают после 50 болтов. ИИ считает их все за секунды, отмечая каждый цветной точкой. Вот как это работает на самом деле.

list В этой статье

Ваши глаза устают после 50 болтов. А ИИ только разогревается.

Считать вручную кажется просто, пока не перестанет. После примерно 30 предметов ваш мозг переключается со счета на оценку. Вы теряете место, пересчитываете ряд и все равно сомневаетесь в результате. Подсчет объектов с помощью ИИ работает иначе: он обрабатывает все изображение целиком, отмечает каждый найденный объект и выдает итог за секунды. Вот как это устроено.

Что происходит, когда вы загружаете фотографию

Когда вы отправляете фотографию в инструмент подсчета на базе ИИ, три вещи происходят в быстрой последовательности.

Сначала система предварительно обрабатывает изображение: изменяет размер до стандартных параметров, нормализует цвета и корректирует соотношение сторон. Это занимает миллисекунды.

Далее следует обнаружение. Модель компьютерного зрения сканирует все изображение за один проход. Современные архитектуры, такие как YOLO (You Only Look Once), делят изображение на сетку и одновременно предсказывают расположение объектов, их классификацию и показатели уверенности для каждой ячейки. Представьте себе разницу между чтением страницы слово за словом и охватом всей страницы одним взглядом.

Для каждого найденного объекта модель выдает классификацию (что, по ее мнению, представляет собой объект), местоположение (координаты на изображении) и показатель уверенности от 0 до 1, отражающий степень уверенности. Показатель 0.85 означает, что модель на 85% уверена, что нашла реальный объект в этой точке.

Наконец, порог уверенности отфильтровывает слабые обнаружения. Все, что ниже порога, отбрасывается, что снижает количество ложных подсчетов. Оставшиеся обнаружения суммируются и отображаются в виде цветных точек или ограничивающих рамок на вашей исходной фотографии: общий итог плюс визуальная карта того, что именно было подсчитано и где.

Metal bolts on a workbench with green AI detection markers on each one, showing how object counting overlays work

Разрыв в точности: почему ИИ превосходит ваше зрение

У человеческого зрения есть жесткий предел, о котором большинство людей не задумывается. Когнитивные ученые называют это subitizing (мгновенное определение количества): мозг может мгновенно распознавать количества от 1 до 4 предметов с почти идеальной точностью. За этим порогом приходится считать по одному, и ошибки начинают накапливаться.

Исследование Nventory показало, что люди, считающие товарные запасы в нормальном рабочем темпе, достигают в среднем около 91% точности, примерно одна ошибка на каждые 10 предметов. Процент ошибок растет с усталостью, отвлечением и увеличением количества. Когда вы смотрите на 200 крепежных деталей на полке, ваш мозг уже угадывает, а не считает.

ИИ не устает, не теряет место и не оценивает приблизительно. Точно настроенная модель YOLOv11, протестированная в реальных складских условиях, достигла 97% точности подсчета за несколько раундов тестирования (Springer, 2026). В контролируемых условиях с чистыми, хорошо освещенными изображениями точность достигает 99%. Разрыв только увеличивается с ростом количества.

Порог в 50 предметов

При 50 предметах точность подсчета человека и ИИ сопоставима. При 500 ИИ едва замедляется, в то время как ваш процент ошибок растет с каждой минутой. Чем больше количество, тем больше преимущество.

Скорость: минуты против секунд

Складской работник, вручную считающий товарные запасы, обрабатывает примерно от 250 до 750 единиц в час. Полная физическая инвентаризация среднего склада занимает от 1 до 3 дней с командой.

Система подсчета на базе ИИ обрабатывает одно изображение менее чем за 250 миллисекунд на современном оборудовании. Даже на смартфоне это обычно занимает от 1 до 3 секунд. Одна фотография может содержать сотни предметов, все подсчитанные за один проход.

Арифметика неравная. Задача, которая занимает у команды из четырех человек 8-часовой рабочий день, примерно 2,500 SKU, может быть выполнена за минуты, если каждую полку сфотографировать и обработать. Узкое место смещается с подсчета на фотографирование.

Warehouse worker in safety vest looking up at tall shelves stacked with hundreds of boxes, showing the scale of manual inventory counting

Где подсчет с ИИ испытывает трудности

Подсчет с ИИ не безупречен. Знание его слабых мест помогает решить, когда ему доверять, а когда проверять результат.

Перекрывающиеся и сложенные объекты

Модель видит только то, что на поверхности. Предметы, спрятанные снизу, невидимы для камеры. Исследования ICCV 2025 подтвердили, что сложенные объекты остаются одной из самых сложных задач подсчета.

Очень маленькие объекты

Предметы размером менее примерно 20 пикселей на изображении трудно отличить от шума. Фотографии с более высоким разрешением помогают, но есть практический предел.

Плотные, загроможденные сцены

Когда объекты расположены тесно, модель может объединить соседние предметы в одно обнаружение или пропустить объекты, зажатые между другими.

Прозрачные или отражающие предметы

Стекло, прозрачный пластик и блестящие поверхности лишены четких краев, что приводит к пропущенным или фантомным подсчетам.

Очень большое количество в одном кадре

При количестве более 1,000 на одном изображении небольшие ошибки по каждому объекту превращаются в заметные отклонения итога. Разделение на несколько фотографий решает эту проблему.

Когда ручной подсчет все еще выигрывает

ИИ нужны видимые объекты на фотографии. Есть ситуации, когда человеческое суждение по-прежнему лучше:

  • Менее 10 предметов - Способность вашего мозга к subitizing делает быстрый взгляд быстрее любого приложения.
  • Полностью скрытые объекты - Предметы внутри закрытых коробок, за стенами или под другими предметами невидимы для камеры.
  • Смешанные беспорядочные кучи - Нагромождение очень разных объектов в случайных ориентациях может запутать модели, ожидающие визуальной однородности.
  • Нет камеры под рукой - Иногда самый быстрый путь - просто посчитать вручную.

Практическая граница: если все объекты хорошо видны и их больше примерно 20, ИИ почти всегда дает более быстрый и точный результат.

Person holding a smartphone to photograph small electronic components spread on a dark surface, showing how easy it is to count objects with a phone

Итог

Подсчет с помощью ИИ теперь быстрее, точнее и стабильнее, чем ручной подсчет для большинства практических сценариев. Оставшиеся ограничения реальны, но хорошо изучены, и сокращаются с каждым новым поколением моделей.

В следующий раз, когда вы столкнетесь с полкой деталей, лотком компонентов или паллетой коробок, попробуйте сфотографировать вместо ручного подсчета. Вы получите ответ за секунды, и он, вероятно, будет точнее вашего.