Назад до всіх статей

Як ШІ рахує об'єкти на фотографіях (і чому він робить це краще за вас)

Ваші очі втомлюються після 50 болтів. ШІ рахує їх усі за секунди, відмічаючи кожен кольоровою точкою. Ось як це насправді працює.

list У цій статті

Ваші очі втомлюються після 50 болтів. А ШІ тільки розігрівається.

Рахувати вручну здається просто, доки не перестане. Після приблизно 30 предметів ваш мозок переключається з рахунку на оцінку. Ви втрачаєте місце, перераховуєте ряд і все одно сумніваєтесь у результаті. Підрахунок об'єктів за допомогою ШІ працює інакше: він обробляє все зображення цілком, відмічає кожен знайдений об'єкт і видає підсумок за секунди. Ось як це влаштовано.

Що відбувається, коли ви завантажуєте фотографію

Коли ви надсилаєте фотографію в інструмент підрахунку на базі ШІ, три речі відбуваються у швидкій послідовності.

Спочатку система попередньо обробляє зображення: змінює розмір до стандартних параметрів, нормалізує кольори та коригує співвідношення сторін. Це займає мілісекунди.

Далі йде виявлення. Модель комп'ютерного зору сканує все зображення за один прохід. Сучасні архітектури, такі як YOLO (You Only Look Once), розділяють зображення на сітку та одночасно передбачають розташування об'єктів, їхню класифікацію та показники впевненості для кожної комірки. Уявіть різницю між читанням сторінки слово за словом та охопленням усієї сторінки одним поглядом.

Для кожного знайденого об'єкта модель видає класифікацію (що, на її думку, являє собою об'єкт), місцезнаходження (координати на зображенні) та показник впевненості від 0 до 1, що відображає ступінь впевненості. Показник 0.85 означає, що модель на 85% впевнена, що знайшла реальний об'єкт у цій точці.

Нарешті, поріг впевненості відфільтровує слабкі виявлення. Все, що нижче порогу, відкидається, що зменшує кількість хибних підрахунків. Решта виявлень підсумовується та відображається у вигляді кольорових точок або обмежувальних рамок на вашій оригінальній фотографії: загальний підсумок плюс візуальна карта того, що саме було підраховано і де.

Metal bolts on a workbench with green AI detection markers on each one, showing how object counting overlays work

Розрив у точності: чому ШІ перевершує ваш зір

Людський зір має жорстку межу, про яку більшість людей не замислюється. Когнітивні вчені називають це subitizing (миттєве визначення кількості): мозок може миттєво розпізнавати кількості від 1 до 4 предметів з майже ідеальною точністю. За цим порогом доводиться рахувати по одному, і помилки починають накопичуватися.

Дослідження Nventory виявило, що люди, які рахують товарні запаси в нормальному робочому темпі, досягають у середньому близько 91% точності, приблизно одна помилка на кожні 10 предметів. Відсоток помилок зростає з втомою, відволіканням та збільшенням кількості. Коли ви дивитесь на 200 кріпильних деталей на полиці, ваш мозок вже вгадує, а не рахує.

ШІ не втомлюється, не втрачає місце і не оцінює приблизно. Точно налаштована модель YOLOv11, протестована в реальних складських умовах, досягла 97% точності підрахунку за кілька раундів тестування (Springer, 2026). У контрольованих умовах з чистими, добре освітленими зображеннями точність сягає 99%. Розрив лише збільшується зі зростанням кількості.

Поріг у 50 предметів

При 50 предметах точність підрахунку людини та ШІ порівнянна. При 500 ШІ ледь сповільнюється, тоді як ваш відсоток помилок зростає з кожною хвилиною. Чим більша кількість, тим більша перевага.

Швидкість: хвилини проти секунд

Складський працівник, який вручну рахує товарні запаси, обробляє приблизно від 250 до 750 одиниць на годину. Повна фізична інвентаризація середнього складу займає від 1 до 3 днів з командою.

Система підрахунку на базі ШІ обробляє одне зображення менш ніж за 250 мілісекунд на сучасному обладнанні. Навіть на смартфоні це зазвичай займає від 1 до 3 секунд. Одна фотографія може містити сотні предметів, усі підраховані за один прохід.

Арифметика нерівна. Завдання, яке займає у команди з чотирьох осіб 8-годинний робочий день, приблизно 2,500 SKU, може бути виконане за хвилини, якщо кожну полицю сфотографувати й обробити. Вузьке місце зміщується з підрахунку на фотографування.

Warehouse worker in safety vest looking up at tall shelves stacked with hundreds of boxes, showing the scale of manual inventory counting

Де підрахунок з ШІ має труднощі

Підрахунок з ШІ не бездоганний. Знання його слабких місць допомагає вирішити, коли йому довіряти, а коли перевіряти результат.

Об'єкти, що перекриваються та складені

Модель бачить лише те, що на поверхні. Предмети, сховані знизу, невидимі для камери. Дослідження ICCV 2025 підтвердили, що складені об'єкти залишаються однією з найскладніших задач підрахунку.

Дуже маленькі об'єкти

Предмети розміром менше приблизно 20 пікселів на зображенні важко відрізнити від шуму. Фотографії з вищою роздільною здатністю допомагають, але є практична межа.

Щільні, захаращені сцени

Коли об'єкти розташовані тісно, модель може об'єднати сусідні предмети в одне виявлення або пропустити об'єкти, затиснуті між іншими.

Прозорі або відбиваючі предмети

Скло, прозорий пластик та блискучі поверхні не мають чітких країв, що призводить до пропущених або фантомних підрахунків.

Дуже велика кількість в одному кадрі

При кількості понад 1,000 на одному зображенні невеликі помилки по кожному об'єкту перетворюються на помітні відхилення підсумку. Розділення на кілька фотографій вирішує цю проблему.

Коли ручний підрахунок все ще перемагає

ШІ потребує видимих об'єктів на фотографії. Є ситуації, коли людське судження все ще краще:

  • Менше 10 предметів - Здатність вашого мозку до subitizing робить швидкий погляд швидшим за будь-який додаток.
  • Повністю приховані об'єкти - Предмети всередині закритих коробок, за стінами або під іншими предметами невидимі для камери.
  • Змішані безладні купи - Нагромадження дуже різних об'єктів у випадкових орієнтаціях може заплутати моделі, що очікують візуальної однорідності.
  • Немає камери під рукою - Іноді найшвидший шлях - просто порахувати вручну.

Практична межа: якщо всі об'єкти добре видно і їх більше приблизно 20, ШІ майже завжди дає швидший і точніший результат.

Person holding a smartphone to photograph small electronic components spread on a dark surface, showing how easy it is to count objects with a phone

Підсумок

Підрахунок за допомогою ШІ тепер швидший, точніший і стабільніший, ніж ручний підрахунок для більшості практичних сценаріїв. Залишені обмеження реальні, але добре вивчені, і скорочуються з кожним новим поколінням моделей.

Наступного разу, коли ви зіткнетесь з полицею деталей, лотком компонентів або палетою коробок, спробуйте сфотографувати замість ручного підрахунку. Ви отримаєте відповідь за секунди, і вона, ймовірно, буде точнішою за вашу.