Bumalik sa lahat ng artikulo

Paano binibilang ng AI ang mga bagay sa larawan (at bakit mas magaling ito kaysa sa iyo)

Napapagod ang mga mata mo pagkatapos ng 50 bolt. Binibilang ng AI ang lahat sa ilang segundo, na may kulay na tuldok sa bawat isa bilang patunay. Narito kung paano talaga ito gumagana.

list Sa artikulong ito

Napapagod ang mga mata mo pagkatapos ng 50 bolt. Ang AI ay nagsisimula pa lang.

Ang pagbibilang ng mga bagay nang manu-mano ay parang madali hanggang sa hindi na. Lampas sa mga 30 item, ang utak mo ay lumilipat mula sa pagbibilang patungo sa pag-eestimate. Nawawala ka sa puwesto, binibilang muli ang isang hilera, at nagtataka pa rin kung tama ang resulta. Ang AI-powered na pagbibilang ng bagay ay may ibang diskarte: pinoproseso nito ang buong larawan nang sabay-sabay, minamarkahan ang bawat item na nakita, at ibinabalik ang kabuuang bilang sa ilang segundo. Narito kung paano ito gumagana.

Ano ang nangyayari kapag nag-upload ka ng larawan

Kapag nagpadala ka ng larawan sa isang AI counting tool, tatlong bagay ang nangyayari nang sunud-sunod at napakabilis.

Una, pinoproseso ng sistema ang iyong larawan: binabago ang laki sa standard na dimensyon, no-normalize ang mga kulay, at inaayos ang aspect ratio. Ilang millisecond lang ito.

Susunod ay ang detection. Ini-scan ng computer vision model ang buong larawan sa isang forward pass. Ang mga modernong arkitektura tulad ng YOLO (You Only Look Once) ay hinahati ang larawan sa grid at hinuhulaan ang mga lokasyon ng bagay, klasipikasyon, at confidence score para sa bawat cell nang sabay-sabay. Isipin mo ito bilang pagkakaiba sa pagbasa ng pahina salita-per-salita at pagtanggap ng buong pahina sa isang sulyap.

Para sa bawat bagay na nakita ng model, nagpo-produce ito ng klasipikasyon (kung ano sa tingin nito ang bagay), lokasyon (mga coordinate sa larawan), at confidence score sa pagitan ng 0 at 1 na kumakatawan sa kung gaano ito kasigurong. Ang score na 0.85 ay nangangahulugang 85% sigurado ang model na nakakita ito ng tunay na bagay sa puwesto na iyon.

Sa huli, sinasala ng confidence threshold ang mga mahihinang detection. Anumang mas mababa sa cutoff ay itinatapon, binabawasan ang mga maling bilang. Ang mga natitirang detection ay binibilang at ipinapakita bilang mga kulay na tuldok o bounding box sa iyong orihinal na larawan, kabuuang bilang kasama ang visual na mapa kung ano ang binilang at kung saan.

Metal bolts on a workbench with green AI detection markers on each one, showing how object counting overlays work

Ang agwat sa katumpakan: bakit nalampasan ng AI ang mga mata mo

Ang paningin ng tao ay may matigas na limitasyon na bihirang pag-isipan ng karamihan. Tinatawag ito ng mga cognitive scientist na subitizing: kayang kilalanin agad ng utak ang dami ng 1 hanggang 4 na item na may halos perpektong katumpakan. Lagpas sa threshold na iyon, kailangan mo nang magbilang isa-isa, at nagsisimula nang pumasok ang mga pagkakamali.

Natuklasan ng pananaliksik mula sa Nventory na ang mga taong nagbibilang ng inventory sa normal na bilis ng trabaho ay may average na katumpakan na mga 91%, humigit-kumulang isang maling bilang sa bawat 10 item. Tumataas ang error rate sa pagkapagod, pagkagambala, at dami. Sa oras na nakatitig ka sa 200 fastener sa isang istante, ang utak mo ay naghuhula, hindi nagbibilang.

Hindi napapagod ang AI, hindi nawawala sa puwesto, at hindi nag-eestimate. Ang fine-tuned na YOLOv11 model na sinubukan sa tunay na kondisyon ng bodega ay nakamit ang 97% na katumpakan sa pagbibilang sa maraming round ng pagsubok (Springer, 2026). Sa kontroladong kondisyon na may malinis at maliwanag na mga larawan, umaabot ang katumpakan sa 99%. Lumalaki lang ang agwat habang dumarami ang bilang.

Ang threshold na 50 item

Sa 50 item, magkatulad ang katumpakan ng pagbibilang ng tao at AI. Sa 500, halos hindi bumagal ang AI habang tumataas ang error rate mo sa bawat minutong lumilipas. Mas malaki ang bilang, mas malaki ang kalamangan.

Bilis: minuto laban sa segundo

Ang isang manggagawa sa bodega na manu-manong nagbibilang ng inventory ay nagpoproseso ng mga 250 hanggang 750 item bawat oras. Ang buong physical count ng isang katamtamang bodega ay tumatagal ng 1 hanggang 3 araw kasama ang isang team.

Ang isang AI counting system ay nagpoproseso ng isang larawan sa loob ng wala pang 250 millisecond sa modernong hardware. Kahit sa smartphone, karaniwang tumatagal ng 1 hanggang 3 segundo. Ang isang larawan ay maaaring maglaman ng daan-daang item, lahat binibilang sa isang pass.

Hindi pantay ang matematika. Ang gawaing nangangailangan ng team na apat na tao sa isang 8-oras na araw, mga 2,500 SKU, ay maaaring tapusin sa ilang minuto kapag bawat istante ay kinunan ng larawan at pinroseso. Ang bottleneck ay lumilipat mula sa pagbibilang patungo sa pagkuha ng larawan.

Warehouse worker in safety vest looking up at tall shelves stacked with hundreds of boxes, showing the scale of manual inventory counting

Kung saan nahihirapan ang AI counting

Hindi perpekto ang AI counting. Ang pag-alam sa mga kahinaan nito ay tumutulong sa iyong magpasya kung kailan ito pagkakatiwalaan at kung kailan i-verify ang resulta.

Mga nagsasapawan at nakapatong na bagay

Nakikita lang ng model ang nasa ibabaw. Ang mga item na nakabaon sa ilalim ay hindi nakikita ng kamera. Kinumpirma ng pananaliksik ng ICCV 2025 na ang mga nakapatong na bagay ay nananatiling isa sa mga pinakamahirap na problema sa pagbibilang.

Napakaliit na bagay

Ang mga item na mas mababa sa mga 20 pixel sa larawan ay nagiging mahirap na makilala mula sa noise. Nakakatulong ang mas mataas na resolusyon ng larawan, ngunit may praktikal na limitasyon.

Siksik at magulo na mga eksena

Habang nagsisiksikan ang mga bagay, maaaring pagsamahin ng model ang magkatabing item bilang isang detection o makaligtaan ang mga bagay na naiipit sa pagitan ng iba.

Transparent o reflective na item

Ang salamin, malinaw na plastik, at makintab na ibabaw ay walang malinaw na mga gilid, na nagreresulta sa mga nawawalang bilang o huwad na bilang.

Napakataas na dami sa isang frame

Ang mga bilang na higit sa 1,000 sa isang larawan ay nagpapalaki ng maliliit na pagkakamali per bagay at nagiging kapansin-pansing kabuuan. Ang paghahati sa maraming larawan ang solusyon dito.

Kung kailan pa rin panalo ang pagbibilang nang manu-mano

Kailangan ng AI ang mga bagay na nakikita sa larawan. May mga sitwasyon kung saan ang paghuhusga ng tao ang mas magandang tool:

  • Mas kaunti sa 10 item - Ang kakayahang subitizing ng utak mo ang nagpapabilis sa isang sulyap kaysa sa anumang app.
  • Ganap na nakatagong bagay - Ang mga item sa loob ng saradong kahon, sa likod ng dingding, o sa ilalim ng ibang item ay hindi nakikita ng kamera.
  • Magkakahalong hindi regular na tumpok - Ang magkakaibang bagay sa random na orientasyon ay maaaring makalito sa mga model na umaasa sa visual na pagkakapare-pareho.
  • Walang kamerang magagamit - Kung minsan ang pinakamabilis na paraan ay ang simpleng pagbibilang nang manu-mano.

Ang praktikal na hangganan: kung lahat ng bagay ay malinaw na nakikita at mahigit 20 ang bilang, halos palaging nagbibigay ang AI ng mas mabilis at mas tumpak na resulta.

Person holding a smartphone to photograph small electronic components spread on a dark surface, showing how easy it is to count objects with a phone

Ang buod

Ang AI-powered na pagbibilang ay mas mabilis, mas tumpak, at mas consistent kaysa sa manu-manong pagbibilang para sa karamihan ng praktikal na sitwasyon. Ang mga natitirang limitasyon ay totoo ngunit lubos nang nauunawaan, at lumiliit sa bawat bagong henerasyon ng model.

Sa susunod na haharap ka sa isang istante ng mga parte, isang tray ng mga component, o isang palet ng mga kahon, subukang kumuha ng larawan sa halip na magbilang nang manu-mano. Makakakuha ka ng sagot sa ilang segundo, at malamang na mas tumpak pa ito kaysa sa iyo.