Atgal į visus straipsnius

Kaip DI skaiciuoja objektus nuotraukose (ir kodel tai daro geriau nei jus)

Jusu akys pavargsta po 50 vartu. DI juos visus suskaiciuoja per kelias sekundes, spalvotais taskais ant kiekvieno irodyti tai. Stai kaip tai is tikruju veikia.

list Šiame straipsnyje

Jusu akys pavargsta po 50 vartu. DI tik pradeda issilti.

Skaiciuoti daiktus rankomis atrodo paprasta, kol taip nebera. Kai objektu daugiau nei 30, jusu smegenys pereina nuo skaiciavimo prie vertinimo. Prarandate vieta, perskaiciuojate eile ir vis tiek abejojate, ar suskaiciavote teisingai. DI objektu skaiciavimas veikia kitaip: jis apdoroja visa vaizda vienu metu, pazymi kiekviena rasta objekta ir per kelias sekundes grazina bendra skaiciu. Stai kaip tai veikia.

Kas vyksta, kai ikeliate nuotrauka

Kai siunciate nuotrauka DI skaiciavimo irankiui, greitai vienas po kito ivyksta trys dalykai.

Pirma, sistema isankstinai apdoroja jusu vaizda: pakeicia dydi iki standartinio matmens, normalizuoja spalvas ir pakoreguoja formato santyki. Tai uzima milisekundes.

Toliau vyksta aptikimas. Kompiuterines regos modelis nuskaito visa vaizda vienu praejimu. Siuolaikines architekturos, tokios kaip YOLO (You Only Look Once), padalija vaizda i tinkla ir vienu metu prognozuoja objektu vietas, klasifikacijas ir patikimumo balus kiekvienai langeliui. Isivaizduokite skirtuma tarp puslapio skaitymo zodis po zodzio ir viso puslapio apreptimo vienu zvilgsniu.

Kiekvienam rastam objektui modelis pateikia klasifikacija (ka mano objektas esantis), vieta (koordinates vaizde) ir patikimumo bala nuo 0 iki 1, rodanti, kiek jis tikras. Balas 0.85 reiskia, kad modelis 85% tikras, jog rado tikra objekta toje vietoje.

Galiausiai patikimumo slenkstis isfiltruoja silpnus aptikimus. Viskas zemiau ribines vertes atmetama, taip sumazinant klaidingu skaiciavimu skaiciu. Like aptikimai susumuojami ir rodomi kaip spalvoti taskai arba apibrezimai ant jusu originalios nuotraukos: bendras skaicius ir vizualus zemelapis, kas tiksliai buvo suskaiciuota ir kur.

Metaliniai varstai ant darbastalio su zaliais DI aptikimo zymekliais ant kiekvieno, rodantys kaip veikia objektu skaiciavimo perdanga

Tikslumo spraga: kodel DI pranoksta jusu akis

Zmogaus rega turi griezta riba, apie kuria dauguma zmoniu niekada negalvoja. Kognityvieji mokslininkai tai vadina subitizavimu: smegenys gali akimirksniu atpazinti kiekius nuo 1 iki 4 objektu beveik tobulai tiksliai. Virs sios ribos tenka skaiciuoti po viena, ir klaidos pradeda slinkti.

Nventory tyrimas parode, kad zmones, skaiciuojantys atsargas normaliu darbo greiciu, pasiekia vidutiniskai apie 91% tiksluma - mazdaug viena klaida kas 10 objektu. Klaidu daznis dideja del nuovargio, blasko ir kiekio. Kai ziurite i 200 tvirtinimo detaliu lentynoje, jusu smegenys speja, o ne skaiciuoja.

DI nepavargsta, nepraranda vietos ir nespeja. Tiksliai suderintas YOLOv11 modelis, isbangytas realiomis sandelio salygomis, pasieke 97% skaiciavimo tiksluma per kelis bandymu etapus (Springer, 2026). Kontroliuojamomis salygomis su svariais, gerai apsviestiems vaizdais tikslumas siekia 99%. Spraga tik dideja augant kiekiams.

50 objektu riba

Esant 50 objektu, zmogaus ir DI skaiciavimo tikslumas yra panasus. Esant 500, DI vos suleteja, o jusu klaidu daznis dideja su kiekviena einancia minute. Kuo didesnis skaicius, tuo didesnis pranasumas.

Greitis: minutes prieš sekundes

Sandelio darbuotojas, rankiniu budu skaiciuojantis atsargas, apdoroja mazdaug 250-750 objektu per valanda. Pilnas fizinis vidutinio sandelio skaiciavimas trunka 1-3 dienas su komanda.

DI skaiciavimo sistema apdoroja viena vaizda per maziau nei 250 milisekundziu siuolaikine iranga. Net ismanyjame telefone tai paprastai uzima 1-3 sekundes. Vienoje nuotraukoje gali buti simtai objektu, visi suskaiciuoti vienu praejimu.

Matematika akivaizdi. Uzduotis, kuriai keturiu zmoniu komandai reikia 8 valandu darbo dienos - mazdaug 2,500 prekiu - gali buti atlikta per minutes, kai kiekviena lentyna nufotografuojama ir apdorojama. Siaura vieta persikelia nuo skaiciavimo prie fotografavimo.

Sandelio darbuotojas su saugos liemene, ziurintis i aukstus stelazus, prikrautus simtu deziu, rodantis rankinio atsargu skaiciavimo masta

Kur DI skaiciavimas susiduria su sunkumais

DI skaiciavimas nera neklydingas. Zinoti jo silpnasias vietas padeda nuspesti, kada juo pasitiketi ir kada patikrinti rezultata.

Persidengiantys ir sukrauti objektai

Modelis mato tik tai, kas yra pavirsiuje. Po apacia pasleptus objektus kamera nemato. ICCV 2025 tyrimas patvirtino, kad sukrauti objektai islieka viena sudatingiausiu skaiciavimo problemu.

Labai mazi objektai

Objektai, mazesni nei mazdaug 20 pikseliu vaizde, tampa sunkiai atskiriami nuo triuksmo. Aukstesnes raiskyos nuotraukos padeda, bet yra praktine riba.

Tanki, netvarkingos scenos

Kai objektai susigrudzia, modelis gali sujungti gretimus objektus i viena aptikima arba praleisti tarp kitu isspraustas dalis.

Skaidrus arba atspindintys objektai

Stiklas, skaidrus plastikas ir blizgancios pavirsiai neturi ryskiu krastu, del to gali buti praleistu arba fantasminiu skaiciavimu.

Labai dideli kiekiai viename kadre

Skaiciavimai virs 1,000 viename vaizde padidina mazas klaidas kiekvienam objektui iki pastebimų bendrų sumų. Padalijimas i kelias nuotraukas tai issprend.

Kada skaiciavimas rankomis vis dar laimi

DI reikia matomu objektu nuotraukoje. Yra situaciju, kai zmogaus sprend. yra geresnis irankis:

  • Maziau nei 10 objektu - Jusu smegenu subitizavimo gebejimas leidzia greitu zvilgsniu suskaiciuoti greiciau nei bet kuri programele.
  • Visiskai pasleptus objektai - Daiktai uzdarytose dezese, uz sienu arba po kitais objektais yra nematomi kamerai.
  • Misrios netaisyklingos kruvos - Labai skirtingu objektu kratinys atsitiktine orientacija gali suklaidinti modelius, kurie tikisi vizualinio nuoseklumo.
  • Nera kameros - Kartais greiciausias budas yra tiesiog suskaiciuoti rankomis.

Praktine takoskyra: jei visi objektai aiškiai matomi ir jų daugiau nei apie 20, DI beveik visada pateikia greitesni ir tikslesni rezultata.

Zmogus laiko ismanuji telefona fotografuodamas mazus elektroninius komponentus, isbarstytus ant tamsaus pavirsiaus, rodantis kaip lengva skaiciuoti objektus telefonu

Apibendrinimas

DI paremtas skaiciavimas dabar yra greitesnis, tikslestnis ir nuoseklesnis nei rankinis skaiciavimas daugelyje praktiniu scenarijų. Likę apribojimai yra tikri, bet gerai suprantami, ir mazeja su kiekviena nauja modeliu karta.

Kita karta, kai susidursite su lentyna detaliiu, padeklu su komponentais ar palete deziu, pabandykite nufotografuoti, uzuot skaichiave rankomis. Atsakyma gausite per kelias sekundes, ir jis tikriausiai bus tikslestnis nei jusu.