Tagasi kõigi artiklite juurde

Kuidas tehisintellekt loeb objekte fotodel (ja miks ta seda paremini teeb kui sina)

Teie silmad vausivad parast 50 polti. Tehisintellekt loeb need koik mone sekundiga, varviliste tappidega igauhel toestuseks. Siin on, kuidas see tegelikult toimib.

list Selles artiklis

Teie silmad vausivad parast 50 polti. Tehisintellekt alles soojeneb.

Asjade kasin loendamine tundub lihtne, kuni see enam pole. Umbes 30 eseme juures lulituvad teie ajud loendamiselt hindamisele. Kaotate koha, loendate rida uuesti ja kahtlete ikkagi, kas saite oigesti. Tehisintellektil pohinev objektide loendamine labi teistmoodi: see tootleb kogu pilti korraga, margib iga leitud eseme ja tagastab mone sekundiga koguarvu. Siin on, kuidas see toimib.

Mis juhtub, kui laadite foto ules

Kui saadate foto tehisintellekti loendamistooriistale, toimub kiires jarjestuses kolm asja.

Esiteks eeltootleb susteem teie pilti: muudab suurust standardmootmele, normaliseerib varve ja kohandab kuvasuhet. See voetab millisekundeid.

Seejarel tuleb tuvastamine. Arvutingemise mudel skaneerib kogu pilti uhes labimisel. Kaasaegsed arhitektuurid nagu YOLO (You Only Look Once) jagavad pildi ruudustikuks ja ennustavad iga lahtri jaoks korraga objektide asukohti, klassifikatsioone ja usaldusskoore. Kujutage ette vahet lehekulje lugemise vahel sona-sonalt ja kogu lehekulje haaramisel uhe pilguga.

Iga leitud objekti kohta annab mudel klassifikatsiooni (mida ta arvab objektiks olevat), asukoha (koordinaadid pildil) ja usaldusskori vahemikus 0 kuni 1, mis naitab kindlust. Skoor 0.85 tahendab, et mudel on 85% kindel, et leidis selles kohas tgeliku objekti.

Lopuks filtreerib usalduslaevi norgad tuvastused valja. Koik alla piirvaartuse jaab korrvale, vahendades valetuvastusi. Allejaanud tuvastused summeeritakse ja kuvatakse varviliste tappide voi piiritlusruutidena teie algsel fotol: koguarv pluss visuaalne kaart sellest, mida tapselt kus loendati.

Metallist poldid toolaual roheliste TI tuvastusmarkeritega igauhe peal, naidates kuidas objektide loendamise ulekate toimib

Tapsuse lohe: miks tehisintellekt edestab teie silmi

Inimnagemisil on range piir, millele enamik inimesi kunagi ei motle. Kognitiivteadlased nimetavad seda subitiseerimiseks: aju suudab kohe ara tunda koguseid 1 kuni 4 eseme puhul peaaegu tausliku tapsusega. Ule selle lavi tuleb lugeda ukshaval ja vead hakkavad sisse hiilima.

Nventory uuring nitas, et inimesed, kes loendavad laovaru tavalise tookiirusega, saavutavad keskmiselt umbes 91% tapsuse - umbes uks viga iga 10 eseme kohta. See veamaar touseb koos vausimuse, tahelepanu hajumise ja kogusega. Kui vaatate riiulil 200 kinnitusdetaili, siis teie aju pakub, mitte ei loe.

Tehisintellekt ei vausita, kaota kohta ega paku. Peenhaelestatud YOLOv11 mudel, mida testiti tegelikes laotingimustes, saavutas 97% loendamistapsuse mitmes testimisvoorus (Springer, 2026). Kontrollitud tingimustes puhaste, hasti valgustatud piltidega ulatub tapsus 99%-ni. Lohe ainult suureneb koguste kasvades.

50 eseme lavi

50 eseme juures on inimese ja tehisintellekti loendamistapsus vorreldav. 500 juures aeglustub tehisintellekt vaevalt, samas kui teie veamaar touseb iga mooduva minutiga. Mida suurem arv, seda suurem eelis.

Kiirus: minutid vs sekundid

Laotootaja, kes loendab laovaru kasitsi, tootleb umbes 250 kuni 750 eset tunnis. Keskmise lao taielik fuusiline loendus vottab meeskonnaga 1 kuni 3 paeva.

Tehisintellekti loendamissussteem tootleb uhe pildi alla 250 millisekundi kaasaegsel riistvaral. Isegi nutitelefonil kulub tavaliselt 1 kuni 3 sekundit. Uhel fotol voib olla sadu esemeid, koik loendatud uhes labimisel.

Matemaatika on uhepoolne. Ulesanne, milleks nelja inimese meeskond vajab 8-tunnist toopaeva - umbes 2,500 tooteuuhikut - saab lahendada mone minutiga, kui iga riiul pildistatakse ja toodeldakse. Pudelikael liigub loendamiselt pildistamisele.

Laotootaja ohutusvsetis, kes vaatab koergetele riiulitele, mis on taius sadade kastidega, naidates kasitsi laoinventuuri mastaapi

Kus tehisintellekti loendamine hangub

Tehisintellekti loendamine pole eksimatu. Selle norkade kohtade tundmine aitab otsustada, millal seda usaldada ja millal tulemust kontrollida.

Kattuvad ja virnastatuid objektid

Mudel naeb ainult seda, mis on pinnal. Alla peidetud esemed on kaamerale nahtamatud. ICCV 2025 uuring kinnitas, et virnastatuid objektid on jatkuvalt uks koige raskemaid loendamisprobleeme.

Vaga vaaikesed objektid

Esemed, mis on pildil vaiksemad kui umbes 20 pikslit, muutuvad murast raskesti eristatavaks. Korgema eraldusvoimega fotod aitavad, kuid on praktiline piir.

Tihedad, segased stseenid

Kui objektid pressitakse kokku, voib mudel uhendada korvuti asetsevad esemed uheks tuvastuseks voi jaatta vahele teiste vahele pressitud objekte.

Labipastvad voi peegeldavad objektid

Klaas, labipaistev plast ja laikivad pinnad ei oma selgeid servi, mis viib puuduvate voi fantoomloenduste.

Vaga suured kogused uhel kaadril

Loendused ule 1,000 uhel pildil voimenavad vaikesi objektipohiseid vigu margatatavateks koguarvudeks. Jagamine mitmeks fotoks lahendab selle.

Millal kasitsi loendamine ikkagi voiidab

Tehisintellekt vajab nahtavaid objekte fotol. On olukordi, kus inimese otsustusvone on parem toorist:

  • Alla 10 eseme - Teie aju subitiseerimisvoime teeb kiire pilgu kiiremaks kui ukskik rakendus.
  • Taielikult peidetud objektid - Esemed suletud kastides, seinte taga voi teiste esemete all on kaamerale nahtamatud.
  • Segased ebakorraparased hunnikud - Vaga erinevate objektide segadik juhuslikes suundades voib segadusse ajada mudeleid, mis ootavad visuaalset jarjepidevust.
  • Kaamerat pole saadaval - Monikord on kiireim tee lihtsalt kasitsi lugemine.

Praktiline piirjoon: kui koik objektid on selgesti nahtavad ja neid on rohkem kui umbes 20, annab tehisintellekt peaaegu alati kiirema ja tapsema tulemuse.

Inimene hoiab nutitelefoni, pildistades vaaikseid elektroonikakomponente, mis on laiali tumedal pinnal, naidates kui lihtne on telefoniga objekte lugeda

Kokkuvote

Tehisintellektil pohinev loendamine on nuud kiirem, tapsem ja jarjepidevam kui kasitsi loendamine enamiku praktiliste stsenaariumide puhul. Allejaanud piirangud on tgelised, kuid hasti moistetavad, ning vahenevad iga uue mudelipolvkonnaga.

Jargmine kord, kui seisate silmitsi riiuliga tais detaile, alusega tais komponente voi kaubaalusega tais kaste, proovige pildistada, mitte kasitsi lugeda. Saate vastuse mone sekundiga ja see on toenaoliselt tapsem kui teie oma.