Wróć do wszystkich artykułów

Jak AI liczy obiekty na zdjeciach (i dlaczego robi to lepiej niz ty)

Twoje oczy meczna sie po 50 srubach. AI liczy je wszystkie w kilka sekund, z kolorowymi kropkami na kazdym, zeby to udowodnic. Oto jak to naprawde dziala.

list W tym artykule

Twoje oczy meczna sie po 50 srubach. AI dopiero sie rozkrecna.

Reczne liczenie wydaje sie proste, dopoki takie nie jest. Po okolo 30 elementach mozg przechodzi od liczenia do szacowania. Gubisz sie, przeliczasz rzad jeszcze raz i nadal nie masz pewnosci, czy wynik jest poprawny. Liczenie obiektow z AI podchodzi do tego inaczej: przetwarza caly obraz naraz, oznacza kazdy znaleziony element i zwraca suma w kilka sekund. Oto jak to dziala.

Co sie dzieje po przeslaniu zdjecia

Kiedy wysylasz zdjecie do narzedzia liczacego z AI, trzy rzeczy dziejn sie w szybkiej kolejnosci.

Najpierw system przetwarza obraz wstepnie: zmienia rozmiar do standardowych wymiarow, normalizuje kolory i dostosowuje proporcje. To zajmuje milisekundy.

Nastepnie przychodzi detekcja. Model computer vision skanuje caly obraz w jednym przebiegu. Nowoczesne architektury, takie jak YOLO (You Only Look Once), dzielna obraz na siatke i jednoczesnie przewiduja lokalizacje obiektow, klasyfikacje oraz wyniki pewnosci dla kazdej komorki. Pomysl o tym jak o roznicy miedzy czytaniem strony slowo po slowie a objaciem calej strony jednym spojrzeniem.

Dla kazdego znalezionego obiektu model generuje klasyfikacje (czym wedlug niego jest obiekt), lokalizacje (wspolrzedne w obrazie) oraz wynik pewnosci miedzy 0 a 1, reprezentujacy poziom pewnosci. Wynik 0.85 oznacza, ze model jest w 85% pewny, ze znalazl prawdziwy obiekt w tym miejscu.

Na koncu prog pewnosci odfiltrowuje slabe detekcje. Wszystko ponizej progu jest odrzucane, co zmniejsza falszywe zliczenia. Pozostale detekcje sa sumowane i wyswietlane jako kolorowe kropki lub ramki na oryginalnym zdjeciu: calkowita liczba plus wizualna mapa tego, co zostalo policzone i gdzie.

Metal bolts on a workbench with green AI detection markers on each one, showing how object counting overlays work

Roznica w dokladnosci: dlaczego AI przewyzsza twoje oczy

Ludzki wzrok ma twardy limit, o ktorym wiekszosci ludzi nawet nie mysli. Naukowcy kognitywni nazywaja to subitizing: mozg potrafi natychmiast rozpoznac liczebnosci od 1 do 4 elementow z niemal doskonala dokladnoscia. Powyzej tego progu musisz liczyc element po elemencie, a bledy zaczynaja sie wkradac.

Badania Nventory wykazaly, ze ludzie liczacy inwentarz w normalnym tempie pracy osiagaja srednia dokladnosc okolo 91%, czyli mniej wiecej jeden blad na kazde 10 elementow. Wskaznik bledow rosnie wraz ze zmeczeniem, rozproszeniem uwagi i iloscia. Kiedy wpatrujesz sie w 200 elementow zlacznych na polce, twoj mozg szacuje, a nie liczy.

AI nie meczy sie, nie gubi i nie szacuje. Dostrojony model YOLOv11 testowany w rzeczywistych warunkach magazynowych osiagnal 97% dokladnosci liczenia w wielu rundach testow (Springer, 2026). W kontrolowanych warunkach, z czystymi, dobrze oswietlonymi obrazami, dokladnosc siega 99%. Roznica poglebienia sie wraz ze wzrostem ilosci.

Prog 50 elementow

Przy 50 elementach dokladnosc liczenia czlowieka i AI jest porownywalna. Przy 500 AI ledwo zwalnia, podczas gdy twoj wskaznik bledow rosnie z kazda minuta. Im wieksze liczby, tym wieksza przewaga.

Szybkosc: minuty kontra sekundy

Pracownik magazynu recznie liczacy inwentarz przetwarza mniej wiecej 250 do 750 elementow na godzine. Pelne fizyczne liczenie sredniego magazynu zajmuje od 1 do 3 dni z zespolem.

System liczenia z AI przetwarza pojedynczy obraz w mniej niz 250 milisekund na nowoczesnym sprzecie. Nawet na smartfonie zajmuje to zwykle od 1 do 3 sekund. Jedno zdjecie moze zawierac setki elementow, wszystkie policzone w jednym przebiegu.

Matematyka jest niesymetryczna. Zadanie, ktore zajmuje czteroosobowemu zespolowi caly 8-godzinny dzien pracy, okolo 2,500 SKU, moze byc wykonane w kilka minut, gdy kazda polka jest sfotografowana i przetworzona. Waskie gardlo przesuwa sie z liczenia na fotografowanie.

Warehouse worker in safety vest looking up at tall shelves stacked with hundreds of boxes, showing the scale of manual inventory counting

Gdzie liczenie z AI ma trudnosci

Liczenie z AI nie jest niezawodne. Znajomosc jego slabych stron pomaga zdecydowac, kiedy mu zaufac, a kiedy zweryfikowac wynik.

Nakladajace sie i pientrzone obiekty

Model widzi tylko to, co jest na powierzchni. Elementy ukryte pod spodem sa niewidoczne dla kamery. Badania ICCV 2025 potwierdzily, ze obiekty ulozone w stosy pozostaja jednym z najtrudniejszych problemow liczenia.

Bardzo male obiekty

Elementy o rozmiarze ponizej okolo 20 pikseli w obrazie staja sie trudne do odroznienia od szumu. Zdjecia o wyzszej rozdzielczosci pomagaja, ale istnieje praktyczny limit.

Geste, zatloczone sceny

Gdy obiekty stloczna sie razem, model moze polaczyc sasiednie elementy w jedna detekcje lub przeoczyc obiekty wcisniate miedzy inne.

Przezroczyste lub odblaskowe przedmioty

Szklo, przezroczysty plastik i blyszczace powierzchnie nie maja wyraznych krawedzi, co prowadzi do pominiecia lub fantomowych zliczenh.

Bardzo duze ilosci w jednej klatce

Zliczenia powyzej 1,000 w jednym obrazie wzmacniaja male bledy na obiekt w zauwaznalne sumy. Podzielenie na wiele zdjec rozwiazuje ten problem.

Kiedy reczne liczenie wciaz wygrywa

AI potrzebuje widocznych obiektow na fotografii. Sa sytuacje, w ktorych ludzka ocena jest wciaz lepszym narzedziem:

  • Mniej niz 10 elementow - Zdolnosc subitizing twojego mozgu sprawia, ze szybkie spojrzenie jest szybsze niz jakakolwiek aplikacja.
  • Calkowicie ukryte obiekty - Elementy wewniatrz zamknietych pudelek, za scianami lub pod innymi przedmiotami sa niewidoczne dla kamery.
  • Mieszane, nieregularne sterty - Plasmanina bardzo roznych obiektow w losowych orientacjach moze zmylic modele oczekujace spojnosci wizualnej.
  • Brak dostepnej kamery - Czasami najszybszna droga jest po prostu reczne policzenie.

Praktyczna linia podzialu: jesli wszystkie obiekty sa wyraznie widoczne i jest ich wiecej niz okolo 20, AI prawie zawsze dostarcza szybszy i dokladniejszy wynik.

Person holding a smartphone to photograph small electronic components spread on a dark surface, showing how easy it is to count objects with a phone

Podsumowanie

Liczenie z AI jest teraz szybsze, dokladniejsze i bardziej konsekwentne niz reczne liczenie w wiekszosci praktycznych scenariuszy. Pozostale ograniczenia sa realne, ale dobrze poznane, i zmniejszaja sie z kazda nowa generacja modeli.

Nastepnym razem, gdy staniesz przed polka z czesciami, taca z komponentami lub paleta z pudelkami, sprobuj zrobic zdjecie zamiast liczyc recznie. Otrzymasz odpowiedz w kilka sekund i prawdopodobnie bedzie dokladniejsza niz twoja.