50 civatadan sonra gözleriniz yorulur. Yapay zeka daha yeni ısınmaya başlıyor.
Elle bir şeyleri saymak basit hissedilir - ta ki olmayıncaya kadar. Yaklaşık 30 nesneyi geçince beyniniz saymaktan tahmin etmeye geçer. Yerinizi kaybedersiniz, bir sırayı tekrar sayarsınız ve yine de doğru sayıp saymadığınızı merak edersiniz. Yapay zeka destekli nesne sayımı farklı bir yaklaşım benimser: tüm görüntüyü bir seferde işler, bulduğu her nesneyi işaretler ve toplamı saniyeler içinde döndürür. İşte böyle çalışıyor.
Bir fotoğraf yüklediğinizde ne olur
Bir yapay zeka sayım aracına fotoğraf gönderdiğinizde, üç şey hızla art arda gerçekleşir.
Öncelikle sistem görüntünüzü ön işler: standart bir boyuta yeniden boyutlandırır, renkleri normalleştirir ve en-boy oranını ayarlar. Bu milisaniyeler sürer.
Ardından algılama gelir. Bir bilgisayar görüsü modeli, tek bir ileri geçişte tüm görüntüyü tarar. YOLO (You Only Look Once) gibi modern mimariler görüntüyü bir ızgara şeklinde böler ve her hücre için nesne konumlarını, sınıflandırmaları ve güven puanlarını aynı anda tahmin eder. Bunu bir sayfayı kelime kelime okumak ile sayfanın tümünü bir bakışta kavramak arasındaki fark gibi düşünün.
Modelin bulduğu her nesne için bir sınıflandırma (nesnenin ne olduğunu düşündüğü), bir konum (görüntüdeki koordinatlar) ve ne kadar emin olduğunu gösteren 0 ile 1 arasında bir güven puanı üretir. 0.85 puanı, modelin o noktada gerçek bir nesne bulduğuna %85 emin olduğu anlamına gelir.
Son olarak, bir güven eşiği zayıf algılamaları filtreler. Kesme değerinin altındaki her şey atılır ve yanlış sayımlar azaltılır. Kalan algılamalar toplanır ve orijinal fotoğrafınız üzerinde renkli noktalar veya sınır kutuları olarak gösterilir: toplam sayı ve neyin nerede sayıldığının görsel bir haritası.

Doğruluk farkı: yapay zeka neden gözlerinizi geride bırakır
İnsan görüsü, çoğu insanın düşünmediği katı bir sınıra sahiptir. Bilişsel bilimciler buna subitizing derler: beyin 1 ile 4 arasındaki nesne miktarlarını neredeyse mükemmel doğrulukla anında tanıyabilir. Bu eşiğin ötesinde tek tek saymanız gerekir ve hatalar sızmaya başlar.
Nventory'nin araştırması, normal çalışma hızında envanter sayan insanların ortalama yaklaşık %91 doğruluk elde ettiğini, yani her 10 nesnede yaklaşık bir yanlış sayım yaptığını buldu. Bu hata oranı yorgunluk, dikkat dağıtma ve miktar arttıkça yükselir. Raftaki 200 bağlantı elemanına baktığınızda, beyniniz artık saymıyor, tahmin ediyor.
Yapay zeka yorulmaz, yerini kaybetmez veya tahmin etmez. Gerçek depo koşullarında test edilen ince ayarlı bir YOLOv11 modeli, birden fazla test turunda %97 sayım doğruluğu elde etti (Springer, 2026). Temiz ve iyi aydınlatılmış görüntülerin olduğu kontrollü koşullarda doğruluk %99'a ulaşır. Fark, miktarlar arttıkça büyümeye devam eder.
50 nesnede insan ve yapay zekanın sayım doğruluğu karşılaştırılabilir düzeydedir. 500'de yapay zeka neredeyse hiç yavaşlamazken, hata oranınız geçen her dakika ile tırmanır. Sayı ne kadar büyükse, avantaj o kadar büyüktür.
Hız: dakikalar ve saniyeler
Elle envanter sayan bir depo çalışanı saatte yaklaşık 250 ile 750 nesne işler. Orta ölçekli bir deponun tam fiziksel sayımı bir ekiple 1 ile 3 gün sürer.
Bir yapay zeka sayım sistemi, modern donanım üzerinde tek bir görüntüyü 250 milisaniyenin altında işler. Akıllı telefonda bile genellikle 1 ile 3 saniye sürer. Tek bir fotoğraf yüzlerce nesne içerebilir ve tümü tek bir geçişte sayılır.
Hesap dengesizdir. Dört kişilik bir ekibin 8 saatlik bir iş gününde yaptığı görev, yaklaşık 2,500 ürün kodu, her raf fotoğraflanıp işlendikten sonra dakikalar içinde tamamlanabilir. Darboğaz saymaktan fotoğraflamaya kayar.

Yapay zeka sayımının zorlandığı durumlar
Yapay zeka sayımı yanılmaz değildir. Zayıf noktalarını bilmek, ne zaman güvenip ne zaman sonucu doğrulamanız gerektiğine karar vermenize yardımcı olur.
Model yalnızca yüzeydekileri görür. Altına gömülmüş nesneler kameraya görünmezdir. ICCV 2025 araştırması, yığılmış nesnelerin en zor sayım problemlerinden biri olmaya devam ettiğini doğruladı.
Görüntüde yaklaşık 20 pikselin altındaki nesneler gürültüden ayırt edilmesi zor hale gelir. Daha yüksek çözünürlüklü fotoğraflar yardımcı olur ancak pratik bir sınır vardır.
Nesneler bir araya yığıldığında, model bitişik nesneleri tek bir algılama olarak birleştirebilir veya aradaki nesneleri kaçırabilir.
Cam, şeffaf plastik ve parlak yüzeyler belirgin kenarlara sahip değildir ve bu da kaçırılan veya hayali sayımlara yol açar.
Tek bir görüntüde 1,000'in üzerindeki sayımlar, nesne başına küçük hataları fark edilir toplamlara büyütür. Birden fazla fotoğrafa bölmek bunu çözer.
Elle saymanın hâlâ kazandığı durumlar
Yapay zekanın bir fotoğrafta görünür nesnelere ihtiyacı vardır. İnsan yargısının hâlâ daha iyi bir araç olduğu durumlar şunlardır:
- 10'dan az nesne - Beyninizin subitizing yeteneği, hızlı bir bakışı herhangi bir uygulamadan daha hızlı kılar.
- Tamamen gizli nesneler - Kapalı kutuların içindeki, duvarların arkasındaki veya diğer nesnelerin altındaki nesneler kameraya görünmez.
- Karışık düzensiz yığınlar - Rastgele yönlerdeki çok farklı nesnelerin karışıklığı, görsel tutarlılık bekleyen modellerin kafasını karıştırabilir.
- Kamera mevcut değil - Bazen en hızlı yol sadece elle saymaktır.
Pratik ayrım çizgisi: tüm nesneler açıkça görünüyorsa ve yaklaşık 20'den fazlaysa, yapay zeka neredeyse her zaman daha hızlı ve daha doğru bir sonuç sunar.

Sonuç
Yapay zeka destekli sayım artık çoğu pratik senaryoda elle sayımdan daha hızlı, daha doğru ve daha tutarlı. Kalan sınırlamalar gerçek ancak iyi anlaşılmış durumda ve her yeni model nesliyle küçülüyor.
Bir dahaki sefere bir parça rafı, bir bileşen tepsisi veya bir kutu paleti ile karşılaştığınızda, elle saymak yerine bir fotoğraf çekmeyi deneyin. Saniyeler içinde bir cevap alırsınız ve muhtemelen sizinkinden daha doğru olacaktır.