आपकी आंखें 50 बोल्ट के बाद थक जाती हैं। AI तो अभी बस शुरू हो रहा है।
हाथ से गिनना आसान लगता है, जब तक कि यह मुश्किल न हो जाए। लगभग 30 वस्तुओं के बाद, आपका दिमाग गिनने से अनुमान लगाने पर स्विच कर जाता है। आप अपनी जगह खो देते हैं, एक पंक्ति दोबारा गिनते हैं, और फिर भी सोचते हैं कि क्या सही गिना। AI-संचालित वस्तु गणना अलग तरीके से काम करती है: यह पूरी छवि को एक साथ प्रोसेस करता है, हर पाई गई वस्तु को चिह्नित करता है, और सेकंडों में कुल संख्या देता है। यहां बताया गया है कि यह कैसे काम करता है।
जब आप फोटो अपलोड करते हैं तो क्या होता है
जब आप AI गणना टूल को फोटो भेजते हैं, तो तीन चीजें तेज़ क्रम में होती हैं।
पहले, सिस्टम आपकी छवि को प्रीप्रोसेस करता है: एक मानक आयाम में आकार बदलना, रंगों को सामान्य करना, और पहलू अनुपात को समायोजित करना। इसमें मिलीसेकंड लगते हैं।
इसके बाद पहचान आती है। एक कंप्यूटर विज़न मॉडल एक ही फॉरवर्ड पास में पूरी छवि को स्कैन करता है। YOLO (You Only Look Once) जैसी आधुनिक आर्किटेक्चर छवि को एक ग्रिड में विभाजित करती हैं और हर सेल के लिए एक साथ वस्तुओं की स्थिति, वर्गीकरण और विश्वास स्कोर की भविष्यवाणी करती हैं। इसे ऐसे समझें जैसे एक पेज को शब्द दर शब्द पढ़ने और पूरे पेज को एक नज़र में देखने में अंतर हो।
मॉडल जो हर वस्तु पाता है, उसके लिए एक वर्गीकरण (वह क्या सोचता है कि वस्तु क्या है), एक स्थान (छवि में निर्देशांक), और 0 से 1 के बीच एक विश्वास स्कोर देता है जो दर्शाता है कि वह कितना निश्चित है। 0.85 का स्कोर मतलब मॉडल 85% आश्वस्त है कि उसने उस स्थान पर एक वास्तविक वस्तु पाई।
अंत में, एक विश्वास सीमा कमज़ोर पहचानों को छान देती है। सीमा से नीचे की हर चीज़ हटा दी जाती है, जिससे गलत गणना कम होती है। शेष पहचानें जोड़ी जाती हैं और आपकी मूल फोटो पर रंगीन बिंदुओं या बाउंडिंग बॉक्स के रूप में प्रदर्शित होती हैं: एक कुल गणना और एक विज़ुअल मैप कि क्या गिना गया और कहां।

सटीकता का अंतर: AI आपकी आंखों से बेहतर क्यों है
मानव दृष्टि की एक कठोर सीमा है जिसके बारे में ज़्यादातर लोग कभी नहीं सोचते। संज्ञानात्मक वैज्ञानिक इसे subitizing कहते हैं: दिमाग 1 से 4 वस्तुओं की मात्रा को लगभग पूर्ण सटीकता से तुरंत पहचान सकता है। उस सीमा के बाद, आपको एक-एक करके गिनना पड़ता है, और गलतियां शुरू हो जाती हैं।
Nventory के शोध में पाया गया कि सामान्य कार्य गति से इन्वेंटरी गिनने वाले मनुष्य औसतन लगभग 91% सटीकता प्राप्त करते हैं, मोटे तौर पर हर 10 वस्तुओं में एक गलत गिनती। यह त्रुटि दर थकान, विचलन और मात्रा के साथ बढ़ती है। जब तक आप एक शेल्फ पर 200 फास्टनरों को देख रहे होते हैं, आपका दिमाग अनुमान लगा रहा होता है, गिन नहीं रहा।
AI थकता नहीं, अपनी जगह नहीं खोता, या अनुमान नहीं लगाता। वास्तविक गोदाम परिस्थितियों में परीक्षण की गई एक फाइन-ट्यून्ड YOLOv11 मॉडल ने कई राउंड के परीक्षण में 97% गणना सटीकता हासिल की (Springer, 2026)। नियंत्रित परिस्थितियों में साफ, अच्छी रोशनी वाली छवियों के साथ, सटीकता 99% तक पहुंचती है। मात्रा बढ़ने के साथ यह अंतर और बढ़ता ही जाता है।
50 वस्तुओं पर, मानव और AI गणना सटीकता तुलनीय है। 500 पर, AI मुश्किल से धीमा होता है जबकि आपकी त्रुटि दर हर गुज़रते मिनट के साथ बढ़ती है। जितनी बड़ी गिनती, उतना बड़ा फायदा।
गति: मिनट बनाम सेकंड
एक गोदाम कर्मचारी जो मैन्युअल रूप से इन्वेंटरी गिनता है, प्रति घंटे लगभग 250 से 750 आइटम प्रोसेस करता है। एक मध्यम गोदाम की पूर्ण भौतिक गणना एक टीम के साथ 1 से 3 दिन लेती है।
एक AI गणना प्रणाली आधुनिक हार्डवेयर पर एक छवि को 250 मिलीसेकंड से कम में प्रोसेस करती है। स्मार्टफोन पर भी, इसमें आमतौर पर 1 से 3 सेकंड लगते हैं। एक फोटो में सैकड़ों आइटम हो सकते हैं, सभी एक ही पास में गिने जाते हैं।
गणित एकतरफा है। एक कार्य जो चार लोगों की टीम को 8 घंटे का दिन लेता है, लगभग 2,500 SKU, मिनटों में पूरा किया जा सकता है जब हर शेल्फ को फोटोग्राफ करके प्रोसेस किया जाए। बाधा गिनने से फोटोग्राफ करने पर स्थानांतरित हो जाती है।

जहां AI गणना में कठिनाई होती है
AI गणना अचूक नहीं है। इसकी कमज़ोरियों को जानने से आपको यह तय करने में मदद मिलती है कि कब इस पर भरोसा करें और कब परिणाम की जांच करें।
मॉडल केवल वही देखता है जो सतह पर है। नीचे दबी वस्तुएं कैमरे के लिए अदृश्य हैं। ICCV 2025 के शोध ने पुष्टि की कि ढेर लगी वस्तुएं गणना की सबसे कठिन समस्याओं में से एक बनी हुई हैं।
छवि में लगभग 20 पिक्सेल से कम आकार की वस्तुओं को शोर से अलग करना मुश्किल हो जाता है। उच्च-रिज़ॉल्यूशन फोटो मदद करते हैं, लेकिन एक व्यावहारिक सीमा है।
जब वस्तुएं एक साथ भीड़ करती हैं, तो मॉडल आसन्न वस्तुओं को एक पहचान में मिला सकता है या दूसरों के बीच दबी वस्तुओं को छोड़ सकता है।
कांच, पारदर्शी प्लास्टिक और चमकदार सतहों में स्पष्ट किनारों की कमी होती है, जिससे छूटी हुई या भ्रामक गणना होती है।
एक छवि में 1,000 से अधिक की गिनती प्रति-वस्तु छोटी त्रुटियों को ध्यान देने योग्य कुल में बदल देती है। कई फोटो में विभाजित करना इसे हल करता है।
जब हाथ से गिनना अभी भी जीतता है
AI को फोटोग्राफ में दिखाई देने वाली वस्तुओं की ज़रूरत है। ऐसी स्थितियां हैं जहां मानव निर्णय अभी भी बेहतर उपकरण है:
- 10 से कम वस्तुएं - आपके दिमाग की subitizing क्षमता एक त्वरित नज़र को किसी भी ऐप से तेज़ बनाती है।
- पूरी तरह छिपी वस्तुएं - बंद बक्सों के अंदर, दीवारों के पीछे, या अन्य वस्तुओं के नीचे की चीज़ें कैमरे के लिए अदृश्य हैं।
- मिश्रित अनियमित ढेर - यादृच्छिक दिशाओं में बहुत अलग-अलग वस्तुओं का ढेर उन मॉडलों को भ्रमित कर सकता है जो दृश्य समानता की उम्मीद करते हैं।
- कोई कैमरा उपलब्ध नहीं - कभी-कभी सबसे तेज़ रास्ता बस हाथ से गिनना है।
व्यावहारिक विभाजन रेखा: यदि सभी वस्तुएं स्पष्ट रूप से दिखाई दे रही हैं और लगभग 20 से अधिक हैं, तो AI लगभग हमेशा तेज़ और अधिक सटीक परिणाम देता है।

निष्कर्ष
AI-संचालित गणना अब अधिकांश व्यावहारिक परिदृश्यों के लिए मैन्युअल गणना से तेज़, अधिक सटीक और अधिक सुसंगत है। शेष सीमाएं वास्तविक हैं लेकिन अच्छी तरह से समझी गई हैं, और हर नई मॉडल पीढ़ी के साथ सिकुड़ रही हैं।
अगली बार जब आप पार्ट्स की शेल्फ, कंपोनेंट्स की ट्रे, या बक्सों की पैलेट का सामना करें, तो हाथ से गिनने के बजाय फोटो लेकर देखें। आपको सेकंडों में जवाब मिलेगा, और यह शायद आपकी गिनती से अधिक सटीक होगा।