सभी लेखों पर वापस जाएं

AI फोटो में वस्तुएं कैसे गिनता है (और यह आपसे बेहतर क्यों है)

आपकी आंखें 50 बोल्ट के बाद थक जाती हैं। AI उन सभी को सेकंडों में गिन लेता है, हर एक पर रंगीन बिंदु लगाकर साबित करता है। यहां बताया गया है कि यह वास्तव में कैसे काम करता है।

list इस लेख में

आपकी आंखें 50 बोल्ट के बाद थक जाती हैं। AI तो अभी बस शुरू हो रहा है।

हाथ से गिनना आसान लगता है, जब तक कि यह मुश्किल न हो जाए। लगभग 30 वस्तुओं के बाद, आपका दिमाग गिनने से अनुमान लगाने पर स्विच कर जाता है। आप अपनी जगह खो देते हैं, एक पंक्ति दोबारा गिनते हैं, और फिर भी सोचते हैं कि क्या सही गिना। AI-संचालित वस्तु गणना अलग तरीके से काम करती है: यह पूरी छवि को एक साथ प्रोसेस करता है, हर पाई गई वस्तु को चिह्नित करता है, और सेकंडों में कुल संख्या देता है। यहां बताया गया है कि यह कैसे काम करता है।

जब आप फोटो अपलोड करते हैं तो क्या होता है

जब आप AI गणना टूल को फोटो भेजते हैं, तो तीन चीजें तेज़ क्रम में होती हैं।

पहले, सिस्टम आपकी छवि को प्रीप्रोसेस करता है: एक मानक आयाम में आकार बदलना, रंगों को सामान्य करना, और पहलू अनुपात को समायोजित करना। इसमें मिलीसेकंड लगते हैं।

इसके बाद पहचान आती है। एक कंप्यूटर विज़न मॉडल एक ही फॉरवर्ड पास में पूरी छवि को स्कैन करता है। YOLO (You Only Look Once) जैसी आधुनिक आर्किटेक्चर छवि को एक ग्रिड में विभाजित करती हैं और हर सेल के लिए एक साथ वस्तुओं की स्थिति, वर्गीकरण और विश्वास स्कोर की भविष्यवाणी करती हैं। इसे ऐसे समझें जैसे एक पेज को शब्द दर शब्द पढ़ने और पूरे पेज को एक नज़र में देखने में अंतर हो।

मॉडल जो हर वस्तु पाता है, उसके लिए एक वर्गीकरण (वह क्या सोचता है कि वस्तु क्या है), एक स्थान (छवि में निर्देशांक), और 0 से 1 के बीच एक विश्वास स्कोर देता है जो दर्शाता है कि वह कितना निश्चित है। 0.85 का स्कोर मतलब मॉडल 85% आश्वस्त है कि उसने उस स्थान पर एक वास्तविक वस्तु पाई।

अंत में, एक विश्वास सीमा कमज़ोर पहचानों को छान देती है। सीमा से नीचे की हर चीज़ हटा दी जाती है, जिससे गलत गणना कम होती है। शेष पहचानें जोड़ी जाती हैं और आपकी मूल फोटो पर रंगीन बिंदुओं या बाउंडिंग बॉक्स के रूप में प्रदर्शित होती हैं: एक कुल गणना और एक विज़ुअल मैप कि क्या गिना गया और कहां।

Metal bolts on a workbench with green AI detection markers on each one, showing how object counting overlays work

सटीकता का अंतर: AI आपकी आंखों से बेहतर क्यों है

मानव दृष्टि की एक कठोर सीमा है जिसके बारे में ज़्यादातर लोग कभी नहीं सोचते। संज्ञानात्मक वैज्ञानिक इसे subitizing कहते हैं: दिमाग 1 से 4 वस्तुओं की मात्रा को लगभग पूर्ण सटीकता से तुरंत पहचान सकता है। उस सीमा के बाद, आपको एक-एक करके गिनना पड़ता है, और गलतियां शुरू हो जाती हैं।

Nventory के शोध में पाया गया कि सामान्य कार्य गति से इन्वेंटरी गिनने वाले मनुष्य औसतन लगभग 91% सटीकता प्राप्त करते हैं, मोटे तौर पर हर 10 वस्तुओं में एक गलत गिनती। यह त्रुटि दर थकान, विचलन और मात्रा के साथ बढ़ती है। जब तक आप एक शेल्फ पर 200 फास्टनरों को देख रहे होते हैं, आपका दिमाग अनुमान लगा रहा होता है, गिन नहीं रहा।

AI थकता नहीं, अपनी जगह नहीं खोता, या अनुमान नहीं लगाता। वास्तविक गोदाम परिस्थितियों में परीक्षण की गई एक फाइन-ट्यून्ड YOLOv11 मॉडल ने कई राउंड के परीक्षण में 97% गणना सटीकता हासिल की (Springer, 2026)। नियंत्रित परिस्थितियों में साफ, अच्छी रोशनी वाली छवियों के साथ, सटीकता 99% तक पहुंचती है। मात्रा बढ़ने के साथ यह अंतर और बढ़ता ही जाता है।

50 वस्तुओं की सीमा

50 वस्तुओं पर, मानव और AI गणना सटीकता तुलनीय है। 500 पर, AI मुश्किल से धीमा होता है जबकि आपकी त्रुटि दर हर गुज़रते मिनट के साथ बढ़ती है। जितनी बड़ी गिनती, उतना बड़ा फायदा।

गति: मिनट बनाम सेकंड

एक गोदाम कर्मचारी जो मैन्युअल रूप से इन्वेंटरी गिनता है, प्रति घंटे लगभग 250 से 750 आइटम प्रोसेस करता है। एक मध्यम गोदाम की पूर्ण भौतिक गणना एक टीम के साथ 1 से 3 दिन लेती है।

एक AI गणना प्रणाली आधुनिक हार्डवेयर पर एक छवि को 250 मिलीसेकंड से कम में प्रोसेस करती है। स्मार्टफोन पर भी, इसमें आमतौर पर 1 से 3 सेकंड लगते हैं। एक फोटो में सैकड़ों आइटम हो सकते हैं, सभी एक ही पास में गिने जाते हैं।

गणित एकतरफा है। एक कार्य जो चार लोगों की टीम को 8 घंटे का दिन लेता है, लगभग 2,500 SKU, मिनटों में पूरा किया जा सकता है जब हर शेल्फ को फोटोग्राफ करके प्रोसेस किया जाए। बाधा गिनने से फोटोग्राफ करने पर स्थानांतरित हो जाती है।

Warehouse worker in safety vest looking up at tall shelves stacked with hundreds of boxes, showing the scale of manual inventory counting

जहां AI गणना में कठिनाई होती है

AI गणना अचूक नहीं है। इसकी कमज़ोरियों को जानने से आपको यह तय करने में मदद मिलती है कि कब इस पर भरोसा करें और कब परिणाम की जांच करें।

एक-दूसरे पर रखी और ढेर लगी वस्तुएं

मॉडल केवल वही देखता है जो सतह पर है। नीचे दबी वस्तुएं कैमरे के लिए अदृश्य हैं। ICCV 2025 के शोध ने पुष्टि की कि ढेर लगी वस्तुएं गणना की सबसे कठिन समस्याओं में से एक बनी हुई हैं।

बहुत छोटी वस्तुएं

छवि में लगभग 20 पिक्सेल से कम आकार की वस्तुओं को शोर से अलग करना मुश्किल हो जाता है। उच्च-रिज़ॉल्यूशन फोटो मदद करते हैं, लेकिन एक व्यावहारिक सीमा है।

घनी, अव्यवस्थित दृश्य

जब वस्तुएं एक साथ भीड़ करती हैं, तो मॉडल आसन्न वस्तुओं को एक पहचान में मिला सकता है या दूसरों के बीच दबी वस्तुओं को छोड़ सकता है।

पारदर्शी या परावर्तक वस्तुएं

कांच, पारदर्शी प्लास्टिक और चमकदार सतहों में स्पष्ट किनारों की कमी होती है, जिससे छूटी हुई या भ्रामक गणना होती है।

एक फ्रेम में बहुत अधिक मात्रा

एक छवि में 1,000 से अधिक की गिनती प्रति-वस्तु छोटी त्रुटियों को ध्यान देने योग्य कुल में बदल देती है। कई फोटो में विभाजित करना इसे हल करता है।

जब हाथ से गिनना अभी भी जीतता है

AI को फोटोग्राफ में दिखाई देने वाली वस्तुओं की ज़रूरत है। ऐसी स्थितियां हैं जहां मानव निर्णय अभी भी बेहतर उपकरण है:

  • 10 से कम वस्तुएं - आपके दिमाग की subitizing क्षमता एक त्वरित नज़र को किसी भी ऐप से तेज़ बनाती है।
  • पूरी तरह छिपी वस्तुएं - बंद बक्सों के अंदर, दीवारों के पीछे, या अन्य वस्तुओं के नीचे की चीज़ें कैमरे के लिए अदृश्य हैं।
  • मिश्रित अनियमित ढेर - यादृच्छिक दिशाओं में बहुत अलग-अलग वस्तुओं का ढेर उन मॉडलों को भ्रमित कर सकता है जो दृश्य समानता की उम्मीद करते हैं।
  • कोई कैमरा उपलब्ध नहीं - कभी-कभी सबसे तेज़ रास्ता बस हाथ से गिनना है।

व्यावहारिक विभाजन रेखा: यदि सभी वस्तुएं स्पष्ट रूप से दिखाई दे रही हैं और लगभग 20 से अधिक हैं, तो AI लगभग हमेशा तेज़ और अधिक सटीक परिणाम देता है।

Person holding a smartphone to photograph small electronic components spread on a dark surface, showing how easy it is to count objects with a phone

निष्कर्ष

AI-संचालित गणना अब अधिकांश व्यावहारिक परिदृश्यों के लिए मैन्युअल गणना से तेज़, अधिक सटीक और अधिक सुसंगत है। शेष सीमाएं वास्तविक हैं लेकिन अच्छी तरह से समझी गई हैं, और हर नई मॉडल पीढ़ी के साथ सिकुड़ रही हैं।

अगली बार जब आप पार्ट्स की शेल्फ, कंपोनेंट्स की ट्रे, या बक्सों की पैलेट का सामना करें, तो हाथ से गिनने के बजाय फोटो लेकर देखें। आपको सेकंडों में जवाब मिलेगा, और यह शायद आपकी गिनती से अधिक सटीक होगा।