అన్ని వ్యాసాలకు తిరిగి

AI ఫోటోలలో వస్తువులను ఎలా లెక్కిస్తుంది (మరియు ఇది మిమ్మల్ని ఎందుకు ఓడిస్తుంది)

మీ కళ్ళు 50 బోల్ట్‌ల తర్వాత అలసిపోతాయి. AI వాటన్నింటినీ సెకన్లలో లెక్కిస్తుంది, ప్రతిదానిపై రంగు చుక్కలు పెట్టి నిరూపిస్తుంది. ఇది నిజంగా ఎలా పని చేస్తుందో ఇక్కడ ఉంది.

list ఈ వ్యాసంలో

మీ కళ్ళు 50 బోల్ట్‌ల తర్వాత అలసిపోతాయి. AI అప్పుడే వేడెక్కుతోంది.

చేతితో లెక్కించడం సులభంగా అనిపిస్తుంది, అది కష్టంగా మారే వరకు. దాదాపు 30 వస్తువుల తర్వాత, మీ మెదడు లెక్కించడం నుండి అంచనా వేయడానికి మారుతుంది. మీరు మీ స్థానం కోల్పోతారు, ఒక వరుసను మళ్ళీ లెక్కిస్తారు, అయినా సరిగ్గా లెక్కించారా అని ఆలోచిస్తారు. AI-ఆధారిత వస్తువు లెక్కింపు వేరే విధానం తీసుకుంటుంది: ఇది మొత్తం చిత్రాన్ని ఒకేసారి ప్రాసెస్ చేస్తుంది, కనుగొన్న ప్రతి వస్తువును గుర్తిస్తుంది, మరియు సెకన్లలో మొత్తాన్ని ఇస్తుంది. ఇది ఎలా పని చేస్తుందో ఇక్కడ ఉంది.

మీరు ఫోటో అప్‌లోడ్ చేసినప్పుడు ఏం జరుగుతుంది

మీరు AI లెక్కింపు సాధనానికి ఫోటో పంపినప్పుడు, మూడు విషయాలు వేగంగా జరుగుతాయి.

మొదట, సిస్టమ్ మీ చిత్రాన్ని ప్రీప్రాసెస్ చేస్తుంది: ప్రామాణిక కొలతకు పరిమాణం మార్చడం, రంగులను సాధారణీకరించడం, మరియు కోణ నిష్పత్తిని సర్దుబాటు చేయడం. ఇది మిల్లీసెకన్లు తీసుకుంటుంది.

తర్వాత గుర్తింపు వస్తుంది. ఒక కంప్యూటర్ విజన్ మోడల్ ఒకే ఫార్వర్డ్ పాస్‌లో మొత్తం చిత్రాన్ని స్కాన్ చేస్తుంది. YOLO (You Only Look Once) వంటి ఆధునిక ఆర్కిటెక్చర్‌లు చిత్రాన్ని గ్రిడ్‌గా విభజించి ప్రతి సెల్‌కు ఏకకాలంలో వస్తువు స్థానాలు, వర్గీకరణలు మరియు నమ్మకం స్కోర్‌లను అంచనా వేస్తాయి. ఇది ఒక పేజీని పదం పదంగా చదవడం మరియు మొత్తం పేజీని ఒక్క చూపులో చూడటం మధ్య తేడా లాంటిది.

మోడల్ కనుగొన్న ప్రతి వస్తువుకు ఒక వర్గీకరణ (ఆ వస్తువు ఏమిటని అనుకుంటుంది), ఒక స్థానం (చిత్రంలో నిర్దేశాంకాలు), మరియు 0 నుండి 1 మధ్య నమ్మకం స్కోర్ ఇస్తుంది, ఇది ఎంత ఖచ్చితంగా ఉందో సూచిస్తుంది. 0.85 స్కోర్ అంటే మోడల్ ఆ స్థానంలో నిజమైన వస్తువు కనుగొన్నానని 85% నమ్మకంగా ఉంది.

చివరగా, ఒక నమ్మకం పరిమితి బలహీన గుర్తింపులను వడపోస్తుంది. పరిమితి కంటే తక్కువ ఉన్నవన్నీ తొలగించబడతాయి, ఇది తప్పుడు లెక్కలను తగ్గిస్తుంది. మిగిలిన గుర్తింపులు లెక్కించబడి మీ అసలు ఫోటోపై రంగు చుక్కలు లేదా బౌండింగ్ బాక్స్‌లుగా ప్రదర్శించబడతాయి: మొత్తం లెక్క మరియు ఏమి లెక్కించబడింది, ఎక్కడ అనే దృశ్య మ్యాప్.

వర్క్‌బెంచ్‌పై లోహపు బోల్ట్‌లు ప్రతి ఒక్కదానిపై ఆకుపచ్చ AI గుర్తింపు మార్కర్‌లతో, వస్తువు లెక్కింపు ఓవర్‌లేలు ఎలా పని చేస్తాయో చూపిస్తుంది

ఖచ్చితత్వ అంతరం: AI మీ కళ్ళను ఎందుకు మించిపోతుంది

మానవ దృష్టికి చాలా మంది ఎప్పుడూ ఆలోచించని ఒక కఠినమైన పరిమితి ఉంది. అభిజ్ఞా శాస్త్రవేత్తలు దీన్ని subitizing అంటారు: మెదడు 1 నుండి 4 వస్తువుల పరిమాణాన్ని దాదాపు పరిపూర్ణ ఖచ్చితత్వంతో తక్షణంగా గుర్తించగలదు. ఆ పరిమితి దాటిన తర్వాత, మీరు ఒక్కొక్కటిగా లెక్కించాలి, మరియు తప్పులు మొదలవుతాయి.

Nventory పరిశోధన ప్రకారం, సాధారణ పని వేగంతో ఇన్వెంటరీ లెక్కించే మానవులు సగటున 91% ఖచ్చితత్వం సాధిస్తారు, అంటే ప్రతి 10 వస్తువులలో ఒక తప్పు లెక్క. ఈ తప్పు రేటు అలసట, పరధ్యానం మరియు పరిమాణంతో పెరుగుతుంది. మీరు షెల్ఫ్‌పై 200 ఫాస్టెనర్‌లను చూస్తున్నప్పుడు, మీ మెదడు అంచనా వేస్తోంది, లెక్కించడం లేదు.

AI అలసిపోదు, స్థానం కోల్పోదు లేదా అంచనా వేయదు. నిజమైన గోదాం పరిస్థితుల్లో పరీక్షించిన ఫైన్-ట్యూన్డ్ YOLOv11 మోడల్ బహుళ రౌండ్ల పరీక్షలో 97% లెక్కింపు ఖచ్చితత్వం సాధించింది (Springer, 2026). నియంత్రిత పరిస్థితుల్లో శుభ్రమైన, బాగా వెలుతురున్న చిత్రాలతో, ఖచ్చితత్వం 99% కు చేరుతుంది. పరిమాణాలు పెరిగేకొద్దీ ఈ అంతరం మరింత పెరుగుతుంది.

50 వస్తువుల పరిమితి

50 వస్తువుల వద్ద, మానవ మరియు AI లెక్కింపు ఖచ్చితత్వం పోల్చదగినవి. 500 వద్ద, AI అరుదుగా మందగిస్తుంది అయితే మీ తప్పు రేటు ప్రతి నిమిషంతో పెరుగుతుంది. లెక్క ఎంత పెద్దయితే, ప్రయోజనం అంత ఎక్కువ.

వేగం: నిమిషాలు వర్సెస్ సెకన్లు

గోదాం కార్మికుడు మాన్యువల్‌గా ఇన్వెంటరీ లెక్కిస్తూ గంటకు దాదాపు 250 నుండి 750 వస్తువులను ప్రాసెస్ చేస్తాడు. మధ్యస్థ గోదాం యొక్క పూర్తి భౌతిక లెక్కింపుకు ఒక బృందంతో 1 నుండి 3 రోజులు పడుతుంది.

AI లెక్కింపు వ్యవస్థ ఆధునిక హార్డ్‌వేర్‌పై ఒక చిత్రాన్ని 250 మిల్లీసెకన్ల కంటే తక్కువ సమయంలో ప్రాసెస్ చేస్తుంది. స్మార్ట్‌ఫోన్‌లో కూడా, సాధారణంగా 1 నుండి 3 సెకన్లు పడుతుంది. ఒక ఫోటోలో వందల వస్తువులు ఉండవచ్చు, అన్నీ ఒకే పాస్‌లో లెక్కించబడతాయి.

లెక్కలు ఏకపక్షమైనవి. నలుగురి బృందానికి 8 గంటల రోజు పట్టే పని, దాదాపు 2,500 SKU, ప్రతి షెల్ఫ్‌ను ఫోటోగ్రాఫ్ చేసి ప్రాసెస్ చేసినప్పుడు నిమిషాల్లో పూర్తవుతుంది. అడ్డంకి లెక్కించడం నుండి ఫోటోగ్రాఫ్ చేయడానికి మారుతుంది.

భద్రతా వెస్ట్ ధరించిన గోదాం కార్మికుడు వందల బాక్సులతో నిండిన ఎత్తైన షెల్ఫ్‌ల వైపు చూస్తున్నాడు, మాన్యువల్ ఇన్వెంటరీ లెక్కింపు స్థాయిని చూపిస్తుంది

AI లెక్కింపు ఎక్కడ ఇబ్బంది పడుతుంది

AI లెక్కింపు తప్పు లేనిది కాదు. దాని బలహీనతలను తెలుసుకోవడం ఎప్పుడు నమ్మాలి మరియు ఎప్పుడు ఫలితాన్ని తనిఖీ చేయాలో నిర్ణయించడంలో సహాయపడుతుంది.

అతిపెట్టిన మరియు పేర్చిన వస్తువులు

మోడల్ ఉపరితలంపై ఉన్నవి మాత్రమే చూస్తుంది. కింద ఉన్న వస్తువులు కెమెరాకు కనిపించవు. ICCV 2025 పరిశోధన పేర్చిన వస్తువులు అత్యంత కష్టమైన లెక్కింపు సమస్యలలో ఒకటిగా ఉన్నాయని నిర్ధారించింది.

చాలా చిన్న వస్తువులు

చిత్రంలో దాదాపు 20 పిక్సెల్స్ కంటే తక్కువ ఉన్న వస్తువులు శబ్దం నుండి వేరు చేయడం కష్టమవుతుంది. అధిక-రిజల్యూషన్ ఫోటోలు సహాయపడతాయి, కానీ ఒక ఆచరణాత్మక పరిమితి ఉంది.

దట్టమైన, అస్తవ్యస్తమైన దృశ్యాలు

వస్తువులు కలిసి రద్దీగా ఉన్నప్పుడు, మోడల్ పక్కనున్న వస్తువులను ఒక గుర్తింపులో కలిపివేయవచ్చు లేదా ఇతరుల మధ్య నొక్కబడిన వస్తువులను మిస్ చేయవచ్చు.

పారదర్శక లేదా ప్రతిబింబించే వస్తువులు

గాజు, పారదర్శక ప్లాస్టిక్ మరియు మెరిసే ఉపరితలాలకు స్పష్టమైన అంచులు ఉండవు, ఇది తప్పిపోయిన లేదా భ్రమాత్మక లెక్కలకు దారితీస్తుంది.

ఒక ఫ్రేమ్‌లో చాలా ఎక్కువ పరిమాణాలు

ఒక చిత్రంలో 1,000 కంటే ఎక్కువ లెక్కలు ప్రతి-వస్తువు చిన్న తప్పులను గుర్తించదగిన మొత్తాలుగా మారుస్తాయి. బహుళ ఫోటోలుగా విభజించడం దీనిని పరిష్కరిస్తుంది.

చేతితో లెక్కించడం ఇంకా గెలిచే సందర్భాలు

AI కి ఫోటోగ్రాఫ్‌లో కనిపించే వస్తువులు అవసరం. మానవ నిర్ణయం ఇంకా మెరుగైన సాధనమైన పరిస్థితులు ఉన్నాయి:

  • 10 కంటే తక్కువ వస్తువులు - మీ మెదడు యొక్క subitizing సామర్థ్యం ఒక శీఘ్ర చూపును ఏ యాప్ కంటే వేగంగా చేస్తుంది.
  • పూర్తిగా దాగిన వస్తువులు - మూసిన బాక్సుల లోపల, గోడల వెనుక లేదా ఇతర వస్తువుల కింద ఉన్న వస్తువులు కెమెరాకు కనిపించవు.
  • మిశ్రమ అక్రమ కుప్పలు - యాదృచ్ఛిక దిశలలో చాలా భిన్నమైన వస్తువుల కుప్ప దృశ్య సమానత్వం ఆశించే మోడళ్లను గందరగోళపరచవచ్చు.
  • కెమెరా అందుబాటులో లేదు - కొన్నిసార్లు అత్యంత వేగవంతమైన మార్గం చేతితో లెక్కించడమే.

ఆచరణాత్మక విభజన రేఖ: అన్ని వస్తువులు స్పష్టంగా కనిపిస్తే మరియు దాదాపు 20 కంటే ఎక్కువ ఉంటే, AI దాదాపు ఎల్లప్పుడూ వేగవంతమైన, ఖచ్చితమైన ఫలితాన్ని అందిస్తుంది.

చీకటి ఉపరితలంపై చల్లారిన చిన్న ఎలక్ట్రానిక్ భాగాలను ఫోటో తీయడానికి స్మార్ట్‌ఫోన్ పట్టుకున్న వ్యక్తి, ఫోన్‌తో వస్తువులను లెక్కించడం ఎంత సులభమో చూపిస్తుంది

ముగింపు

AI-ఆధారిత లెక్కింపు ఇప్పుడు చాలా ఆచరణాత్మక పరిస్థితుల్లో మాన్యువల్ లెక్కింపు కంటే వేగంగా, ఖచ్చితంగా మరియు స్థిరంగా ఉంది. మిగిలిన పరిమితులు నిజమైనవి కానీ బాగా అర్థమైనవి, మరియు ప్రతి కొత్త మోడల్ తరంతో తగ్గుతున్నాయి.

తదుపరిసారి మీరు భాగాల షెల్ఫ్, కాంపోనెంట్‌ల ట్రే లేదా బాక్సుల ప్యాలెట్ ఎదుర్కొన్నప్పుడు, చేతితో లెక్కించడానికి బదులుగా ఫోటో తీయండి. మీకు సెకన్లలో సమాధానం వస్తుంది, మరియు అది బహుశా మీ లెక్కింపు కంటే ఖచ్చితమైనదిగా ఉంటుంది.