تمام مضامین پر واپس

AI تصویروں میں اشیاء کو کیسے گنتا ہے (اور یہ آپ سے بہتر کیوں ہے)

آپ کی آنکھیں 50 بولٹ کے بعد تھک جاتی ہیں۔ AI ان سب کو سیکنڈوں میں گن لیتا ہے, ہر ایک پر رنگین نقطوں کے ساتھ ثبوت کے طور پر۔ یہاں بتایا گیا ہے کہ یہ اصل میں کیسے کام کرتا ہے۔

list اس مضمون میں

آپ کی آنکھیں 50 بولٹ کے بعد تھک جاتی ہیں۔ AI ابھی تو گرم ہو رہا ہے۔

ہاتھ سے چیزیں گننا آسان لگتا ہے جب تک کہ مشکل نہ ہو جائے۔ تقریباً 30 اشیاء کے بعد, آپ کا دماغ گنتی سے اندازے کی طرف منتقل ہو جاتا ہے۔ آپ اپنی جگہ کھو دیتے ہیں, ایک قطار دوبارہ گنتے ہیں, اور پھر بھی حیران رہتے ہیں کہ صحیح گنا یا نہیں۔ AI آبجیکٹ کاؤنٹنگ ایک مختلف نقطہ نظر اپناتی ہے: یہ پوری تصویر کو ایک ساتھ پروسیس کرتی ہے, ہر شے کو نشان زد کرتی ہے, اور سیکنڈوں میں کل تعداد واپس کرتی ہے۔ یہاں بتایا گیا ہے کہ یہ کیسے کام کرتا ہے۔

جب آپ تصویر اپلوڈ کرتے ہیں تو کیا ہوتا ہے

جب آپ AI کاؤنٹنگ ٹول کو تصویر بھیجتے ہیں تو تین چیزیں تیزی سے یکے بعد دیگرے ہوتی ہیں۔

پہلے, سسٹم آپ کی تصویر کو پری پروسیس کرتا ہے: معیاری جہتوں میں سائز تبدیل کرنا, رنگوں کو نارملائز کرنا, اور اسپیکٹ ریشو کو ایڈجسٹ کرنا۔ یہ ملی سیکنڈوں میں ہوتا ہے۔

اس کے بعد ڈیٹیکشن آتی ہے۔ ایک کمپیوٹر ویژن ماڈل پوری تصویر کو ایک فارورڈ پاس میں اسکین کرتا ہے۔ YOLO (You Only Look Once) جیسے جدید آرکیٹیکچرز تصویر کو ایک گرڈ میں تقسیم کرتے ہیں اور ہر سیل کے لیے بیک وقت آبجیکٹ کے مقامات, درجہ بندیوں اور اعتماد کے اسکورز کی پیشگوئی کرتے ہیں۔ اسے ایسے سمجھیں جیسے ایک صفحہ لفظ بہ لفظ پڑھنے اور پورا صفحہ ایک نظر میں سمجھنے کا فرق ہے۔

ماڈل جو بھی شے تلاش کرتا ہے, اس کے لیے ایک درجہ بندی (جو وہ سمجھتا ہے کہ شے کیا ہے), ایک مقام (تصویر میں نقاط), اور 0 اور 1 کے درمیان ایک اعتماد کا اسکور دیتا ہے جو اس کے یقین کی نمائندگی کرتا ہے۔ 0.85 کا اسکور مطلب ہے کہ ماڈل 85% پراعتماد ہے کہ اس نے اس جگہ ایک حقیقی شے تلاش کی ہے۔

آخر میں, ایک اعتماد کی حد کمزور ڈیٹیکشنز کو فلٹر کرتی ہے۔ حد سے نیچے کی ہر چیز کو خارج کر دیا جاتا ہے, جس سے غلط شمارش کم ہوتی ہے۔ باقی ڈیٹیکشنز کو جمع کیا جاتا ہے اور آپ کی اصل تصویر پر رنگین نقطوں یا باؤنڈنگ باکسز کے طور پر دکھایا جاتا ہے: ایک کل تعداد کے ساتھ ایک بصری نقشہ جو بتاتا ہے کہ کیا گنا گیا اور کہاں۔

ورک بنچ پر دھاتی بولٹ جن پر ہر ایک پر سبز AI ڈیٹیکشن مارکرز ہیں جو آبجیکٹ کاؤنٹنگ اوورلیز کے کام کرنے کا طریقہ دکھاتے ہیں

درستگی کا فرق: AI آپ کی آنکھوں سے بہتر کیوں ہے

انسانی بصارت کی ایک سخت حد ہے جس کے بارے میں زیادہ تر لوگ کبھی نہیں سوچتے۔ علمی ماہرین اسے subitizing کہتے ہیں: دماغ فوری طور پر 1 سے 4 اشیاء کی مقدار کو تقریباً کامل درستگی سے پہچان سکتا ہے۔ اس حد سے آگے, آپ کو ایک ایک کر کے گننا پڑتا ہے, اور غلطیاں شروع ہو جاتی ہیں۔

Nventory کی تحقیق سے پتا چلا کہ عام کام کی رفتار سے انوینٹری گننے والے انسانوں کی اوسط درستگی تقریباً 91% ہوتی ہے, تقریباً ہر 10 اشیاء میں ایک غلط شمارش۔ یہ غلطی کی شرح تھکاوٹ, توجہ ہٹنے اور مقدار کے ساتھ بڑھتی ہے۔ جب آپ شیلف پر 200 فاسٹنرز کو گھور رہے ہوتے ہیں, تو آپ کا دماغ اندازہ لگا رہا ہوتا ہے, گن نہیں رہا۔

AI نہ تھکتا ہے, نہ جگہ کھوتا ہے, نہ اندازہ لگاتا ہے۔ حقیقی گودام کے حالات میں آزمائے گئے ایک فائن ٹیونڈ YOLOv11 ماڈل نے ٹیسٹنگ کے متعدد راؤنڈز میں 97% شمارش کی درستگی حاصل کی (Springer, 2026)۔ کنٹرولڈ حالات میں صاف, اچھی روشنی والی تصاویر کے ساتھ, درستگی 99% تک پہنچ جاتی ہے۔ جتنی مقدار بڑھتی ہے, فرق اتنا ہی بڑھتا ہے۔

50 اشیاء کی حد

50 اشیاء پر, انسانی اور AI شمارش کی درستگی قابل موازنہ ہے۔ 500 پر, AI بمشکل سست ہوتا ہے جبکہ آپ کی غلطی کی شرح ہر گزرتے منٹ کے ساتھ بڑھتی ہے۔ شمارش جتنی بڑی, فائدہ اتنا زیادہ۔

رفتار: منٹ بمقابلہ سیکنڈ

ایک گودام کا کارکن دستی طور پر انوینٹری گنتے ہوئے فی گھنٹہ تقریباً 250 سے 750 اشیاء پروسیس کرتا ہے۔ درمیانے سائز کے گودام کی مکمل جسمانی گنتی ایک ٹیم کے ساتھ 1 سے 3 دن لیتی ہے۔

ایک AI شمارش کا نظام جدید ہارڈویئر پر ایک تصویر کو 250 ملی سیکنڈ سے کم میں پروسیس کرتا ہے۔ اسمارٹ فون پر بھی, عام طور پر 1 سے 3 سیکنڈ لگتے ہیں۔ ایک تصویر میں سینکڑوں اشیاء ہو سکتی ہیں, سب ایک ہی پاس میں گنی جاتی ہیں۔

حساب غیر متوازن ہے۔ ایک کام جو چار لوگوں کی ٹیم کو 8 گھنٹے کا دن لگتا ہے, تقریباً 2,500 SKUs, ہر شیلف کی تصویر کھینچ کر اور پروسیس کر کے منٹوں میں مکمل کیا جا سکتا ہے۔ رکاوٹ گنتی سے تصویر کشی کی طرف منتقل ہو جاتی ہے۔

حفاظتی جیکٹ میں گودام کا کارکن سینکڑوں ڈبوں سے بھری اونچی شیلفوں کو دیکھ رہا ہے, دستی انوینٹری شمارش کے پیمانے کو ظاہر کرتا ہے

AI شمارش کہاں مشکل میں پڑتی ہے

AI شمارش غلطی سے پاک نہیں ہے۔ اس کی کمزوریوں کو جاننا آپ کو یہ فیصلہ کرنے میں مدد کرتا ہے کہ اس پر کب بھروسہ کریں اور کب نتیجے کی تصدیق کریں۔

اوور لیپنگ اور اسٹیکڈ اشیاء

ماڈل صرف وہی دیکھتا ہے جو سطح پر ہے۔ نیچے دبی ہوئی اشیاء کیمرے کے لیے غیر مرئی ہیں۔ ICCV 2025 کی تحقیق نے تصدیق کی کہ اسٹیکڈ اشیاء شمارش کے مشکل ترین مسائل میں سے ایک ہیں۔

بہت چھوٹی اشیاء

تصویر میں تقریباً 20 پکسلز سے کم اشیاء کو شور سے ممتاز کرنا مشکل ہو جاتا ہے۔ زیادہ ریزولیوشن والی تصاویر مدد کرتی ہیں, لیکن ایک عملی حد ہے۔

گھنے, بے ترتیب مناظر

جب اشیاء ایک ساتھ بھیڑ کرتی ہیں, تو ماڈل ملحقہ اشیاء کو ایک ڈیٹیکشن میں ضم کر سکتا ہے یا دوسروں کے درمیان دبی ہوئی اشیاء کو چھوڑ سکتا ہے۔

شفاف یا عکاس اشیاء

شیشہ, صاف پلاسٹک اور چمکدار سطحوں میں واضح کنارے نہیں ہوتے, جس سے چھوٹی ہوئی یا فرضی شمارش ہوتی ہے۔

ایک فریم میں بہت زیادہ تعداد

ایک تصویر میں 1,000 سے زیادہ کی گنتی فی شے چھوٹی غلطیوں کو نمایاں مجموعوں میں بڑھا دیتی ہے۔ متعدد تصاویر میں تقسیم کرنا اس مسئلے کو حل کرتا ہے۔

ہاتھ سے گنتی کب بہتر ہے

AI کو تصویر میں نظر آنے والی اشیاء کی ضرورت ہے۔ ایسے حالات ہیں جہاں انسانی فیصلہ اب بھی بہتر ذریعہ ہے:

  • 10 سے کم اشیاء - آپ کے دماغ کی فوری شمارش کی صلاحیت ایک سرسری نظر کو کسی بھی ایپ سے تیز بنا دیتی ہے۔
  • مکمل طور پر چھپی ہوئی اشیاء - بند ڈبوں کے اندر, دیواروں کے پیچھے یا دوسری اشیاء کے نیچے کی چیزیں کیمرے کے لیے غیر مرئی ہیں۔
  • ملی جلی بے ترتیب ڈھیریاں - بے ترتیب سمتوں میں بہت مختلف اشیاء کا گڈ مڈ بصری یکسانیت کی توقع رکھنے والے ماڈلز کو الجھا سکتا ہے۔
  • کیمرہ دستیاب نہیں - کبھی کبھی سب سے تیز راستہ صرف ہاتھ سے گننا ہوتا ہے۔

عملی تقسیم کی لکیر: اگر تمام اشیاء واضح طور پر نظر آ رہی ہیں اور تقریباً 20 سے زیادہ ہیں, تو AI تقریباً ہمیشہ تیز تر اور زیادہ درست نتیجہ دیتا ہے۔

ایک شخص سمارٹ فون پکڑے ہوئے تاریک سطح پر پھیلے چھوٹے الیکٹرانک اجزاء کی تصویر لے رہا ہے, دکھا رہا ہے کہ فون سے اشیاء گننا کتنا آسان ہے

خلاصہ

AI سے شمارش اب زیادہ تر عملی منظرناموں کے لیے دستی شمارش سے تیز, زیادہ درست اور زیادہ مستقل ہے۔ باقی حدود حقیقی ہیں لیکن اچھی طرح سمجھی جاتی ہیں, اور ہر نئی ماڈل نسل کے ساتھ سکڑ رہی ہیں۔

اگلی بار جب آپ پرزوں کی شیلف, اجزاء کی ٹرے, یا ڈبوں کے پیلٹ کا سامنا کریں, ہاتھ سے گننے کے بجائے تصویر لینے کی کوشش کریں۔ آپ کو سیکنڈوں میں جواب ملے گا, اور یہ شاید آپ کی گنتی سے زیادہ درست ہوگا۔