সব নিবন্ধে ফিরে যান

AI কীভাবে ফটোতে জিনিস গোনে (এবং কেন এটি আপনার চেয়ে ভালো করে)

আপনার চোখ 50টি বোল্টের পর ক্লান্ত হয়ে যায়। AI সেগুলো সব সেকেন্ডে গুনে ফেলে, প্রতিটিতে রঙিন বিন্দু দিয়ে প্রমাণ করে। এটি আসলে কীভাবে কাজ করে তা এখানে বলা হয়েছে।

list এই নিবন্ধে

আপনার চোখ 50টি বোল্টের পর ক্লান্ত হয়ে যায়। AI তো সবে শুরু করেছে।

হাতে গোনা সহজ মনে হয়, যতক্ষণ না এটি কঠিন হয়ে যায়। প্রায় 30টি জিনিসের পর, আপনার মস্তিষ্ক গোনা থেকে অনুমান করায় স্যুইচ করে। আপনি জায়গা হারান, একটি সারি আবার গোনেন, এবং তারপরও ভাবেন ঠিক হলো কিনা। AI-চালিত বস্তু গণনা ভিন্ন পদ্ধতিতে কাজ করে: এটি একবারে পুরো ছবি প্রসেস করে, প্রতিটি পাওয়া আইটেম চিহ্নিত করে, এবং সেকেন্ডে মোট সংখ্যা দেয়। এটি কীভাবে কাজ করে তা এখানে বলা হচ্ছে।

আপনি যখন ফটো আপলোড করেন তখন কী ঘটে

যখন আপনি একটি AI গণনা টুলে ফটো পাঠান, তখন তিনটি জিনিস দ্রুত ক্রমে ঘটে।

প্রথমে, সিস্টেম আপনার ছবি প্রিপ্রসেস করে: একটি স্ট্যান্ডার্ড মাপে রিসাইজ করা, রং স্বাভাবিক করা, এবং দিক অনুপাত সমন্বয় করা। এতে মিলিসেকেন্ড লাগে।

এরপর আসে সনাক্তকরণ। একটি কম্পিউটার ভিশন মডেল একটি মাত্র ফরোয়ার্ড পাসে পুরো ছবি স্ক্যান করে। YOLO (You Only Look Once)-এর মতো আধুনিক আর্কিটেকচার ছবিকে একটি গ্রিডে ভাগ করে এবং প্রতিটি সেলের জন্য একসাথে বস্তুর অবস্থান, শ্রেণিবিভাগ এবং আস্থা স্কোর পূর্বাভাস দেয়। এটিকে এমনভাবে ভাবুন যেন একটি পাতা শব্দে শব্দে পড়া আর একনজরে পুরো পাতা দেখে নেওয়ার মধ্যে পার্থক্য।

মডেল প্রতিটি বস্তু যা খুঁজে পায়, তার জন্য একটি শ্রেণিবিভাগ (এটি মনে করে বস্তুটি কী), একটি অবস্থান (ছবিতে স্থানাঙ্ক), এবং 0 থেকে 1-এর মধ্যে একটি আস্থা স্কোর দেয় যা বোঝায় এটি কতটা নিশ্চিত। 0.85 স্কোর মানে মডেল 85% নিশ্চিত যে সেই জায়গায় একটি প্রকৃত বস্তু পেয়েছে।

পরিশেষে, একটি আস্থা থ্রেশহোল্ড দুর্বল সনাক্তকরণ ফিল্টার করে। কাটঅফের নিচে সবকিছু বাতিল হয়ে যায়, যা ভুল গণনা কমায়। বাকি সনাক্তকরণগুলো যোগ করা হয় এবং আপনার মূল ফটোতে রঙিন বিন্দু বা বাউন্ডিং বক্স হিসেবে প্রদর্শিত হয়: একটি মোট গণনা এবং ঠিক কী গোনা হয়েছে ও কোথায় তার একটি ভিজ্যুয়াল ম্যাপ।

Metal bolts on a workbench with green AI detection markers on each one, showing how object counting overlays work

সঠিকতার ব্যবধান: কেন AI আপনার চোখকে ছাড়িয়ে যায়

মানুষের দৃষ্টির একটি কঠোর সীমা আছে যার বিষয়ে অধিকাংশ মানুষ কখনো ভাবে না। জ্ঞানীয় বিজ্ঞানীরা একে subitizing বলেন: মস্তিষ্ক 1 থেকে 4টি আইটেমের পরিমাণ প্রায় নিখুঁত সঠিকতায় তাৎক্ষণিকভাবে চিনতে পারে। সেই সীমার পর, আপনাকে একটি একটি করে গুনতে হবে, এবং ভুল শুরু হয়।

Nventory-এর গবেষণায় দেখা গেছে যে স্বাভাবিক কাজের গতিতে ইনভেন্টরি গোনা মানুষ গড়ে প্রায় 91% সঠিকতা অর্জন করে, মোটামুটি প্রতি 10টি আইটেমে একটি ভুল গণনা। এই ত্রুটির হার ক্লান্তি, বিভ্রান্তি এবং পরিমাণের সাথে বাড়ে। যখন আপনি একটি তাকে 200টি ফাস্টনার দেখছেন, আপনার মস্তিষ্ক অনুমান করছে, গুনছে না।

AI ক্লান্ত হয় না, জায়গা হারায় না, বা অনুমান করে না। বাস্তব গুদাম পরিস্থিতিতে পরীক্ষিত একটি ফাইন-টিউনড YOLOv11 মডেল একাধিক রাউন্ড পরীক্ষায় 97% গণনা সঠিকতা অর্জন করেছে (Springer, 2026)। নিয়ন্ত্রিত পরিস্থিতিতে পরিষ্কার, ভালো আলোযুক্ত ছবিতে, সঠিকতা 99% পৌঁছায়। পরিমাণ বাড়ার সাথে সাথে ব্যবধান কেবল বাড়তে থাকে।

50 আইটেমের সীমা

50টি আইটেমে, মানুষ এবং AI গণনা সঠিকতা তুলনীয়। 500-তে, AI সবে ধীর হয় যেখানে আপনার ত্রুটির হার প্রতি মিনিটে বাড়তে থাকে। গণনা যত বড়, সুবিধা তত বেশি।

গতি: মিনিট বনাম সেকেন্ড

একজন গুদাম কর্মী যিনি ম্যানুয়ালি ইনভেন্টরি গোনেন, ঘণ্টায় প্রায় 250 থেকে 750টি আইটেম প্রসেস করেন। একটি মাঝারি গুদামের সম্পূর্ণ শারীরিক গণনা একটি দলের সাথে 1 থেকে 3 দিন লাগে।

একটি AI গণনা সিস্টেম আধুনিক হার্ডওয়্যারে 250 মিলিসেকেন্ডের কম সময়ে একটি ছবি প্রসেস করে। এমনকি স্মার্টফোনেও, এতে সাধারণত 1 থেকে 3 সেকেন্ড লাগে। একটি ফটোতে শতাধিক আইটেম থাকতে পারে, সবই একটি মাত্র পাসে গোনা হয়।

হিসাবটা একতরফা। একটি কাজ যা চারজনের একটি দলের 8 ঘণ্টার একটি দিন লাগায়, মোটামুটি 2,500 SKU, মিনিটে সম্পন্ন করা যায় যখন প্রতিটি তাক ফটোগ্রাফ করে প্রসেস করা হয়। বাধা গোনা থেকে ফটোগ্রাফ করায় সরে যায়।

Warehouse worker in safety vest looking up at tall shelves stacked with hundreds of boxes, showing the scale of manual inventory counting

যেখানে AI গণনা সমস্যায় পড়ে

AI গণনা অভ্রান্ত নয়। এর দুর্বল দিকগুলো জানলে আপনি সিদ্ধান্ত নিতে পারেন কখন এটিকে বিশ্বাস করবেন এবং কখন ফলাফল যাচাই করবেন।

ওভারল্যাপিং এবং স্তূপীকৃত বস্তু

মডেল শুধু পৃষ্ঠে যা আছে তা দেখে। নিচে চাপা পড়া আইটেম ক্যামেরার কাছে অদৃশ্য। ICCV 2025 গবেষণা নিশ্চিত করেছে যে স্তূপীকৃত বস্তু গণনার সবচেয়ে কঠিন সমস্যাগুলোর মধ্যে একটি।

অত্যন্ত ছোট বস্তু

ছবিতে মোটামুটি 20 পিক্সেলের কম আইটেম নয়েজ থেকে আলাদা করা কঠিন হয়ে যায়। উচ্চ-রেজোলিউশনের ফটো সাহায্য করে, কিন্তু একটি ব্যবহারিক সীমা আছে।

ঘন, বিশৃঙ্খল দৃশ্য

বস্তু যখন একসাথে জড়ো হয়, মডেল পাশাপাশি আইটেমগুলোকে একটি সনাক্তকরণে মিশিয়ে ফেলতে পারে বা অন্যদের মাঝে চাপা পড়া বস্তু মিস করতে পারে।

স্বচ্ছ বা প্রতিফলনশীল আইটেম

কাচ, স্বচ্ছ প্লাস্টিক এবং চকচকে পৃষ্ঠে স্পষ্ট প্রান্তের অভাব থাকে, যা মিসড বা ভুতুড়ে গণনার দিকে নিয়ে যায়।

এক ফ্রেমে অত্যন্ত বেশি পরিমাণ

একটি ছবিতে 1,000-এর উপরে গণনা প্রতি-বস্তু ছোট ত্রুটিগুলোকে লক্ষণীয় মোটে পরিণত করে। একাধিক ফটোতে ভাগ করা এটি সমাধান করে।

যখন হাতে গোনা এখনও জেতে

AI-এর ফটোগ্রাফে দৃশ্যমান বস্তু দরকার। এমন পরিস্থিতি আছে যেখানে মানুষের বিচার এখনও ভালো হাতিয়ার:

  • 10টির কম আইটেম - আপনার মস্তিষ্কের subitizing ক্ষমতা একটি দ্রুত নজরকে যেকোনো অ্যাপের চেয়ে দ্রুত করে।
  • সম্পূর্ণ লুকানো বস্তু - বন্ধ বাক্সের ভেতরে, দেয়ালের পেছনে, বা অন্য আইটেমের নিচে থাকা জিনিস ক্যামেরার কাছে অদৃশ্য।
  • মিশ্র অনিয়মিত স্তূপ - এলোমেলো দিকে অনেক ভিন্ন বস্তুর জট মডেলগুলোকে বিভ্রান্ত করতে পারে যেগুলো ভিজ্যুয়াল সামঞ্জস্য আশা করে।
  • কোনো ক্যামেরা নেই - কখনো কখনো সবচেয়ে দ্রুত পথ হলো সহজভাবে হাতে গোনা।

ব্যবহারিক বিভাজন রেখা: যদি সব বস্তু স্পষ্টভাবে দৃশ্যমান হয় এবং প্রায় 20-এর বেশি হয়, AI প্রায় সবসময় দ্রুত, আরও সঠিক ফলাফল দেয়।

Person holding a smartphone to photograph small electronic components spread on a dark surface, showing how easy it is to count objects with a phone

সারকথা

AI-চালিত গণনা এখন বেশিরভাগ ব্যবহারিক পরিস্থিতিতে ম্যানুয়াল গণনার চেয়ে দ্রুত, আরও সঠিক এবং আরও সুসংগত। অবশিষ্ট সীমাবদ্ধতা বাস্তব কিন্তু ভালোভাবে বোঝা যায়, এবং প্রতিটি নতুন মডেল প্রজন্মের সাথে সংকুচিত হচ্ছে।

পরের বার যখন আপনি পার্টসের তাক, কম্পোনেন্টের ট্রে, বা বাক্সের প্যালেটের মুখোমুখি হবেন, হাতে গোনার বদলে একটি ফটো তুলে দেখুন। আপনি সেকেন্ডে উত্তর পাবেন, এবং এটি সম্ভবত আপনার গণনার চেয়ে আরও সঠিক হবে।