আপনার চোখ 50টি বোল্টের পর ক্লান্ত হয়ে যায়। AI তো সবে শুরু করেছে।
হাতে গোনা সহজ মনে হয়, যতক্ষণ না এটি কঠিন হয়ে যায়। প্রায় 30টি জিনিসের পর, আপনার মস্তিষ্ক গোনা থেকে অনুমান করায় স্যুইচ করে। আপনি জায়গা হারান, একটি সারি আবার গোনেন, এবং তারপরও ভাবেন ঠিক হলো কিনা। AI-চালিত বস্তু গণনা ভিন্ন পদ্ধতিতে কাজ করে: এটি একবারে পুরো ছবি প্রসেস করে, প্রতিটি পাওয়া আইটেম চিহ্নিত করে, এবং সেকেন্ডে মোট সংখ্যা দেয়। এটি কীভাবে কাজ করে তা এখানে বলা হচ্ছে।
আপনি যখন ফটো আপলোড করেন তখন কী ঘটে
যখন আপনি একটি AI গণনা টুলে ফটো পাঠান, তখন তিনটি জিনিস দ্রুত ক্রমে ঘটে।
প্রথমে, সিস্টেম আপনার ছবি প্রিপ্রসেস করে: একটি স্ট্যান্ডার্ড মাপে রিসাইজ করা, রং স্বাভাবিক করা, এবং দিক অনুপাত সমন্বয় করা। এতে মিলিসেকেন্ড লাগে।
এরপর আসে সনাক্তকরণ। একটি কম্পিউটার ভিশন মডেল একটি মাত্র ফরোয়ার্ড পাসে পুরো ছবি স্ক্যান করে। YOLO (You Only Look Once)-এর মতো আধুনিক আর্কিটেকচার ছবিকে একটি গ্রিডে ভাগ করে এবং প্রতিটি সেলের জন্য একসাথে বস্তুর অবস্থান, শ্রেণিবিভাগ এবং আস্থা স্কোর পূর্বাভাস দেয়। এটিকে এমনভাবে ভাবুন যেন একটি পাতা শব্দে শব্দে পড়া আর একনজরে পুরো পাতা দেখে নেওয়ার মধ্যে পার্থক্য।
মডেল প্রতিটি বস্তু যা খুঁজে পায়, তার জন্য একটি শ্রেণিবিভাগ (এটি মনে করে বস্তুটি কী), একটি অবস্থান (ছবিতে স্থানাঙ্ক), এবং 0 থেকে 1-এর মধ্যে একটি আস্থা স্কোর দেয় যা বোঝায় এটি কতটা নিশ্চিত। 0.85 স্কোর মানে মডেল 85% নিশ্চিত যে সেই জায়গায় একটি প্রকৃত বস্তু পেয়েছে।
পরিশেষে, একটি আস্থা থ্রেশহোল্ড দুর্বল সনাক্তকরণ ফিল্টার করে। কাটঅফের নিচে সবকিছু বাতিল হয়ে যায়, যা ভুল গণনা কমায়। বাকি সনাক্তকরণগুলো যোগ করা হয় এবং আপনার মূল ফটোতে রঙিন বিন্দু বা বাউন্ডিং বক্স হিসেবে প্রদর্শিত হয়: একটি মোট গণনা এবং ঠিক কী গোনা হয়েছে ও কোথায় তার একটি ভিজ্যুয়াল ম্যাপ।

সঠিকতার ব্যবধান: কেন AI আপনার চোখকে ছাড়িয়ে যায়
মানুষের দৃষ্টির একটি কঠোর সীমা আছে যার বিষয়ে অধিকাংশ মানুষ কখনো ভাবে না। জ্ঞানীয় বিজ্ঞানীরা একে subitizing বলেন: মস্তিষ্ক 1 থেকে 4টি আইটেমের পরিমাণ প্রায় নিখুঁত সঠিকতায় তাৎক্ষণিকভাবে চিনতে পারে। সেই সীমার পর, আপনাকে একটি একটি করে গুনতে হবে, এবং ভুল শুরু হয়।
Nventory-এর গবেষণায় দেখা গেছে যে স্বাভাবিক কাজের গতিতে ইনভেন্টরি গোনা মানুষ গড়ে প্রায় 91% সঠিকতা অর্জন করে, মোটামুটি প্রতি 10টি আইটেমে একটি ভুল গণনা। এই ত্রুটির হার ক্লান্তি, বিভ্রান্তি এবং পরিমাণের সাথে বাড়ে। যখন আপনি একটি তাকে 200টি ফাস্টনার দেখছেন, আপনার মস্তিষ্ক অনুমান করছে, গুনছে না।
AI ক্লান্ত হয় না, জায়গা হারায় না, বা অনুমান করে না। বাস্তব গুদাম পরিস্থিতিতে পরীক্ষিত একটি ফাইন-টিউনড YOLOv11 মডেল একাধিক রাউন্ড পরীক্ষায় 97% গণনা সঠিকতা অর্জন করেছে (Springer, 2026)। নিয়ন্ত্রিত পরিস্থিতিতে পরিষ্কার, ভালো আলোযুক্ত ছবিতে, সঠিকতা 99% পৌঁছায়। পরিমাণ বাড়ার সাথে সাথে ব্যবধান কেবল বাড়তে থাকে।
50টি আইটেমে, মানুষ এবং AI গণনা সঠিকতা তুলনীয়। 500-তে, AI সবে ধীর হয় যেখানে আপনার ত্রুটির হার প্রতি মিনিটে বাড়তে থাকে। গণনা যত বড়, সুবিধা তত বেশি।
গতি: মিনিট বনাম সেকেন্ড
একজন গুদাম কর্মী যিনি ম্যানুয়ালি ইনভেন্টরি গোনেন, ঘণ্টায় প্রায় 250 থেকে 750টি আইটেম প্রসেস করেন। একটি মাঝারি গুদামের সম্পূর্ণ শারীরিক গণনা একটি দলের সাথে 1 থেকে 3 দিন লাগে।
একটি AI গণনা সিস্টেম আধুনিক হার্ডওয়্যারে 250 মিলিসেকেন্ডের কম সময়ে একটি ছবি প্রসেস করে। এমনকি স্মার্টফোনেও, এতে সাধারণত 1 থেকে 3 সেকেন্ড লাগে। একটি ফটোতে শতাধিক আইটেম থাকতে পারে, সবই একটি মাত্র পাসে গোনা হয়।
হিসাবটা একতরফা। একটি কাজ যা চারজনের একটি দলের 8 ঘণ্টার একটি দিন লাগায়, মোটামুটি 2,500 SKU, মিনিটে সম্পন্ন করা যায় যখন প্রতিটি তাক ফটোগ্রাফ করে প্রসেস করা হয়। বাধা গোনা থেকে ফটোগ্রাফ করায় সরে যায়।

যেখানে AI গণনা সমস্যায় পড়ে
AI গণনা অভ্রান্ত নয়। এর দুর্বল দিকগুলো জানলে আপনি সিদ্ধান্ত নিতে পারেন কখন এটিকে বিশ্বাস করবেন এবং কখন ফলাফল যাচাই করবেন।
মডেল শুধু পৃষ্ঠে যা আছে তা দেখে। নিচে চাপা পড়া আইটেম ক্যামেরার কাছে অদৃশ্য। ICCV 2025 গবেষণা নিশ্চিত করেছে যে স্তূপীকৃত বস্তু গণনার সবচেয়ে কঠিন সমস্যাগুলোর মধ্যে একটি।
ছবিতে মোটামুটি 20 পিক্সেলের কম আইটেম নয়েজ থেকে আলাদা করা কঠিন হয়ে যায়। উচ্চ-রেজোলিউশনের ফটো সাহায্য করে, কিন্তু একটি ব্যবহারিক সীমা আছে।
বস্তু যখন একসাথে জড়ো হয়, মডেল পাশাপাশি আইটেমগুলোকে একটি সনাক্তকরণে মিশিয়ে ফেলতে পারে বা অন্যদের মাঝে চাপা পড়া বস্তু মিস করতে পারে।
কাচ, স্বচ্ছ প্লাস্টিক এবং চকচকে পৃষ্ঠে স্পষ্ট প্রান্তের অভাব থাকে, যা মিসড বা ভুতুড়ে গণনার দিকে নিয়ে যায়।
একটি ছবিতে 1,000-এর উপরে গণনা প্রতি-বস্তু ছোট ত্রুটিগুলোকে লক্ষণীয় মোটে পরিণত করে। একাধিক ফটোতে ভাগ করা এটি সমাধান করে।
যখন হাতে গোনা এখনও জেতে
AI-এর ফটোগ্রাফে দৃশ্যমান বস্তু দরকার। এমন পরিস্থিতি আছে যেখানে মানুষের বিচার এখনও ভালো হাতিয়ার:
- 10টির কম আইটেম - আপনার মস্তিষ্কের subitizing ক্ষমতা একটি দ্রুত নজরকে যেকোনো অ্যাপের চেয়ে দ্রুত করে।
- সম্পূর্ণ লুকানো বস্তু - বন্ধ বাক্সের ভেতরে, দেয়ালের পেছনে, বা অন্য আইটেমের নিচে থাকা জিনিস ক্যামেরার কাছে অদৃশ্য।
- মিশ্র অনিয়মিত স্তূপ - এলোমেলো দিকে অনেক ভিন্ন বস্তুর জট মডেলগুলোকে বিভ্রান্ত করতে পারে যেগুলো ভিজ্যুয়াল সামঞ্জস্য আশা করে।
- কোনো ক্যামেরা নেই - কখনো কখনো সবচেয়ে দ্রুত পথ হলো সহজভাবে হাতে গোনা।
ব্যবহারিক বিভাজন রেখা: যদি সব বস্তু স্পষ্টভাবে দৃশ্যমান হয় এবং প্রায় 20-এর বেশি হয়, AI প্রায় সবসময় দ্রুত, আরও সঠিক ফলাফল দেয়।

সারকথা
AI-চালিত গণনা এখন বেশিরভাগ ব্যবহারিক পরিস্থিতিতে ম্যানুয়াল গণনার চেয়ে দ্রুত, আরও সঠিক এবং আরও সুসংগত। অবশিষ্ট সীমাবদ্ধতা বাস্তব কিন্তু ভালোভাবে বোঝা যায়, এবং প্রতিটি নতুন মডেল প্রজন্মের সাথে সংকুচিত হচ্ছে।
পরের বার যখন আপনি পার্টসের তাক, কম্পোনেন্টের ট্রে, বা বাক্সের প্যালেটের মুখোমুখি হবেন, হাতে গোনার বদলে একটি ফটো তুলে দেখুন। আপনি সেকেন্ডে উত্তর পাবেন, এবং এটি সম্ভবত আপনার গণনার চেয়ে আরও সঠিক হবে।