تتعب عيناك بعد 50 مسمارًا. الذكاء الاصطناعي لا يزال في مرحلة الإحماء.
عد الأشياء يدويًا يبدو بسيطًا حتى لا يعود كذلك. بعد حوالي 30 عنصرًا, ينتقل دماغك من العد إلى التقدير. تفقد مكانك, تعيد عد صف, ولا تزال تتساءل إن كنت أصبت. عد الأشياء بالذكاء الاصطناعي يتبع نهجًا مختلفًا: يعالج الصورة بأكملها دفعة واحدة, يحدد كل عنصر يجده, ويعيد المجموع في ثوانٍ. إليك كيف يعمل.
ماذا يحدث عند رفع صورة
عندما ترسل صورة إلى أداة عد بالذكاء الاصطناعي, تحدث ثلاثة أشياء في تتابع سريع.
أولًا, يقوم النظام بمعالجة صورتك مسبقًا: تغيير الحجم إلى أبعاد قياسية, وتطبيع الألوان, وضبط نسبة العرض إلى الارتفاع. يستغرق هذا أجزاء من الثانية.
بعد ذلك يأتي الاكتشاف. يقوم نموذج رؤية الكمبيوتر بمسح الصورة بأكملها في تمريرة أمامية واحدة. تقسم البنى الحديثة مثل YOLO (You Only Look Once) الصورة إلى شبكة وتتنبأ بمواقع الأشياء وتصنيفاتها ودرجات الثقة لكل خلية في وقت واحد. فكر في الأمر كالفرق بين قراءة صفحة كلمة بكلمة واستيعاب الصفحة كاملة بنظرة واحدة.
لكل شيء يجده النموذج, يخرج تصنيفًا (ما يعتقد أن الشيء هو), وموقعًا (إحداثيات في الصورة), ودرجة ثقة بين 0 و1 تمثل مدى يقينه. درجة 0.85 تعني أن النموذج واثق بنسبة 85% أنه وجد شيئًا حقيقيًا في تلك النقطة.
أخيرًا, يقوم حد الثقة بتصفية الاكتشافات الضعيفة. يتم تجاهل أي شيء أقل من الحد الأدنى, مما يقلل الأعداد الخاطئة. يتم جمع الاكتشافات المتبقية وعرضها كنقاط ملونة أو مربعات إحاطة على صورتك الأصلية: عدد إجمالي بالإضافة إلى خريطة مرئية لما تم عده بالضبط وأين.

فجوة الدقة: لماذا يتفوق الذكاء الاصطناعي على عينيك
الرؤية البشرية لها حد صارم لا يفكر فيه معظم الناس. يسميه علماء الإدراك subitizing: يمكن للدماغ التعرف فوريًا على كميات من 1 إلى 4 عناصر بدقة شبه مثالية. ما بعد هذا الحد, عليك العد واحدًا تلو الآخر, وتبدأ الأخطاء في التسلل.
وجد بحث من Nventory أن البشر الذين يعدون المخزون بسرعة عمل طبيعية يحققون دقة متوسطة تبلغ حوالي 91%, أي خطأ واحد تقريبًا لكل 10 عناصر. يرتفع معدل الخطأ هذا مع التعب والتشتت والكمية. بحلول الوقت الذي تحدق فيه في 200 مثبت على الرف, دماغك يخمن وليس يعد.
الذكاء الاصطناعي لا يتعب ولا يفقد مكانه ولا يقدر. حقق نموذج YOLOv11 المضبوط بدقة والمختبر في ظروف مستودع حقيقية دقة عد بنسبة 97% عبر جولات اختبار متعددة (Springer, 2026). في ظروف مضبوطة مع صور نظيفة وجيدة الإضاءة, تصل الدقة إلى 99%. تتسع الفجوة فقط كلما زادت الكميات.
عند 50 عنصرًا, تكون دقة العد البشري والذكاء الاصطناعي متقاربة. عند 500, بالكاد يتباطأ الذكاء الاصطناعي بينما يرتفع معدل خطئك مع كل دقيقة تمر. كلما كان العدد أكبر, كانت الميزة أكبر.
السرعة: دقائق مقابل ثوانٍ
يعالج عامل المستودع الذي يعد المخزون يدويًا ما بين 250 إلى 750 عنصرًا في الساعة تقريبًا. يستغرق العد المادي الكامل لمستودع متوسط الحجم من 1 إلى 3 أيام مع فريق.
يعالج نظام العد بالذكاء الاصطناعي صورة واحدة في أقل من 250 مللي ثانية على الأجهزة الحديثة. حتى على الهاتف الذكي, يستغرق عادةً من 1 إلى 3 ثوانٍ. يمكن أن تحتوي صورة واحدة على مئات العناصر, يتم عدها جميعًا في تمريرة واحدة.
الحساب غير متوازن. مهمة تستغرق من فريق من أربعة أشخاص يوم عمل من 8 ساعات, حوالي 2,500 وحدة تخزين, يمكن إنجازها في دقائق عند تصوير كل رف ومعالجته. ينتقل عنق الزجاجة من العد إلى التصوير.

أين يواجه العد بالذكاء الاصطناعي صعوبة
العد بالذكاء الاصطناعي ليس معصومًا من الخطأ. معرفة نقاط ضعفه تساعدك في تحديد متى تثق به ومتى تتحقق من النتيجة.
يرى النموذج فقط ما هو على السطح. العناصر المدفونة تحتها غير مرئية للكاميرا. أكد بحث ICCV 2025 أن الأشياء المكدسة تظل واحدة من أصعب مشاكل العد.
العناصر التي تقل عن 20 بكسل تقريبًا في الصورة يصعب تمييزها عن الضوضاء. الصور عالية الدقة تساعد, لكن هناك حد عملي.
عندما تتزاحم الأشياء معًا, قد يدمج النموذج العناصر المتجاورة في اكتشاف واحد أو يفوت أشياء مضغوطة بين أخرى.
الزجاج والبلاستيك الشفاف والأسطح اللامعة تفتقر إلى حواف واضحة, مما يؤدي إلى أعداد مفقودة أو وهمية.
الأعداد التي تتجاوز 1,000 في صورة واحدة تضخم أخطاء صغيرة لكل عنصر إلى إجماليات ملحوظة. تقسيمها إلى صور متعددة يحل هذه المشكلة.
متى لا يزال العد اليدوي يفوز
يحتاج الذكاء الاصطناعي إلى أشياء مرئية في صورة فوتوغرافية. هناك حالات يكون فيها الحكم البشري لا يزال الأداة الأفضل:
- أقل من 10 عناصر - قدرة دماغك على العد الفوري تجعل النظرة السريعة أسرع من أي تطبيق.
- الأشياء المخفية بالكامل - العناصر داخل صناديق مغلقة أو خلف جدران أو تحت عناصر أخرى غير مرئية للكاميرا.
- الأكوام المختلطة غير المنتظمة - كومة من أشياء مختلفة جدًا في اتجاهات عشوائية يمكن أن تربك النماذج التي تتوقع تناسقًا بصريًا.
- عدم توفر كاميرا - أحيانًا يكون أسرع طريق هو ببساطة العد باليد.
الخط الفاصل العملي: إذا كانت جميع الأشياء مرئية بوضوح وعددها يتجاوز حوالي 20, فإن الذكاء الاصطناعي يقدم دائمًا تقريبًا نتيجة أسرع وأكثر دقة.

الخلاصة
العد بالذكاء الاصطناعي أصبح الآن أسرع وأكثر دقة واتساقًا من العد اليدوي في معظم السيناريوهات العملية. القيود المتبقية حقيقية لكنها مفهومة جيدًا, وتتقلص مع كل جيل جديد من النماذج.
في المرة القادمة التي تواجه فيها رفًا من القطع أو صينية من المكونات أو منصة من الصناديق, جرب التقاط صورة بدلًا من العد باليد. ستحصل على إجابة في ثوانٍ, ومن المرجح أنها ستكون أكثر دقة من إجابتك.