العودة إلى جميع المقالات

كيف يحسب الذكاء الاصطناعي الأشياء في الصور (ولماذا يتفوق عليك في ذلك)

تتعب عيناك بعد 50 مسمارًا. الذكاء الاصطناعي يحسبها جميعًا في ثوانٍ, مع نقاط ملونة على كل واحد لإثبات ذلك. إليك كيف يعمل ذلك فعلًا.

list في هذا المقال

تتعب عيناك بعد 50 مسمارًا. الذكاء الاصطناعي لا يزال في مرحلة الإحماء.

عد الأشياء يدويًا يبدو بسيطًا حتى لا يعود كذلك. بعد حوالي 30 عنصرًا, ينتقل دماغك من العد إلى التقدير. تفقد مكانك, تعيد عد صف, ولا تزال تتساءل إن كنت أصبت. عد الأشياء بالذكاء الاصطناعي يتبع نهجًا مختلفًا: يعالج الصورة بأكملها دفعة واحدة, يحدد كل عنصر يجده, ويعيد المجموع في ثوانٍ. إليك كيف يعمل.

ماذا يحدث عند رفع صورة

عندما ترسل صورة إلى أداة عد بالذكاء الاصطناعي, تحدث ثلاثة أشياء في تتابع سريع.

أولًا, يقوم النظام بمعالجة صورتك مسبقًا: تغيير الحجم إلى أبعاد قياسية, وتطبيع الألوان, وضبط نسبة العرض إلى الارتفاع. يستغرق هذا أجزاء من الثانية.

بعد ذلك يأتي الاكتشاف. يقوم نموذج رؤية الكمبيوتر بمسح الصورة بأكملها في تمريرة أمامية واحدة. تقسم البنى الحديثة مثل YOLO (You Only Look Once) الصورة إلى شبكة وتتنبأ بمواقع الأشياء وتصنيفاتها ودرجات الثقة لكل خلية في وقت واحد. فكر في الأمر كالفرق بين قراءة صفحة كلمة بكلمة واستيعاب الصفحة كاملة بنظرة واحدة.

لكل شيء يجده النموذج, يخرج تصنيفًا (ما يعتقد أن الشيء هو), وموقعًا (إحداثيات في الصورة), ودرجة ثقة بين 0 و1 تمثل مدى يقينه. درجة 0.85 تعني أن النموذج واثق بنسبة 85% أنه وجد شيئًا حقيقيًا في تلك النقطة.

أخيرًا, يقوم حد الثقة بتصفية الاكتشافات الضعيفة. يتم تجاهل أي شيء أقل من الحد الأدنى, مما يقلل الأعداد الخاطئة. يتم جمع الاكتشافات المتبقية وعرضها كنقاط ملونة أو مربعات إحاطة على صورتك الأصلية: عدد إجمالي بالإضافة إلى خريطة مرئية لما تم عده بالضبط وأين.

Metal bolts on a workbench with green AI detection markers on each one, showing how object counting overlays work

فجوة الدقة: لماذا يتفوق الذكاء الاصطناعي على عينيك

الرؤية البشرية لها حد صارم لا يفكر فيه معظم الناس. يسميه علماء الإدراك subitizing: يمكن للدماغ التعرف فوريًا على كميات من 1 إلى 4 عناصر بدقة شبه مثالية. ما بعد هذا الحد, عليك العد واحدًا تلو الآخر, وتبدأ الأخطاء في التسلل.

وجد بحث من Nventory أن البشر الذين يعدون المخزون بسرعة عمل طبيعية يحققون دقة متوسطة تبلغ حوالي 91%, أي خطأ واحد تقريبًا لكل 10 عناصر. يرتفع معدل الخطأ هذا مع التعب والتشتت والكمية. بحلول الوقت الذي تحدق فيه في 200 مثبت على الرف, دماغك يخمن وليس يعد.

الذكاء الاصطناعي لا يتعب ولا يفقد مكانه ولا يقدر. حقق نموذج YOLOv11 المضبوط بدقة والمختبر في ظروف مستودع حقيقية دقة عد بنسبة 97% عبر جولات اختبار متعددة (Springer, 2026). في ظروف مضبوطة مع صور نظيفة وجيدة الإضاءة, تصل الدقة إلى 99%. تتسع الفجوة فقط كلما زادت الكميات.

حد الـ 50 عنصرًا

عند 50 عنصرًا, تكون دقة العد البشري والذكاء الاصطناعي متقاربة. عند 500, بالكاد يتباطأ الذكاء الاصطناعي بينما يرتفع معدل خطئك مع كل دقيقة تمر. كلما كان العدد أكبر, كانت الميزة أكبر.

السرعة: دقائق مقابل ثوانٍ

يعالج عامل المستودع الذي يعد المخزون يدويًا ما بين 250 إلى 750 عنصرًا في الساعة تقريبًا. يستغرق العد المادي الكامل لمستودع متوسط الحجم من 1 إلى 3 أيام مع فريق.

يعالج نظام العد بالذكاء الاصطناعي صورة واحدة في أقل من 250 مللي ثانية على الأجهزة الحديثة. حتى على الهاتف الذكي, يستغرق عادةً من 1 إلى 3 ثوانٍ. يمكن أن تحتوي صورة واحدة على مئات العناصر, يتم عدها جميعًا في تمريرة واحدة.

الحساب غير متوازن. مهمة تستغرق من فريق من أربعة أشخاص يوم عمل من 8 ساعات, حوالي 2,500 وحدة تخزين, يمكن إنجازها في دقائق عند تصوير كل رف ومعالجته. ينتقل عنق الزجاجة من العد إلى التصوير.

Warehouse worker in safety vest looking up at tall shelves stacked with hundreds of boxes, showing the scale of manual inventory counting

أين يواجه العد بالذكاء الاصطناعي صعوبة

العد بالذكاء الاصطناعي ليس معصومًا من الخطأ. معرفة نقاط ضعفه تساعدك في تحديد متى تثق به ومتى تتحقق من النتيجة.

الأشياء المتداخلة والمكدسة

يرى النموذج فقط ما هو على السطح. العناصر المدفونة تحتها غير مرئية للكاميرا. أكد بحث ICCV 2025 أن الأشياء المكدسة تظل واحدة من أصعب مشاكل العد.

الأشياء الصغيرة جدًا

العناصر التي تقل عن 20 بكسل تقريبًا في الصورة يصعب تمييزها عن الضوضاء. الصور عالية الدقة تساعد, لكن هناك حد عملي.

المشاهد المزدحمة والمكتظة

عندما تتزاحم الأشياء معًا, قد يدمج النموذج العناصر المتجاورة في اكتشاف واحد أو يفوت أشياء مضغوطة بين أخرى.

العناصر الشفافة أو العاكسة

الزجاج والبلاستيك الشفاف والأسطح اللامعة تفتقر إلى حواف واضحة, مما يؤدي إلى أعداد مفقودة أو وهمية.

كميات كبيرة جدًا في إطار واحد

الأعداد التي تتجاوز 1,000 في صورة واحدة تضخم أخطاء صغيرة لكل عنصر إلى إجماليات ملحوظة. تقسيمها إلى صور متعددة يحل هذه المشكلة.

متى لا يزال العد اليدوي يفوز

يحتاج الذكاء الاصطناعي إلى أشياء مرئية في صورة فوتوغرافية. هناك حالات يكون فيها الحكم البشري لا يزال الأداة الأفضل:

  • أقل من 10 عناصر - قدرة دماغك على العد الفوري تجعل النظرة السريعة أسرع من أي تطبيق.
  • الأشياء المخفية بالكامل - العناصر داخل صناديق مغلقة أو خلف جدران أو تحت عناصر أخرى غير مرئية للكاميرا.
  • الأكوام المختلطة غير المنتظمة - كومة من أشياء مختلفة جدًا في اتجاهات عشوائية يمكن أن تربك النماذج التي تتوقع تناسقًا بصريًا.
  • عدم توفر كاميرا - أحيانًا يكون أسرع طريق هو ببساطة العد باليد.

الخط الفاصل العملي: إذا كانت جميع الأشياء مرئية بوضوح وعددها يتجاوز حوالي 20, فإن الذكاء الاصطناعي يقدم دائمًا تقريبًا نتيجة أسرع وأكثر دقة.

Person holding a smartphone to photograph small electronic components spread on a dark surface, showing how easy it is to count objects with a phone

الخلاصة

العد بالذكاء الاصطناعي أصبح الآن أسرع وأكثر دقة واتساقًا من العد اليدوي في معظم السيناريوهات العملية. القيود المتبقية حقيقية لكنها مفهومة جيدًا, وتتقلص مع كل جيل جديد من النماذج.

في المرة القادمة التي تواجه فيها رفًا من القطع أو صينية من المكونات أو منصة من الصناديق, جرب التقاط صورة بدلًا من العد باليد. ستحصل على إجابة في ثوانٍ, ومن المرجح أنها ستكون أكثر دقة من إجابتك.