กลับไปยังบทความทั้งหมด

AI นับวัตถุในรูปภาพได้อย่างไร (และทำไมมันถึงเก่งกว่าคุณ)

ตาคุณเหนื่อยหลังนับน็อต 50 ตัว AI นับทั้งหมดในไม่กี่วินาที พร้อมจุดสีบนแต่ละชิ้นเป็นหลักฐาน นี่คือวิธีที่มันทำงานจริงๆ

list ในบทความนี้

ตาคุณเหนื่อยหลังนับน็อต 50 ตัว AI เพิ่งเริ่มอุ่นเครื่อง

การนับของด้วยมือรู้สึกง่ายจนกว่าจะไม่ง่ายอีกต่อไป เลยประมาณ 30 ชิ้น สมองคุณเปลี่ยนจากการนับเป็นการประมาณ คุณหลงตำแหน่ง นับแถวซ้ำ และยังสงสัยว่านับถูกหรือเปล่า การนับวัตถุด้วย AI ใช้วิธีการที่ต่างออกไป: ประมวลผลทั้งภาพพร้อมกัน ทำเครื่องหมายทุกชิ้นที่พบ และส่งคืนยอดรวมในไม่กี่วินาที นี่คือวิธีที่มันทำงาน

เกิดอะไรขึ้นเมื่อคุณอัปโหลดรูปภาพ

เมื่อคุณส่งรูปภาพไปยังเครื่องมือนับด้วย AI สามสิ่งเกิดขึ้นอย่างรวดเร็ว

ขั้นแรก ระบบประมวลผลภาพล่วงหน้าของคุณ: ปรับขนาดเป็นมิติมาตรฐาน ปรับสีให้เป็นปกติ และปรับอัตราส่วนภาพ ขั้นตอนนี้ใช้เวลาเพียงมิลลิวินาที

ต่อมาคือการตรวจจับ โมเดล computer vision สแกนทั้งภาพใน forward pass เดียว สถาปัตยกรรมสมัยใหม่อย่าง YOLO (You Only Look Once) แบ่งภาพออกเป็นตารางและทำนายตำแหน่งวัตถุ การจำแนกประเภท และคะแนนความมั่นใจสำหรับทุกช่องพร้อมกัน ลองนึกถึงความแตกต่างระหว่างการอ่านหน้าทีละคำและการมองทั้งหน้าในคราวเดียว

สำหรับแต่ละวัตถุที่โมเดลพบ มันจะส่งออกการจำแนกประเภท (คิดว่าวัตถุนั้นคืออะไร) ตำแหน่ง (พิกัดในภาพ) และคะแนนความมั่นใจระหว่าง 0 ถึง 1 ที่แสดงว่ามันมั่นใจแค่ไหน คะแนน 0.85 หมายความว่าโมเดลมั่นใจ 85% ว่าพบวัตถุจริงที่ตำแหน่งนั้น

สุดท้าย เกณฑ์ความมั่นใจจะกรองการตรวจจับที่อ่อนออก สิ่งใดที่ต่ำกว่าเกณฑ์จะถูกตัดออก ลดการนับผิด การตรวจจับที่เหลือจะถูกรวมและแสดงเป็นจุดสีหรือกรอบล้อมรอบบนภาพต้นฉบับของคุณ, ยอดรวมพร้อมแผนที่แสดงว่านับอะไรและอยู่ที่ไหน

Metal bolts on a workbench with green AI detection markers on each one, showing how object counting overlays work

ช่องว่างความแม่นยำ: ทำไม AI ทำได้ดีกว่าตาคุณ

การมองเห็นของมนุษย์มีขีดจำกัดที่คนส่วนใหญ่ไม่เคยคิดถึง นักวิทยาศาสตร์ด้านปัญญาเรียกมันว่า subitizing, สมองสามารถรับรู้จำนวน 1 ถึง 4 ชิ้นได้ทันทีด้วยความแม่นยำเกือบสมบูรณ์แบบ เลยเกณฑ์นั้นไป คุณต้องนับทีละชิ้น และข้อผิดพลาดเริ่มเกิดขึ้น

งานวิจัยจาก Nventory พบว่ามนุษย์ที่นับสินค้าคงคลังด้วยความเร็วปกติมีความแม่นยำเฉลี่ยประมาณ 91% นับผิดประมาณหนึ่งครั้งต่อทุก 10 ชิ้น อัตราข้อผิดพลาดเพิ่มขึ้นตามความเหนื่อยล้า การเสียสมาธิ และจำนวน พอคุณจ้องมองน็อตสลักเกลียว 200 ตัวบนชั้น สมองคุณกำลังเดา ไม่ใช่นับ

AI ไม่เหนื่อยล้า ไม่หลงตำแหน่ง และไม่ประมาณ โมเดล YOLOv11 ที่ปรับแต่งแล้วและทดสอบในสภาพคลังสินค้าจริงมีความแม่นยำในการนับ 97% จากการทดสอบหลายรอบ (Springer, 2026) ในสภาพควบคุมที่ภาพสะอาดและแสงสว่างดี ความแม่นยำถึง 99% ช่องว่างยิ่งกว้างขึ้นเมื่อจำนวนเพิ่มขึ้น

เกณฑ์ 50 ชิ้น

ที่ 50 ชิ้น ความแม่นยำในการนับของมนุษย์และ AI เทียบเท่ากัน ที่ 500 AI แทบไม่ช้าลงในขณะที่อัตราข้อผิดพลาดของคุณเพิ่มขึ้นทุกนาที ยิ่งนับมาก ข้อได้เปรียบยิ่งมาก

ความเร็ว: นาที เทียบกับ วินาที

พนักงานคลังสินค้าที่นับสินค้าคงคลังด้วยมือประมวลผลได้ประมาณ 250 ถึง 750 ชิ้นต่อชั่วโมง การนับทั้งหมดของคลังสินค้าขนาดกลางใช้เวลา 1 ถึง 3 วันกับทีมงาน

ระบบนับด้วย AI ประมวลผลภาพหนึ่งภาพในเวลาไม่ถึง 250 มิลลิวินาทีบนฮาร์ดแวร์สมัยใหม่ แม้แต่บนสมาร์ทโฟนก็ใช้เวลาประมาณ 1 ถึง 3 วินาที ภาพเดียวสามารถมีวัตถุหลายร้อยชิ้น ทั้งหมดถูกนับในครั้งเดียว

ตัวเลขไม่สมดุล งานที่ต้องใช้ทีมสี่คนทำงาน 8 ชั่วโมง ประมาณ 2,500 SKU สามารถทำเสร็จได้ในไม่กี่นาทีเมื่อถ่ายรูปแต่ละชั้นและประมวลผล คอขวดเปลี่ยนจากการนับเป็นการถ่ายรูป

Warehouse worker in safety vest looking up at tall shelves stacked with hundreds of boxes, showing the scale of manual inventory counting

จุดที่การนับด้วย AI ยังมีข้อจำกัด

การนับด้วย AI ไม่สมบูรณ์แบบ การรู้จุดอ่อนของมันช่วยให้คุณตัดสินใจว่าเมื่อไหรควรเชื่อถือและเมื่อไหรควรตรวจสอบผล

วัตถุซ้อนทับและวางซ้อน

โมเดลเห็นเฉพาะสิ่งที่อยู่บนผิว ชิ้นที่ฝังอยู่ข้างใต้มองไม่เห็นจากกล้อง งานวิจัย ICCV 2025 ยืนยันว่าวัตถุซ้อนทับยังคงเป็นหนึ่งในปัญหาการนับที่ยากที่สุด

วัตถุขนาดเล็กมาก

ชิ้นที่เล็กกว่าประมาณ 20 พิกเซลในภาพจะแยกแยะได้ยากจากสัญญาณรบกวน ภาพที่มีความละเอียดสูงขึ้นช่วยได้ แต่มีขีดจำกัดในทางปฏิบัติ

ฉากที่หนาแน่นและรก

เมื่อวัตถุเบียดกัน โมเดลอาจรวมชิ้นที่อยู่ติดกันเป็นการตรวจจับเดียว หรือพลาดวัตถุที่อัดแน่นอยู่ระหว่างชิ้นอื่น

วัตถุโปร่งใสหรือสะท้อนแสง

กระจก พลาสติกใส และพื้นผิวมันวาวไม่มีขอบที่ชัดเจน ทำให้นับพลาดหรือนับผี

จำนวนสูงมากในเฟรมเดียว

การนับเกิน 1,000 ชิ้นในภาพเดียวขยายข้อผิดพลาดเล็กๆ ต่อชิ้นเป็นยอดรวมที่เห็นได้ชัด การแบ่งเป็นหลายภาพช่วยแก้ปัญหานี้

เมื่อไหรการนับด้วยมือยังดีกว่า

AI ต้องการวัตถุที่มองเห็นได้ในภาพถ่าย มีสถานการณ์ที่การตัดสินของมนุษย์ยังเป็นเครื่องมือที่ดีกว่า:

  • น้อยกว่า 10 ชิ้น - ความสามารถในการ subitizing ของสมองทำให้การมองผ่านๆ เร็วกว่าแอปใดๆ
  • วัตถุที่ซ่อนอยู่ทั้งหมด - ชิ้นในกล่องปิด หลังผนัง หรืออยู่ใต้ชิ้นอื่นมองไม่เห็นจากกล้อง
  • กองรวมไม่เป็นระเบียบ - กองวัตถุที่แตกต่างกันมากในทิศทางสุ่มสามารถทำให้โมเดลที่คาดหวังความสม่ำเสมอทางสายตาสับสน
  • ไม่มีกล้อง - บางครั้งวิธีที่เร็วที่สุดคือนับด้วยมือ

เส้นแบ่งในทางปฏิบัติ: ถ้าวัตถุทั้งหมดมองเห็นชัดเจนและมีมากกว่าประมาณ 20 ชิ้น AI แทบจะให้ผลลัพธ์ที่เร็วกว่าและแม่นยำกว่าเสมอ

Person holding a smartphone to photograph small electronic components spread on a dark surface, showing how easy it is to count objects with a phone

สรุป

การนับด้วย AI ตอนนี้เร็วกว่า แม่นยำกว่า และสม่ำเสมอกว่าการนับด้วยมือสำหรับสถานการณ์ใช้งานจริงส่วนใหญ่ ข้อจำกัดที่เหลือเป็นเรื่องจริงแต่เข้าใจดี และลดลงทุกรุ่นโมเดลใหม่

ครั้งหน้าที่คุณเจอชั้นอะไหล่เต็มไปด้วยชิ้นส่วน ถาดองค์ประกอบ หรือพาเลทกล่อง ลองถ่ายรูปแทนการนับด้วยมือ คุณจะได้คำตอบในไม่กี่วินาที และมันอาจจะแม่นยำกว่าการนับของคุณเอง