Mắt bạn mỏi sau 50 chiếc bu lông. AI thì mới chỉ bắt đầu khởi động.
Đếm đồ bằng tay có vẻ đơn giản cho đến khi không còn đơn giản nữa. Quá khoảng 30 mục, não bạn chuyển từ đếm sang ước lượng. Bạn mất vị trí, đếm lại một hàng, và vẫn tự hỏi liệu kết quả có đúng không. Đếm vật thể bằng AI sử dụng cách tiếp cận khác: xử lý toàn bộ hình ảnh cùng lúc, đánh dấu mọi mục tìm thấy, và trả về tổng số trong vài giây. Đây là cách nó hoạt động.
Chuyện gì xảy ra khi bạn tải ảnh lên
Khi bạn gửi một bức ảnh đến công cụ đếm AI, ba điều xảy ra liên tiếp rất nhanh.
Đầu tiên, hệ thống tiền xử lý hình ảnh của bạn: thay đổi kích thước về chiều chuẩn, chuẩn hóa màu sắc, và điều chỉnh tỷ lệ khung hình. Việc này chỉ mất vài mili giây.
Tiếp theo là phát hiện. Một mô hình computer vision quét toàn bộ hình ảnh trong một lượt forward pass duy nhất. Các kiến trúc hiện đại như YOLO (You Only Look Once) chia hình ảnh thành lưới và dự đoán vị trí vật thể, phân loại, và điểm tin cậy cho mọi ô cùng lúc. Hãy nghĩ về nó như sự khác biệt giữa việc đọc một trang từng chữ một và nhìn toàn bộ trang trong một cái liếc.
Với mỗi vật thể mô hình tìm thấy, nó xuất ra một phân loại (nó nghĩ vật thể đó là gì), một vị trí (tọa độ trong hình ảnh), và một điểm tin cậy từ 0 đến 1 thể hiện mức độ chắc chắn. Điểm 0.85 nghĩa là mô hình tin chắc 85% rằng nó tìm thấy một vật thể thật tại vị trí đó.
Cuối cùng, một ngưỡng tin cậy lọc bỏ các phát hiện yếu. Bất kỳ thứ gì dưới ngưỡng sẽ bị loại bỏ, giảm số đếm sai. Các phát hiện còn lại được tổng hợp và hiển thị dưới dạng các chấm màu hoặc khung bao quanh trên ảnh gốc của bạn, tổng số đếm cùng một bản đồ trực quan cho thấy chính xác những gì đã được đếm và ở đâu.

Khoảng cách về độ chính xác: tại sao AI vượt trội hơn mắt bạn
Thị giác con người có một giới hạn cứng mà hầu hết mọi người không bao giờ nghĩ đến. Các nhà khoa học nhận thức gọi nó là subitizing: não có thể nhận biết ngay lập tức số lượng từ 1 đến 4 mục với độ chính xác gần như hoàn hảo. Vượt qua ngưỡng đó, bạn phải đếm từng cái một, và sai sót bắt đầu xuất hiện.
Nghiên cứu từ Nventory cho thấy con người đếm hàng tồn kho ở tốc độ làm việc bình thường có độ chính xác trung bình khoảng 91%, khoảng một lần đếm sai cho mỗi 10 mục. Tỷ lệ sai sót đó tăng lên theo sự mệt mỏi, mất tập trung và số lượng. Đến lúc bạn nhìn chằm chằm vào 200 chiếc ốc vít trên kệ, não bạn đang đoán, không phải đếm.
AI không mệt mỏi, không mất vị trí, và không ước lượng. Một mô hình YOLOv11 đã được tinh chỉnh và thử nghiệm trong điều kiện kho hàng thực tế đạt độ chính xác đếm 97% qua nhiều vòng kiểm tra (Springer, 2026). Trong điều kiện kiểm soát với hình ảnh sạch và đủ sáng, độ chính xác đạt 99%. Khoảng cách chỉ ngày càng lớn khi số lượng tăng.
Ở 50 mục, độ chính xác đếm của người và AI là tương đương. Ở 500, AI hầu như không chậm lại trong khi tỷ lệ sai của bạn tăng theo mỗi phút trôi qua. Số lượng càng lớn, lợi thế càng nhiều.
Tốc độ: phút so với giây
Một nhân viên kho đếm hàng tồn kho thủ công xử lý khoảng 250 đến 750 mục mỗi giờ. Việc kiểm kê vật lý toàn bộ một kho hàng trung bình mất 1 đến 3 ngày với một nhóm.
Hệ thống đếm AI xử lý một hình ảnh trong dưới 250 mili giây trên phần cứng hiện đại. Ngay cả trên điện thoại thông minh, thường chỉ mất 1 đến 3 giây. Một bức ảnh có thể chứa hàng trăm mục, tất cả được đếm trong một lượt duy nhất.
Phép tính không cân đối. Một nhiệm vụ cần nhóm bốn người làm việc 8 giờ, khoảng 2,500 SKU, có thể hoàn thành trong vài phút khi mỗi kệ hàng được chụp ảnh và xử lý. Điểm nghẽ chuyển từ đếm sang chụp ảnh.

Những điểm AI đếm còn hạn chế
Đếm bằng AI không hoàn hảo. Biết điểm yếu của nó giúp bạn quyết định khi nào nên tin tưởng và khi nào cần kiểm tra lại kết quả.
Mô hình chỉ nhìn thấy những gì trên bề mặt. Các mục bị chôn bên dưới không thể nhìn thấy bởi camera. Nghiên cứu ICCV 2025 xác nhận vật thể xếp chồng vẫn là một trong những bài toán đếm khó nhất.
Các mục dưới khoảng 20 pixel trong hình ảnh trở nên khó phân biệt với nhiễu. Ảnh độ phân giải cao hơn có ích, nhưng có giới hạn thực tế.
Khi các vật thể chen chúc nhau, mô hình có thể gộp các mục liền kề thành một phát hiện hoặc bỏ sót vật thể bị kẹp giữa những vật khác.
Kính, nhựa trong và bề mặt bóng không có cạnh rõ ràng, dẫn đến việc bỏ sót hoặc đếm ảo.
Số đếm trên 1,000 trong một hình ảnh khuếch đại sai sót nhỏ theo từng vật thể thành tổng số đáng kể. Chia thành nhiều ảnh sẽ giải quyết vấn đề này.
Khi nào đếm tay vẫn thắng
AI cần các vật thể nhìn thấy được trong ảnh chụp. Có những tình huống mà phán đoán của con người vẫn là công cụ tốt hơn:
- Dưới 10 mục - Khả năng subitizing của não giúp một cái nhìn nhanh hơn bất kỳ ứng dụng nào.
- Vật thể bị ẩn hoàn toàn - Các mục trong hộp đóng, sau tường, hoặc bên dưới các mục khác không thể nhìn thấy bởi camera.
- Đống hỗn hợp không đều - Một mới những vật thể rất khác nhau với hướng ngẫu nhiên có thể làm rối các mô hình vốn mong đợi sự nhất quán về hình ảnh.
- Không có camera - Đôi khi cách nhanh nhất đơn giản là đếm bằng tay.
Ranh giới thực tế: nếu tất cả vật thể đều nhìn thấy rõ ràng và có hơn khoảng 20 mục, AI hầu như luôn cho kết quả nhanh hơn và chính xác hơn.

Kết luận
Đếm bằng AI hiện nay nhanh hơn, chính xác hơn và nhất quán hơn so với đếm thủ công cho hầu hết các tình huống thực tế. Những hạn chế còn lại là có thật nhưng đã được hiểu rõ, và đang thu hẹp với mỗi thế hệ mô hình mới.
Lần tới khi bạn đối mặt với một kệ linh kiện, một khay phụ tùng, hay một pallet thùng hàng, hãy thử chụp ảnh thay vì đếm bằng tay. Bạn sẽ có câu trả lời trong vài giây, và nó có lẽ chính xác hơn của bạn.