Els teus ulls es cansen despres de 50 cargols. La IA tot just s'esta escalfant.
Comptar coses a ma sembla senzill fins que deixa de ser-ho. A partir d'uns 30 elements, el teu cervell passa de comptar a estimar. Perds el fil, recomptes una fila i encara et preguntes si ho has encertat. El recompte d'objectes amb IA fa un enfocament diferent: processa una imatge sencera de cop, marca cada element que troba i retorna un total en segons. Aixi es com funciona.
Que passa quan puges una foto
Quan envies una foto a una eina de recompte amb IA, passen tres coses en rapida successio.
Primer, el sistema preprocessa la teva imatge: redimensiona a una mida estandard, normalitza els colors i ajusta la relacio d'aspecte. Aixo triga mil-lisegons.
Despres ve la deteccio. Un model de visio per computador escaneja tota la imatge en una sola passada. Arquitectures modernes com YOLO (You Only Look Once) divideixen la imatge en una graella i prediuen ubicacions d'objectes, classificacions i puntuacions de confianca per a cada cel-la de manera simultanea. Pensa-hi com la diferencia entre llegir una pagina paraula per paraula i captar tota la pagina d'un cop d'ull.
Per a cada objecte que el model troba, genera una classificacio (que creu que es l'objecte), una ubicacio (coordenades a la imatge) i una puntuacio de confianca entre 0 i 1 que representa el seu grau de certesa. Una puntuacio de 0.85 vol dir que el model te un 85% de confianca que ha trobat un objecte real en aquell punt.
Finalment, un llindar de confianca filtra les deteccions febles. Tot el que queda per sota del limit es descarta, reduint els recomptes falsos. Les deteccions restants se sumen i es mostren com a punts de colors o quadres delimitadors sobre la teva foto original: un recompte total mes un mapa visual d'exactament que s'ha comptat i on.

La bretxa de precisio: per que la IA supera els teus ulls
La visio humana te un limit estricte en el qual la majoria de la gent mai no pensa. Els cientifics cognitius l'anomenen subitizing: el cervell pot reconeixer instantaniament quantitats d'1 a 4 elements amb una precisio gairebe perfecta. Mes enlla d'aquest llindar, has de comptar un per un, i els errors comencen a apareixer.
Una recerca de Nventory va trobar que els humans que compten inventari a velocitat normal de treball tenen una precisio mitjana del 91%, aproximadament un error per cada 10 elements. Aquesta taxa d'error augmenta amb la fatiga, les distraccions i la quantitat. Quan et trobes mirant 200 fixadors en una prestatgeria, el teu cervell esta endevinant, no comptant.
La IA no es fatiga, no perd el fil ni estima. Un model YOLOv11 ajustat i provat en condicions reals de magatzem va aconseguir un 97% de precisio en el recompte al llarg de multiples rondes de proves (Springer, 2026). En condicions controlades amb imatges netes i ben il-luminades, la precisio arriba al 99%. La diferencia nomes s'amplia a mesura que les quantitats creixen.
Amb 50 elements, la precisio del recompte huma i el de la IA son comparables. Amb 500, la IA amb prou feines s'alenteix mentre la teva taxa d'error puja amb cada minut que passa. Com mes gran es el recompte, mes gran es l'avantatge.
Velocitat: minuts contra segons
Un treballador de magatzem que compta inventari manualment processa aproximadament de 250 a 750 elements per hora. Un recompte fisic complet d'un magatzem mitja triga d'1 a 3 dies amb un equip.
Un sistema de recompte amb IA processa una sola imatge en menys de 250 mil-lisegons en maquinari modern. Fins i tot en un smartphone, normalment triga d'1 a 3 segons. Una foto pot contenir centenars d'elements, tots comptats en una sola passada.
Les xifres son aclaparadores. Una tasca que ocupa a un equip de quatre persones un dia de 8 hores, aproximadament 2,500 SKUs, es pot completar en minuts quan cada prestatgeria es fotografia i es processa. El coll d'ampolla passa del recompte a la presa de fotos.

On el recompte amb IA te dificultats
El recompte amb IA no es infal-lible. Coneixer els seus punts febles t'ajuda a decidir quan confiar-hi i quan verificar el resultat.
El model nomes veu el que hi ha a la superficie. Els elements enterrats a sota son invisibles per a la camera. Una recerca d'ICCV 2025 va confirmar que els objectes apilats continuen sent un dels problemes de recompte mes dificils.
Els elements de menys d'aproximadament 20 pixels a la imatge es tornen dificils de distingir del soroll. Les fotos de mes resolucio ajuden, pero hi ha un limit practic.
A mesura que els objectes s'aglomeren, el model pot fusionar elements adjacents en una sola deteccio o passar per alt objectes encaixats entre d'altres.
El vidre, el plastic transparent i les superficies brillants no tenen vores definides, cosa que genera recomptes perduts o fantasma.
Recomptes superiors a 1,000 en una sola imatge amplifiquen petits errors per objecte en totals notables. Dividir en diverses fotos resol aixo.
Quan comptar a ma encara guanya
La IA necessita objectes visibles en una fotografia. Hi ha situacions on el judici huma encara es la millor eina:
- Menys de 10 elements - La capacitat de subitizing del teu cervell fa que un cop d'ull rapid sigui mes rapid que qualsevol aplicacio.
- Objectes completament ocults - Els elements dins de caixes tancades, darrere de parets o sota d'altres objectes son invisibles per a una camera.
- Piles irregulars barrejades - Un munt d'objectes molt diferents en orientacions aleatories pot confondre models que esperen consistencia visual.
- Sense camera disponible - De vegades el cami mes rapid es simplement comptar a ma.
La linia divisoria practica: si tots els objectes son clarament visibles i n'hi ha mes d'uns 20, la IA gairebe sempre ofereix un resultat mes rapid i precis.

La conclusio
El recompte amb IA es ara mes rapid, mes precis i mes consistent que el recompte manual per a la majoria d'escenaris practics. Les limitacions restants son reals pero ben compreses, i es redueixen amb cada nova generacio de models.
La propera vegada que t'enfrontis a una prestatgeria de peces, una safata de components o un palet de caixes, prova de fer una foto en lloc de comptar a ma. Obtindras una resposta en segons, i probablement sera mes precisa que la teva.