Tornar a tots els articles

Com la IA compta objectes en fotos (i per que et guanya)

Els teus ulls es cansen despres de 50 cargols. La IA els compta tots en segons, amb punts de colors sobre cadascun per demostrar-ho. Aixi es com funciona realment.

list En aquest article

Els teus ulls es cansen despres de 50 cargols. La IA tot just s'esta escalfant.

Comptar coses a ma sembla senzill fins que deixa de ser-ho. A partir d'uns 30 elements, el teu cervell passa de comptar a estimar. Perds el fil, recomptes una fila i encara et preguntes si ho has encertat. El recompte d'objectes amb IA fa un enfocament diferent: processa una imatge sencera de cop, marca cada element que troba i retorna un total en segons. Aixi es com funciona.

Que passa quan puges una foto

Quan envies una foto a una eina de recompte amb IA, passen tres coses en rapida successio.

Primer, el sistema preprocessa la teva imatge: redimensiona a una mida estandard, normalitza els colors i ajusta la relacio d'aspecte. Aixo triga mil-lisegons.

Despres ve la deteccio. Un model de visio per computador escaneja tota la imatge en una sola passada. Arquitectures modernes com YOLO (You Only Look Once) divideixen la imatge en una graella i prediuen ubicacions d'objectes, classificacions i puntuacions de confianca per a cada cel-la de manera simultanea. Pensa-hi com la diferencia entre llegir una pagina paraula per paraula i captar tota la pagina d'un cop d'ull.

Per a cada objecte que el model troba, genera una classificacio (que creu que es l'objecte), una ubicacio (coordenades a la imatge) i una puntuacio de confianca entre 0 i 1 que representa el seu grau de certesa. Una puntuacio de 0.85 vol dir que el model te un 85% de confianca que ha trobat un objecte real en aquell punt.

Finalment, un llindar de confianca filtra les deteccions febles. Tot el que queda per sota del limit es descarta, reduint els recomptes falsos. Les deteccions restants se sumen i es mostren com a punts de colors o quadres delimitadors sobre la teva foto original: un recompte total mes un mapa visual d'exactament que s'ha comptat i on.

Cargols metalics sobre un banc de treball amb marcadors verds de deteccio d'IA sobre cadascun, mostrant com funcionen les superposicions de recompte d'objectes

La bretxa de precisio: per que la IA supera els teus ulls

La visio humana te un limit estricte en el qual la majoria de la gent mai no pensa. Els cientifics cognitius l'anomenen subitizing: el cervell pot reconeixer instantaniament quantitats d'1 a 4 elements amb una precisio gairebe perfecta. Mes enlla d'aquest llindar, has de comptar un per un, i els errors comencen a apareixer.

Una recerca de Nventory va trobar que els humans que compten inventari a velocitat normal de treball tenen una precisio mitjana del 91%, aproximadament un error per cada 10 elements. Aquesta taxa d'error augmenta amb la fatiga, les distraccions i la quantitat. Quan et trobes mirant 200 fixadors en una prestatgeria, el teu cervell esta endevinant, no comptant.

La IA no es fatiga, no perd el fil ni estima. Un model YOLOv11 ajustat i provat en condicions reals de magatzem va aconseguir un 97% de precisio en el recompte al llarg de multiples rondes de proves (Springer, 2026). En condicions controlades amb imatges netes i ben il-luminades, la precisio arriba al 99%. La diferencia nomes s'amplia a mesura que les quantitats creixen.

El llindar dels 50 elements

Amb 50 elements, la precisio del recompte huma i el de la IA son comparables. Amb 500, la IA amb prou feines s'alenteix mentre la teva taxa d'error puja amb cada minut que passa. Com mes gran es el recompte, mes gran es l'avantatge.

Velocitat: minuts contra segons

Un treballador de magatzem que compta inventari manualment processa aproximadament de 250 a 750 elements per hora. Un recompte fisic complet d'un magatzem mitja triga d'1 a 3 dies amb un equip.

Un sistema de recompte amb IA processa una sola imatge en menys de 250 mil-lisegons en maquinari modern. Fins i tot en un smartphone, normalment triga d'1 a 3 segons. Una foto pot contenir centenars d'elements, tots comptats en una sola passada.

Les xifres son aclaparadores. Una tasca que ocupa a un equip de quatre persones un dia de 8 hores, aproximadament 2,500 SKUs, es pot completar en minuts quan cada prestatgeria es fotografia i es processa. El coll d'ampolla passa del recompte a la presa de fotos.

Treballador de magatzem amb armilla de seguretat mirant cap amunt a prestatgeries altes plenes de centenars de caixes, mostrant l'escala del recompte manual d'inventari

On el recompte amb IA te dificultats

El recompte amb IA no es infal-lible. Coneixer els seus punts febles t'ajuda a decidir quan confiar-hi i quan verificar el resultat.

Objectes superposats i apilats

El model nomes veu el que hi ha a la superficie. Els elements enterrats a sota son invisibles per a la camera. Una recerca d'ICCV 2025 va confirmar que els objectes apilats continuen sent un dels problemes de recompte mes dificils.

Objectes molt petits

Els elements de menys d'aproximadament 20 pixels a la imatge es tornen dificils de distingir del soroll. Les fotos de mes resolucio ajuden, pero hi ha un limit practic.

Escenes denses i desordenades

A mesura que els objectes s'aglomeren, el model pot fusionar elements adjacents en una sola deteccio o passar per alt objectes encaixats entre d'altres.

Objectes transparents o reflectants

El vidre, el plastic transparent i les superficies brillants no tenen vores definides, cosa que genera recomptes perduts o fantasma.

Quantitats molt altes en un sol enquadrament

Recomptes superiors a 1,000 en una sola imatge amplifiquen petits errors per objecte en totals notables. Dividir en diverses fotos resol aixo.

Quan comptar a ma encara guanya

La IA necessita objectes visibles en una fotografia. Hi ha situacions on el judici huma encara es la millor eina:

  • Menys de 10 elements - La capacitat de subitizing del teu cervell fa que un cop d'ull rapid sigui mes rapid que qualsevol aplicacio.
  • Objectes completament ocults - Els elements dins de caixes tancades, darrere de parets o sota d'altres objectes son invisibles per a una camera.
  • Piles irregulars barrejades - Un munt d'objectes molt diferents en orientacions aleatories pot confondre models que esperen consistencia visual.
  • Sense camera disponible - De vegades el cami mes rapid es simplement comptar a ma.

La linia divisoria practica: si tots els objectes son clarament visibles i n'hi ha mes d'uns 20, la IA gairebe sempre ofereix un resultat mes rapid i precis.

Persona sostenint un smartphone per fotografiar petits components electronics escampats sobre una superficie fosca, mostrant com de facil es comptar objectes amb un telefon

La conclusio

El recompte amb IA es ara mes rapid, mes precis i mes consistent que el recompte manual per a la majoria d'escenaris practics. Les limitacions restants son reals pero ben compreses, i es redueixen amb cada nova generacio de models.

La propera vegada que t'enfrontis a una prestatgeria de peces, una safata de components o un palet de caixes, prova de fer una foto en lloc de comptar a ma. Obtindras una resposta en segons, i probablement sera mes precisa que la teva.