모든 기사로 돌아가기

AI가 사진 속 객체를 세는 방법(그리고 왜 당신보다 더 잘하는지)

볼트 50개를 세면 눈이 피로해집니다. AI는 몇 초 만에 모두 세고, 각각에 색상 점을 찍어 증명합니다. 실제로 어떻게 작동하는지 알아보세요.

list 이 기사의 내용

볼트 50개를 세면 눈이 피로해집니다. AI는 이제 막 워밍업을 시작했을 뿐입니다.

손으로 물건을 세는 것은 간단하게 느껴집니다 - 그렇지 않을 때까지는요. 약 30개를 넘기면 뇌는 세는 것에서 추정으로 전환됩니다. 어디까지 셌는지 잃어버리고, 한 줄을 다시 세고, 그래도 맞는지 의문이 듭니다. AI 기반 객체 카운팅은 다른 접근 방식을 취합니다. 전체 이미지를 한 번에 처리하고, 발견한 모든 항목을 표시하고, 몇 초 만에 합계를 반환합니다. 작동 방식은 다음과 같습니다.

사진을 업로드하면 무슨 일이 일어나는가

AI 카운팅 도구에 사진을 보내면 세 가지 일이 빠르게 연속으로 일어납니다.

먼저, 시스템이 이미지를 전처리합니다. 표준 크기로 리사이즈하고, 색상을 정규화하고, 종횡비를 조정합니다. 이 과정은 밀리초 단위로 완료됩니다.

다음은 감지입니다. 컴퓨터 비전 모델이 단일 포워드 패스로 전체 이미지를 스캔합니다. YOLO (You Only Look Once)와 같은 최신 아키텍처는 이미지를 그리드로 나누고 모든 셀에 대해 객체 위치, 분류, 신뢰도 점수를 동시에 예측합니다. 페이지를 단어 하나씩 읽는 것과 전체 페이지를 한눈에 파악하는 것의 차이라고 생각하면 됩니다.

모델이 찾은 각 객체에 대해 분류(객체가 무엇인지), 위치(이미지 내 좌표), 그리고 0에서 1 사이의 신뢰도 점수를 출력합니다. 점수가 0.85이면 모델이 해당 위치에 실제 객체가 있다고 85% 확신한다는 의미입니다.

마지막으로, 신뢰도 임계값이 약한 감지를 필터링합니다. 기준치 이하의 것은 폐기되어 오류 카운트가 줄어듭니다. 나머지 감지 결과는 집계되어 원본 사진 위에 색상 점 또는 바운딩 박스로 표시됩니다. 총 개수와 무엇이 어디에서 카운트되었는지의 시각적 맵입니다.

Metal bolts on a workbench with green AI detection markers on each one, showing how object counting overlays work

정확도 격차: AI가 당신의 눈을 능가하는 이유

인간의 시각에는 대부분의 사람들이 생각하지 못하는 한계가 있습니다. 인지과학자들은 이를 서비타이징(subitizing)이라고 부릅니다. 뇌는 1에서 4개의 항목 수량을 거의 완벽한 정확도로 즉시 인식할 수 있습니다. 그 임계값을 넘으면 하나씩 세야 하며, 오류가 슬금슬금 발생하기 시작합니다.

Nventory의 연구에 따르면, 일반 작업 속도로 재고를 세는 사람의 평균 정확도는 약 91%로, 10개당 약 1개의 오류가 발생합니다. 이 오류율은 피로, 주의 산만, 수량이 증가할수록 올라갑니다. 선반 위의 200개 패스너를 바라볼 때쯤이면, 뇌는 세는 것이 아니라 추측하고 있습니다.

AI는 피로하지 않고, 위치를 잃지 않으며, 추정하지 않습니다. 실제 창고 환경에서 테스트된 파인튜닝된 YOLOv11 모델은 여러 차례의 테스트에서 97%의 카운팅 정확도를 달성했습니다(Springer, 2026). 깨끗하고 밝은 이미지의 통제된 조건에서는 정확도가 99%에 도달합니다. 수량이 증가할수록 격차는 더 벌어집니다.

50개 항목 임계값

50개에서는 인간과 AI의 카운팅 정확도가 비슷합니다. 500개에서는 AI가 거의 속도를 줄이지 않는 반면, 여러분의 오류율은 시간이 지날수록 올라갑니다. 카운트가 클수록 이점이 커집니다.

속도: 분 vs. 초

창고 작업자가 수동으로 재고를 세는 경우 시간당 약 250에서 750개를 처리합니다. 중형 창고의 전체 실물 재고 조사는 팀이 1에서 3일이 걸립니다.

AI 카운팅 시스템은 최신 하드웨어에서 단일 이미지를 250밀리초 이내에 처리합니다. 스마트폰에서도 보통 1에서 3초 걸립니다. 한 장의 사진에 수백 개의 항목이 포함될 수 있으며, 모두 단일 패스로 카운트됩니다.

계산은 일방적입니다. 4명 팀이 8시간 하루 걸리는 작업, 약 2,500 SKU는 각 선반을 촬영하고 처리하면 몇 분 안에 완료할 수 있습니다. 병목 지점이 카운팅에서 촬영으로 이동합니다.

Warehouse worker in safety vest looking up at tall shelves stacked with hundreds of boxes, showing the scale of manual inventory counting

AI 카운팅이 어려움을 겪는 경우

AI 카운팅은 완벽하지 않습니다. 약점을 아는 것이 언제 신뢰하고 언제 결과를 확인해야 할지 결정하는 데 도움이 됩니다.

겹치거나 쌓인 객체

모델은 표면에 보이는 것만 인식합니다. 아래 묻힌 항목은 카메라에 보이지 않습니다. ICCV 2025 연구에서 쌓인 객체가 가장 어려운 카운팅 문제 중 하나임을 확인했습니다.

매우 작은 객체

이미지에서 약 20픽셀 미만의 항목은 노이즈와 구별하기 어렵습니다. 고해상도 사진이 도움이 되지만, 실용적인 한계가 있습니다.

밀집되고 어수선한 장면

객체가 밀집하면 모델이 인접한 항목을 하나의 감지로 병합하거나 다른 객체 사이에 끼인 항목을 놓칠 수 있습니다.

투명하거나 반사하는 항목

유리, 투명 플라스틱, 반짝이는 표면은 뚜렷한 가장자리가 없어 누락 또는 허위 카운트로 이어집니다.

한 프레임에 매우 많은 수량

단일 이미지에서 1,000개 이상의 카운트는 객체당 작은 오류가 눈에 띄는 총 오차로 증폭됩니다. 여러 장의 사진으로 나누면 해결됩니다.

손으로 세는 것이 아직 이기는 경우

AI는 사진에 보이는 객체가 필요합니다. 인간의 판단이 아직 더 나은 도구인 상황이 있습니다:

  • 10개 미만의 항목 - 뇌의 서비타이징 능력 덕분에 한눈에 보는 것이 어떤 앱보다 빠릅니다.
  • 완전히 숨겨진 객체 - 닫힌 상자 안, 벽 뒤, 다른 항목 아래에 있는 물건은 카메라에 보이지 않습니다.
  • 혼합된 불규칙한 더미 - 무작위 방향의 매우 다른 객체의 뒤죽박죽은 시각적 일관성을 기대하는 모델을 혼란스럽게 할 수 있습니다.
  • 카메라가 없는 경우 - 때로는 가장 빠른 방법이 단순히 손으로 세는 것입니다.

실용적인 기준선: 모든 객체가 명확히 보이고 약 20개 이상이면, AI는 거의 항상 더 빠르고 정확한 결과를 제공합니다.

Person holding a smartphone to photograph small electronic components spread on a dark surface, showing how easy it is to count objects with a phone

결론

AI 기반 카운팅은 이제 대부분의 실용적인 시나리오에서 수동 카운팅보다 더 빠르고, 정확하고, 일관적입니다. 남아 있는 한계는 실재하지만 잘 이해되어 있으며, 새로운 모델 세대마다 줄어들고 있습니다.

다음에 부품 선반, 부품 트레이, 또는 박스 팔레트를 마주하면 손으로 세는 대신 사진을 찍어 보세요. 몇 초 안에 답을 얻을 수 있으며, 아마 여러분보다 더 정확할 것입니다.