記事一覧に戻る

AIが写真の中のオブジェクトを数える方法(そしてなぜあなたより優れているのか)

50本のボルトを数えると目が疲れます。AIはそのすべてを数秒で数え、それぞれにカラードットを付けて証明します。その仕組みを解説します。

list この記事の内容

50本のボルトを数えると目が疲れます。AIはまだウォーミングアップ中です。

手作業でものを数えるのは、簡単に感じられます - そうでなくなるまでは。約30個を超えると、脳は数えることから推定に切り替わります。どこまで数えたか分からなくなり、一列を数え直し、それでも正しいか不安になります。AIを活用したオブジェクトカウントは異なるアプローチを取ります。画像全体を一度に処理し、見つけたすべてのアイテムをマークし、数秒で合計を返します。その仕組みを説明します。

写真をアップロードすると何が起こるか

AIカウントツールに写真を送ると、3つのことが素早く連続して起こります。

まず、システムが画像を前処理します。標準サイズへのリサイズ、色の正規化、アスペクト比の調整です。これにはミリ秒しかかかりません。

次に検出が行われます。コンピュータビジョンモデルが1回のフォワードパスで画像全体をスキャンします。YOLO (You Only Look Once) のような最新のアーキテクチャは、画像をグリッドに分割し、すべてのセルについてオブジェクトの位置、分類、信頼度スコアを同時に予測します。ページを一語ずつ読むのと、ページ全体を一目で把握する違いだと考えてください。

モデルが見つけた各オブジェクトについて、分類(オブジェクトが何であるか)、位置(画像内の座標)、そして0から1の間の信頼度スコアを出力します。スコアが0.85であれば、モデルはその場所に実際のオブジェクトがあることを85%確信しています。

最後に、信頼度の閾値によって弱い検出がフィルタリングされます。カットオフ以下のものは破棄され、誤カウントが減少します。残った検出結果は集計され、元の写真上にカラードットまたはバウンディングボックスとして表示されます。合計数と、何がどこで数えられたかの視覚的なマップです。

Metal bolts on a workbench with green AI detection markers on each one, showing how object counting overlays work

精度の差: なぜAIはあなたの目を上回るのか

人間の視覚には、ほとんどの人が考えもしないハードリミットがあります。認知科学者はこれをサビタイジング(subitizing)と呼びます。脳は1から4個のアイテムの数量をほぼ完璧な精度で瞬時に認識できます。その閾値を超えると、一つずつ数えなければならず、エラーが忍び込み始めます。

Nventoryの調査によると、通常の作業速度で在庫を数える人間の精度は平均約91%で、10個につき約1個の数え間違いがあります。そのエラー率は疲労、注意散漫、数量とともに上昇します。棚の上の200個のファスナーを見つめる頃には、脳は数えるのではなく推測しています。

AIは疲労せず、数えた場所を見失わず、推定もしません。実際の倉庫環境でテストされたファインチューニング済みのYOLOv11モデルは、複数回のテストで97%のカウント精度を達成しました(Springer, 2026)。クリーンで明るい画像の管理された条件下では、精度は99%に達します。数量が増えるほど、その差は広がるばかりです。

50個の閾値

50個では、人間とAIのカウント精度は同程度です。500個になると、AIはほとんど速度が落ちませんが、あなたのエラー率は時間が経つにつれて上昇します。数が多いほど、AIの優位性は大きくなります。

速度: 数分 vs. 数秒

倉庫作業員が手作業で在庫を数える場合、1時間あたり約250から750個を処理します。中規模倉庫の完全な実地棚卸しには、チームで1から3日かかります。

AIカウントシステムは、最新のハードウェアで1枚の画像を250ミリ秒以内に処理します。スマートフォンでも通常1から3秒です。1枚の写真に数百のアイテムが含まれていても、すべて1回のパスで数えられます。

計算は一方的です。4人のチームが8時間かけて行うタスク、約2,500 SKUは、各棚を写真に撮って処理すれば数分で完了できます。ボトルネックはカウントから撮影に移ります。

Warehouse worker in safety vest looking up at tall shelves stacked with hundreds of boxes, showing the scale of manual inventory counting

AIカウントが苦手なケース

AIカウントは完璧ではありません。弱点を知ることで、いつ信頼し、いつ結果を検証すべきかを判断できます。

重なったオブジェクトや積み上げられたオブジェクト

モデルは表面に見えているものしか認識できません。下に埋もれたアイテムはカメラには見えません。ICCV 2025の研究では、積み上げられたオブジェクトが最も難しいカウント問題の一つであることが確認されました。

非常に小さなオブジェクト

画像内で約20ピクセル未満のアイテムは、ノイズと区別しにくくなります。高解像度の写真が役立ちますが、実用的な限界があります。

密集した雑然とした場面

オブジェクトが密集すると、モデルは隣接するアイテムを1つの検出にまとめたり、他のオブジェクトの間に挟まれたアイテムを見逃したりすることがあります。

透明または反射するアイテム

ガラス、透明プラスチック、光沢のある表面は明確なエッジがなく、見逃しや誤検出の原因となります。

1フレーム内の非常に多い数量

1枚の画像で1,000を超えるカウントは、オブジェクトごとの小さなエラーが目立つ合計誤差に増幅されます。複数の写真に分割することで解決できます。

手作業のカウントがまだ勝つ場合

AIは写真に写っている可視オブジェクトを必要とします。人間の判断力がまだ優れたツールとなる状況があります:

  • 10個未満のアイテム - 脳のサビタイジング能力により、一瞬の目視がどんなアプリよりも速くなります。
  • 完全に隠れたオブジェクト - 閉じた箱の中、壁の裏、他のアイテムの下にあるものはカメラには見えません。
  • 混在した不規則な山 - ランダムな向きの非常に異なるオブジェクトの山は、視覚的な一貫性を期待するモデルを混乱させることがあります。
  • カメラがない場合 - 最も速い方法が単に手で数えることである場合もあります。

実用的な判断基準: すべてのオブジェクトが明確に見え、約20個以上ある場合、AIはほぼ常により速く、より正確な結果を提供します。

Person holding a smartphone to photograph small electronic components spread on a dark surface, showing how easy it is to count objects with a phone

まとめ

AIを活用したカウントは、ほとんどの実用的なシナリオにおいて、手作業のカウントよりも速く、正確で、一貫性があります。残された限界は実在しますが、よく理解されており、新しいモデル世代ごとに縮小しています。

次に部品の棚、コンポーネントのトレイ、またはパレットの箱に直面したら、手で数える代わりに写真を撮ってみてください。数秒で答えが得られ、おそらくあなたよりも正確でしょう。