画像の中のものを特定する画像分類とは

松本拓之

#連載・コラム

ツイートシェア

松本拓之

#連載・コラム

ツイートシェア

この記事を読んでる方へ

▼SNS×広告 Z世代意識調査レポート

・広告表現別の印象
・表現別広告
・好きな広告
・煩わしい広告
・買いたくなる広告
広告担当者必見の内容です。

詳しく知りたい

こんにちは。D2C R ビジネス・インテリジェンス部の松本です。
ビジネス・インテリジェンス部ではデータ分析に関する様々な業務をおこなっております。
その中でも画像分類という手法を今回は紹介させていただきます。
色々な場面での適用が考えられる手法になりますので、本記事をご覧いただいている方の業務に何かお役に立てれば幸いです。
それでは、画像分類について紹介させていただきます。

1 画像分類とは
- 1.1 実際の活用事例
2 画像分類の手順
3 まとめ

画像分類とは

何らかの画像からその画像または画像の中にある特定物がどのカテゴリに属するかを分類することです。

実際の活用事例

①パン屋さんのレジ業務への適用

カメラ画像からトレイの上にあるパンの種類を分類し値段を算出することができるAIレジシステムが導入されている。
商品の登録数は無限で、商品の形状や色、トッピングなどの制限もない。そのため、オリジナリティ溢れるパンを販売している店舗でも、レジ業務の効率化を実現できる。

引用元：https://www.matrixflow.net/case-study/16/
　　　　https://ledge.ai/bakery-scan/

②不良品検知

正しい製品の画像をコンピュータに学習させておき、完成した製品の画像を読み込ませていくことで、欠陥品かどうかを分類できる仕組み。人間の目による検品と比較して検査時間が短くてすみ、検査のムラが生じる可能性も低い。

引用元：https://www.albert2005.co.jp/service/case/740.html

③ ECサイトの画像分類

中国の大手ECサイトでは、数ある商品の中から目当ての表品を絞らせるために画像分類システムを導入している。
欲しい商品の画像をアップロードすると、その商品に似た画像を検索し、表示することができる。
引用元：https://www.tech-teacher.jp/blog/machine-learning-image-classification/

このように画像分類はビジネス上のさまざまなケースで導入されています。
ここからはどのように画像分類を行なっているのかを実際のデータを用いて説明します。
今回はMNISTという「0」~「9」の手書き数字の画像データを使って、その画像の数字が実際にどの数字なのかを画像分類します。

画像分類の手順

画像データの読み込み

画像データはピクセル（画素）という小さな正方形がいくつも集まって形成されています。
このピクセルの輝度値（明るさ）を行列の要素として使用することで画像データを数値で表現することができます。
画像データの輝度値は0~255の値をとります。
白黒画像（グレースケール）の場合は1次元（1色）の行列で、カラー画像については光の三原色である赤・青・緑の3色の混合によって表現されるため、3次元（3色）の行列で表現することができます。
画像データを数値データとして読み込んだ例を下に示します。

このように画像データを数値データに変換することにより、機械学習モデルへの投入が可能となります。

画像データの整形

画像データはデータによって大きさが異なります。ですので、機械学習に投入するためには画像の大きさを揃えてあげる必要があります。
もとの画像サイズから機械学習へ投入できるようにリサイズすることを整形と言います。

数値データの正規化

正規化とはデータの値を0~1の値になるように変換することです。
機械学習の分野ではよく用いられる手法で精度が向上したり計算時間の短縮が見込めます。
上述通り、画像データの輝度値は0~255の値をとります。
ですので、画像データの正規化は各画素値を255で割ることによって成立します。

アルゴリズムへの投入

ここまでで機械学習へ投入するまでの下準備は終了です。これからは実際に機械学習に1.~3.で加工した画像データを投入し画像分類が可能となるモデルを作成していきます。
今回は畳み込みニューラルネットワークという手法を使用しました。
畳み込みニューラルネットワークはその名の通り畳み込みとニューラルネットワークを合わせた手法です。
畳み込みとは元の画像データから重要な特徴を抽出する手法です。
これにより、効率的に学習を行うことができ、精度も飛躍的に向上します。
ニューラルネットワークは人間の脳内の神経細胞（ニューロン）のネットワークを模した数学モデルで、さまざまな分野で応用されています。

引用元：https://kenyu-life.com/2019/03/07/convolutional_neural_network/

実際に画像データを入力し学習させたモデルの精度は99%でした。
99%の精度で正しく手書き数字を当てることができるモデルを作成できたということです。
今回のMNISTのデータは機械学習モデルを構築するために事前にデータがきれいに整形されているため高い精度を出すことができましたが、実際にビジネスの現場で直面するデータはこれほどきれいではありませんので他にもいろいろな工夫を凝らす必要があるでしょう。

まとめ

本記事では、画像分類を実施する手順を説明しながら白黒の画像を利用して画像分類を行ってまいりました。
広告業界においては、効果的なクリエイティブを画像分類を用いて機械的に判断することもできるかもしれません。
冒頭でも申し上げました通り、活用範囲の広い技術であると思いますので、ご覧いただいている方々の業務に活用できるところがあれば幸いです。

▼過去のデータ分析に関する記事