Data 2022.12.06

似たもの同士でグループを作成・データを分類するクラスター分析とは

プロフィール画像

桂 彰吾

こんにちは。D2C R ビジネス・インテリジェンス部の桂です。

皆さんは広告のターゲット選定やセグメント設計、マーケティング分析のときにどのような分析手法を使って業務を行っていますか?
今回は上記で挙げたような業務を行う際に非常に役に立ち、ありとあらゆるものを似たもの同士で分類する『クラスター分析』について
紹介いたします。

この記事を読んでいる方へ

▼2024年10月の媒体アップデート情報
主要広告媒体の最新アップデート情報
・Googleの最適化されたターゲティングの設定
・LINE GAME公式アカウントのトークルーム広告
など広告担当者必見の内容になっています。

詳しく知りたい

クラスター分析とは

クラスター分析とはある集団の中で互いに似たものを集めて新たな集団を形成し、対象をグループ分けする手法で
対象に関しては人に限らず、食べ物や地域などやアンケートの質問項目など様々なものをグループ分けすることが可能です。

クラスター分析を行うことにより、例えばある商品を購入するユーザーをグループ分け・調査することによって
広告におけるターゲット選定やクリエイティブ作成の指針としたり、その商品の市場での立ち位置などを分析することが可能になります。

クラスター分析の仕組み

説明に入る前に -教師なし学習について-

クラスター分析の詳細な説明の前に機械学習、特に「教師なし学習」の説明を簡単に説明いたします。
機械学習とは機械にデータを与えることによって、そこに潜むパターンを見つけ出す分析方法のことです。
導き出したパターンを用いて、データのグループ分けをしたり未来の数値を予測したりすることができます。

今回紹介するクラスター分析は機械学習の中でも「教師なし学習」に分類されます。
「教師なし学習」とは正解を与えない状態で学習させる手法のことで
既知の説明変数(特徴量)と目的変数(結果の値)のデータを与えて学習させる「教師あり学習」と対をなす機械学習手法です。

教師なし学習では、今回ご紹介するクラスター分析のようなデータをグループ分けするような問題に対応可能です。
また、学校のテストの5教科の点数から文系寄りか理系寄りなのかを数値化するなど、データを要約して本質的な情報を抽出する問題にも
活用されています。

クラスター分析の種類と仕組み

クラスター分析は、アプローチ方法で階層クラスター分析と非階層クラスター分析の2種類に分けることができます。
その大きな違いとしては、分析後に樹形図を描くことができるかどうかです。

階層クラスター分析

階層クラスター分析は全てのデータの距離(類似度)を計算し、距離が近い物同士を併合していく方法
近いもの同士を順番に繋げていくことにより最終的には1つの集団になり、枝分かれしている樹形図を描くことが可能
全てのデータに対して距離を計算するため、計算コストが大きく小規模なデータの分類に適している

非階層クラスター分析

非階層クラスター分析は最初に分類するグループ数を決定し、それぞれのグループに似ているデータを振り分ける手法
階層クラスタのように1つずつ似た物同士を順番に繋げていく形ではないため分析後に樹形図はを描くことは不可能
計算コストは階層クラスターに比べて小さいためビックデータなどのグループ分けなどに適している

分析例

クラスター分析の事例としてある学校の生徒の学力テスト結果をクラスター分析してみたいと思います。
使用するデータセットに関しては下記の通りで出席番号、国語、数学、理科、社会、英語のテスト結果から階層クラスター分析、非階層クラスター分析それぞれでグループ分けを行います。

階層クラスター分析

階層クラスター分析を行って出力された樹形図が下記の通りになります。
樹形図の見方については横軸が各生徒の出席番号、縦軸が各出席番号の生徒同士の距離を表しており図の下の方で結合すればするほど近い関係であると言えます。
例えば出席番号が9番の生徒と28番の生徒がかなり樹形図の下の方で結合しているので学力テストの結果がかなり近しい事を読み取ることができます。

また、階層クラスター分析では分析の出力結果をもとに分析者がグループの個数を設定することができ、
今回の分析では距離が70以下となる結合を1つのグループとするよう閾値を設定し、結果的に5つのグループに分かれる形となりました。

上記でも述べた通り、分析の結果から生徒達は大きく5つのグループに分類されており、それぞれのグループを詳細に見ていくと下記のようなことを読み取ることができます。

・樹形図左側のオレンジ色と緑色のグループに分類されている生徒のほとんどが赤、紫、茶色のグループに分類されている生徒
 よりも英語の点数が低く英語を苦手とする生徒が多い
・比較的赤、紫、茶色のグループに分類されている生徒よりも社会の点数が高いことも特徴として挙げられる
・樹形図右側の赤、紫、茶色のグループに分類されている生徒はオレンジ、緑色のグループに分類されている生徒の特徴と逆で
 英語が得意で社会が苦手という生徒が多く分類されている
・各色のグループにフォーカスを絞るとオレンジ色のグループに分類されている生徒は全体的に学力テストの点数が低く勉強が
 苦手な生徒が分類されている
・緑色のグループに分類されている生徒は英語以外の教科は普通であり、中でも社会が比較的得意な生徒が分類されている
・赤色のグループに分類されている生徒は理科と英語は60点以上と高く得意だが、数学と社会が40点代以下と苦手な生徒が
 分類されている
・紫色のグループに分類されている生徒は国語の点数が全員35点以下で英語は得意だが国語が苦手な生徒が分類されている
・茶色のグループに分類されている生徒は数学の点数がほぼ全員50点以上、英語の点数が全員60点以上で数学と英語の両方が
 得意な生徒が分類されている

このように階層クラスター分析では分析の過程で樹形図が生成されることでグループ形成の様子を詳細に分析することができ、
それぞれのグループの特徴を掴みやすいのが大きな特徴の1つです。ただし、対象となるデータ数が多いと1つ1つ詳細に見ることが難しくなり、結果の解釈が困難になることが多いため大きいデータに用いることは不向きな分析手法でもあります。
データ数の目安としては多くとも50個以下、できれば30個程度以下であれば分析結果の解釈も問題なくすることが可能です。

非階層クラスター分析

非階層クラスター分析では分類するグループの個数を最初に分析者が決定する必要があり、今回の分析例では4つのグループに分類するよう設定しました。
その分析結果を散布図を使って見やすくしたのが下記の図です。また、可視化にあたっては国語、数学、理科、社会、英語の5つの指標を散布図で表現することは難しいため、主成分分析という手法を使って先程の5つの指標を2つにまとめて可視化を行っております。2つの指標と各教科の点数については下の図の通りで左上にいくほど英語が得意であり、右上にいくほど理科・国語が得意。下の方の生徒は数学が得意で、右下にいくほど社会の得意といった形となりました。

以上の結果から最初に設定した4つのグループに分かれた生徒について下記のような分析をすることができます。

・黄色のグループに分類された生徒は英語がかなり得意で国語や理科もそこそこできるとする生徒が多く分類されている
・紫色のグループに分類された生徒は英語と数学を得意とする生徒が多く分類されている
・緑色のグループに分類された生徒は社会と数学を得意とする生徒が多く分類されている
・青色のグループに分類された生徒は得意とする教科が見られず、ほとんどの教科で点数が低いことから勉強を苦手とする生徒
 が多く分類されている

このように非階層クラスター分析では階層クラスター分析のように分析の過程で樹形図が生成されることはないため、散布図などを用いて各グループの分析を行うことが多いです。また、散布図などで表現をする際に分析に用いる指標が多いと、可視化が困難なため、主成分分析などデータの要約を行う分析手法と併せて利用されることが多いのが特徴です。

加えて、階層クラスター分析とは異なり、データを1つずつ順番に結合して分類を行う訳ではないため、比較的大きなデータにおいても
分析が可能であることが大きな魅力と言えます。

最後に

最後までお読みいただき、ありがとうございます。
今回は機械学習を用いた様々なものをグループ分け・分類を行う「クラスター分析」を紹介いたしました。

分析事例ではある学校の生徒の学力テストの点数を例題としてあげ、分析を実行しましたが
クラスター分析はありとあらゆるものに適用することができるので、例えば広告配信のセグメントを切る際に、性年代や居住地、職業などの一般的な情報から決定した閾値に対して切り分ける単純なグループではなく、ありとあらゆる情報を機械的に総合して判断し、グループに切り分けられることが大きな魅力の1つです。

広告におけるターゲット選定・セグメント設定やマーケティングなどで大いに役立つ分析手法であるので、ぜひ機会がございましたら積極的に活用していただければと思っています。

この記事を読んでいる方へ

▼2024年10月の媒体アップデート情報
主要広告媒体の最新アップデート情報
・Googleの最適化されたターゲティングの設定
・LINE GAME公式アカウントのトークルーム広告
など広告担当者必見の内容になっています。

詳しく知りたい

プロフィール画像
桂 彰吾

第一営業本部 ビジネス・インテリジェンス部所属。 新卒で2021年4月に入社し、データ分析業務を担当。 趣味は散歩とゲーム。

PICKUP RANKING
PAGE TOP
お役立ち資料 canvas お問い合わせ