DXnote公式
CDPのデータをもとに機械学習に触れてみよう~その③学習させる(Google AutoML Tables利用の手順)~
見出し画像

CDPのデータをもとに機械学習に触れてみよう~その③学習させる(Google AutoML Tables利用の手順)~

DXnote公式

こんにちは。DXnoteです。

DXnoteでは、企業のDX推進に貢献するため、データ基盤(DWH/CDP)・マーケティング基盤(MA/接客など)の側面から情報発信をしていきます。
※更新情報はTwitterでもお知らせしています。
https://twitter.com/uncovertruth_

今回はCDPのデータを使って機械学習に触れてみようシリーズの第3回目になります。前回は「データを整形(前処理)する」と題して必要なデータとそれを考える時に必要なことについてお伝えしました。独特な用語も出てきますし、以前の内容の続きのnoteになりますので、以前のnoteをお読みでない方は、こちらも併せてご覧ください☟

最近のnoteで書いているCDPとAIについては、こちらにまとめてありますので、ぜひこちらもご覧ください☟

|学習させる

教師データが準備できたら、ここからGoogle AutoML Tablesを使って、予測モデルを構築します。Google AutoML Tables はクラウドサービスであり、かつ、導入に費用はかからず、利用した分に応じた従量課金制です。しかも、初回の利用から最長1年間6時間の無料ノード時間が利用できるため、本格導入前に試すことが可能です。

画像1

出典 著者名:小畑 陽一 (著), 菊池 達也 (著), 仁藤 玄 (著) 書名:ユーザー起点マーケティング実践ガイド 出版社:マイナビ出版社 出版年:2021 該当ページ:162

①Google AutoML Tablesの有効化する
まだ、Google Cloud Platform( https://cloud.google.com )に登録していない場合、GoogleCloud Platformを有効化する必要があります。
Google Cloud Platform に登録するときには、クレジットカードの登録が必要になります。※無料枠を使い切っても、請求を有効にしない限りは、勝手に料金が請求されることはありません。

画像2

出典 著者名:小畑 陽一 (著), 菊池 達也 (著), 仁藤 玄 (著) 書名:ユーザー起点マーケティング実践ガイド 出版社:マイナビ出版社 出版年:2021 該当ページ:163

②Google AutoML Tables を開く
Google AutoML Tablesにアクセスするには、Google Cloud Platform の左上のハンバーガーメニューを開き「プロダクト」>「人工知能」>「テーブル」をクリックします。URL(https://console.cloud.google.com/automl-tables/ )から直接アクセスすることも可能です。

画像3

出典 著者名:小畑 陽一 (著), 菊池 達也 (著), 仁藤 玄 (著) 書名:ユーザー起点マーケティング実践ガイド 出版社:マイナビ出版社 出版年:2021 該当ページ:164

③データインポート
Google Auto ML Tablesにアクセスできたら、データのインポートを行います。

画像4

データセットの画面の上部にある「+新しいデータセット」をクリックし、新しいデータセットを
作成します。

画像5

データセット名は判別が付きやすい名称にしておきましょう。
次にデータをインポートします。

画像6

インポート方法は以下3種類から選択します

・BigQuery からデータをインポート
・ Cloud Storage からCSVファイルを選択
・パソコンからファイルをアップロードする

今回は「パソコンからファイルをアップロードする」を選択します。この場合、アップロードできるファイルはcsv形式です。
続いてアップロード先のフォルダを選択します。「BROWSE」から既存のバケットを選択するかバケットを新規作成して、アップロード先を選択し、インポートを開始します。

画像7

④目的変数(ターゲット)を選択する
インポートが完了すると以下の「トレーニング」の画面になります。
「ターゲット列」のプルダウンから目的変数である「列名」を選択します。今回は「1ヵ月以内の購入」である「goal」を選択します。ターゲット列が選択できた後、「モデルトレーニング」ボタンをクリックします。

画像8

すると「モデルのトレーニング」設定画面になります。「モデル名」「トレーニングの予算」「入力特徴量の選択」を入力・選択します。

画像9

「モデル名」はこちらも判別がつく名称を入れておきます。
次に「トレーニングの予算」では「1」を選択します。データ行数にもよって推奨されるノード数は変わりますが、通常は最低値の1で問題なく、その場合は課金もされません。
続いて「入力特徴量の選択」で予測に使用する特徴量を表す説明変数以外は選択を外します。今回、顧客IDにあたる「ID」は特徴量を表すものではないため、こちらのみ選択から外します。

画像10

上記の設定が完了したら「モデル トレーニング」をクリックしてモデリングを開始します。トレーニングには数時間がかかる可能性もあるため、モデリングが終了するまで待ちます。データ量にもよりますが、1時間程度経過するとメールで通知が来ます。完了までの間にブラウザを閉じても問題ありません。

画像11

⑤学習結果を確認する
トレーニングが完了するとメールで通知が来ます。通知後に、再度Google AutoML Tablesにアクセスして結果を確認します。

画像12

予測結果の確認方法
作成した予測モデルは、精度の高さを確認することが必須です。その予測精度を表す指標として、まず「AUC ROC( Area Under The Curve / Receiver Operating Characteristic )」を確認します。
AUC ROCは「分類」と呼ばれるデータの属性を予測する場合(今回の例だと「1ヵ月以内に購入した人」か「1ヵ月以内に購入しない人」)のパフォーマンスを確認するための指標です。

画像13

ROC曲線は縦軸と横軸に以下の割合をプロットし、バランスを見るものです。

出典 著者名:小畑 陽一 (著), 菊池 達也 (著), 仁藤 玄 (著) 書名:ユーザー起点マーケティング実践ガイド 出版社:マイナビ出版社 出版年:2021 該当ページ:164,165,166,167,168,169,170,171,172

画像14

AUCはこのROC曲線で表される下部の面を指し、このAUCの面積が大きいほど良い予測モデルであると言えます。つまり、この面積が大きいほど「陽性」であるものを「陽性」であるとしっかり予測し、「陰性」であるものを「陽性」と間違って予測する傾向が低いということです。

「陽性」も「陰性」もすべて正しく予測した場合はAUC=1となり、「陽性」か「陰性」か適当に予測した場合は0.5になります(予測対象が2種の場合、適当でも確率的に50%は予測が当たるとして)。
予測モデルを実用レベルにするには、このAUCを0.75以上、できれば0.8以上は目指したいところです。

画像15

混同行列
混同行列は、実際の「陽性」「陰性」(正ラベル=実際の結果)に対して、「陽性」「陰性」がそれぞれ予測された結果(予測ラベル=予測の結果)をマトリクスで可視化したものです。これは、「陽性」「陰性」それぞれの予測が正しく判別できていたのか、誤って判別してしまったのかを表しています。

画像16

特徴量の重要度
予測モデルに重要だった項目、つまり特徴量が表れている説明変数の重要度が高い順に表示しています。
ここでリストアップされた項目について、その予測目的に対して適切かどうかも合わせて確認します。

画像17

もし、極端に割合が高い項目があるときには、その予測目的とほぼ同意の位置づけになるような変数になっていないかを疑うことが必要です。例えば、目的変数を「購入した人」とした場合、「(購入時に)獲得したポイント」などを説明変数に入れていたら「購入」とほぼ同義となるため、重要度が高いと判定されます。その判定では業務で利用できる予測モデルにはなりません。

PDCAを回して、精度の高い予測モデルを構築する
AUCが低いなど、予測モデルの精度が低い場合には、次のようなアプローチで教師データを見直して精度を高めていきます。

1. データ量を増やす
シンプルに教師データの量を増やせば予測精度が上がる可能性は高いため、増やす余地があるなら取り組みましょう。
2. 説明変数を増やす(見直す)
特徴量を表す重要な説明変数がほかにないか再検討します。「特徴量の重要度」でリストアップされた項目と関連性があるものなどから追加してみるのもよいでしょう。精度の高い予測モデルを構築するためには、いかに予測に有効な説明変数を見出せるかがポイントです。前述したように、予測に有効なデータが取得できていなければその予測精度は高められません。
そのため、しっかりと顧客の行動を計測できるよう設計することが必要です。

ーーー

このように予測モデルを構築できたら、次はいよいよ「予測させる」ステップに進みます!この続きは、CDPのデータをもとに機械学習に触れてみよう~その④予測させる~でお伝えします。また次回お会いしましょう!

✏この記事の著者✏

画像18

小畑 陽一(オバタ ヨウイチ)
株式会社UNCOVER TRUTH 取締役 COO
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
music.jpやルナルナを手がけるエムティーアイ社出身。ソリューション事業責任者として、大手企業向けモバイルサイト構築ソリューションで、国内ナンバーワンのASPサービスを展開。2014年、取締役として株式会UNCOVER TRUTHの取締役COOとして経営に参加。経営・事業戦略とマーケティングを管掌。ad:tech Tokyo / Kyushu、宣伝会議、MarkeZine、Web担当者フォーラムなど講演活動多数。
著書:『ユーザー起点マーケティング実践ガイド』(CDP専門書籍)

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!

最後までお読みいただきありがとうございます!UNCOVER TRUTHのニュース、更新情報をTwitterで発信しています。

ありがとうございます。よろしければシェアもお願いします♬
DXnote公式
企業のカスタマーデータのビジネス活用支援をしている株式会社UNCOVER TRUTH| カスタマーデータ活用に向けたマーケティングデータ基盤(DWH/CDP~MA/接客)の設計・構築・分析・BI可視化・施策・事例をメインに情報発信中📢|書籍📚 ユーザー起点マーケティング実践ガイド