CDPのデータをもとに機械学習に触れてみよう~その②データを整形(前処理)する~
見出し画像

CDPのデータをもとに機械学習に触れてみよう~その②データを整形(前処理)する~

DXnote公式

こんにちは。DXnoteです。

DXnoteでは、企業のDX推進に貢献するため、データ基盤(DWH/CDP)・マーケティング基盤(MA/接客など)の側面から情報発信をしていきます。
※更新情報はTwitterでもお知らせしています。
https://twitter.com/uncovertruth_

今回はCDPのデータを使って機械学習に触れてみようという内容です。前回は「データを集める」と題して必要なデータとそれを考える時に必要なことについてお伝えしました。独特な用語も出てきますし、以前の内容の続きのnoteになりますので、以前のnoteをお読みでない方は、こちらも併せてご覧ください☟

最近のnoteで書いているCDPとAIについては、こちらにまとめてありますので、ぜひこちらもご覧ください☟

|データを整形(前処理)する

集めるデータが決まったら、次はデータを整形します。このデータを整形するプロセスは、CDPのデータマートの構造をそのまま活かせられます。
予測する対象は「顧客」であるため、顧客ごとの特徴量を表す「説明変数」を顧客IDごとに横持ちさせたデータテーブルをつくることがここでの前処理となります。具体的には、1レコードごとに顧客別の特徴量が並んでいるようにします。

画像1

画像2

出典 著者名:小畑 陽一 (著), 菊池 達也 (著), 仁藤 玄 (著) 書名:ユーザー起点マーケティング実践ガイド 出版社:マイナビ出版社 出版年:2021 該当ページ:157

|目的変数の設定

前回から続いて、今回の予測の目的である「1ヵ月以内に購入してくれる人」の場合、目的変数は「1ヵ月以内に購入した」「1ヵ月以内に購入しなかった」かどうかになります。

画像3

出典 著者名:小畑 陽一 (著), 菊池 達也 (著), 仁藤 玄 (著) 書名:ユーザー起点マーケティング実践ガイド 出版社:マイナビ出版社 出版年:2021 該当ページ:158

例えば、現時点で取得できているデータが2020年12月までである場合、1ヵ月以内に購入してくれた(2020年12月1日~12月31日に購入した)かどうかで「正例」「負例」のフラグを付けます(もちろんそれ以前の期間でもかまいません)。つまり、11月30日時点で1ヵ月以内(12月)に購入してく
れた人を「正例」、購入しなかった人を「負例」として、購入したかどうかの正解をもつ教師データをつくります。前述のとおり、目的変数の「正例」には「1」、「負例」には「0」の値を入れます。

画像4

出典 著者名:小畑 陽一 (著), 菊池 達也 (著), 仁藤 玄 (著) 書名:ユーザー起点マーケティング実践ガイド 出版社:マイナビ出版社 出版年:2021 該当ページ:158

・データを横持ち構造にする(説明変数の設定)
次に、説明変数を設定していきます。顧客の特徴量を表すデータは主に「属性データ」「行動データ」の2種類ですね。

・属性データ
顧客の年齢や性別などのデモグラフィックデータや、顧客自身が会員登録時などに設定するメールアドレスやメール配信許諾(オプトイン)など、更新頻度が低いデータを指します。

・行動データ
商品の購入やWebサイトやアプリの閲覧ログなど、顧客が行動するたびに計測され蓄積するデータを指します。

画像5

出典 著者名:小畑 陽一 (著), 菊池 達也 (著), 仁藤 玄 (著) 書名:ユーザー起点マーケティング実践ガイド 出版社:マイナビ出版社 出版年:2021 該当ページ:159

CDPのデータであれば、属性データと行動データを顧客IDなどで紐づけることができるため、横持ちの「属性データ」に、縦持ちの「行動データ」を顧客IDごとに抽出または集計します。前述のように、1レコードごとに顧客IDごとの特徴量が並ぶテーブルを作成します。

画像6

出典 著者名:小畑 陽一 (著), 菊池 達也 (著), 仁藤 玄 (著) 書名:ユーザー起点マーケティング実践ガイド 出版社:マイナビ出版社 出版年:2021 該当ページ:160

今回は以下の目的変数と説明変数を使って教師データを構築します。

目的変数
・ 1ヵ月以内の購入
説明変数
・会員登録日
・ Web訪問回数(1週間)
・商品詳細ページ閲覧回数(1週間)
・お気に入り登録回数(1週間)
・カート投入回数(1週間)
・購入回数(30日)
・購入回数(1年間)
・購入金額(30日)
・購入金額(1年間)

目的変数の「1ヵ月以内の購入」が「2020年12月1日~12月31日の購入」の場合には、説明変数の期間の「(1週間)」は「2020年11月25日~11月30日」、「(30日)」は「2020年11月1日~11月30日」、「(1年間)」は「2019年12月1日~2020年11月30日」で集計します。

画像7

出典 著者名:小畑 陽一 (著), 菊池 達也 (著), 仁藤 玄 (著) 書名:ユーザー起点マーケティング実践ガイド 出版社:マイナビ出版社 出版年:2021 該当ページ:161

説明変数に設定するデータは、顧客がこれらの行動をとっていれば、購入確度が高い可能性があると想定される項目をピックアップしたものです。もちろん、ほかにも想定されるデータ項目・期間はいくつも考えられますが、今回はサンプルとして参考にしてください。

ーーー

このような顧客IDと目的変数、説明変数のデータがつくられたら、次はいよいよGoogle AutoMLTablesを使って「学習させる」ステップに進みます!この続きは、CDPのデータをもとに機械学習に触れてみよう~その③学習させる~でお伝えします。また次回お会いしましょう!

✏この記事の著者✏

画像9

小畑 陽一(オバタ ヨウイチ)
株式会社UNCOVER TRUTH 取締役 COO
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
music.jpやルナルナを手がけるエムティーアイ社出身。ソリューション事業責任者として、大手企業向けモバイルサイト構築ソリューションで、国内ナンバーワンのASPサービスを展開。2014年、取締役として株式会UNCOVER TRUTHの取締役COOとして経営に参加。経営・事業戦略とマーケティングを管掌。ad:tech Tokyo / Kyushu、宣伝会議、MarkeZine、Web担当者フォーラムなど講演活動多数。
著書:『ユーザー起点マーケティング実践ガイド』(CDP専門書籍)

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!
オススメありがとうございます!

最後までお読みいただきありがとうございます!UNCOVER TRUTHのニュース、更新情報をTwitterで発信しています。

ありがとうございます。よろしければシェアもお願いします♬
DXnote公式
クライアント企業のオンラインとオフラインの統合データ分析・コミュニケーション施策立案・実行PDCA運用などのデジタルマーケティング活動支援を行うUNCOVER TRUTHがノウハウや実例を織り交ぜてお届けする、DXマーケ担当者を応援するメディアです。