データ分析から因果関係を探して、ビジネス改善につなげる5つのステップ
「科学的なデータ分析をやっている」といいつつ、実は単なる験(げん)担ぎの裏取りになっている企業は多い。宝くじを買う場所にこだわる、黒猫が横切ると嫌な感じがするなど、験(げん)を担ぐ人は少なくない。たたりや幽霊といった迷信を信じる人もいる。しかし、社長の経営判断が占いによって決定されたら、それは驚くだろう(もっとも、そういう社長はゼロではない)。
データビークルの油野氏は、「Web担当者Forum ミーティング2017 秋」において、「デジタルマーケは死屍累々~簡単データサイエンスで切り抜けろ~」と題し、データ分析でありがちな勘違いと科学的な仮説の立案について、平易な言葉で解説した。
データ、分析してますか
データ分析といいながら、属人的な知見の裏取りになっているケースは非常に多い
と油野氏はいう。たとえば、とある村の話だ(実話を加工しています)。
風光明媚なX県Y村で新しい観光名所が誕生した。午後2時になると日差しの加減で龍の絵が現れるという、その名も「龍神の池」だ。観光客が殺到して大人気になったのだが、宿泊客は減少してしまった。
そこで観光課の職員が、観光ビジネスに詳しいコンサルタントのA氏に相談した。A氏はデータ分析で解決するといい、次のようなグラフを作った。
グラフを見ると、シニア層が多いことがわかる。観光課としては、「シニア層が多いとは思っていたが、これほどとは思わなかった」という。その他に、自家用車で来ている人が多いというグラフも作られた。
年齢と交通手段がわかった。次は交通量のデータだ。観光課ではそのようなデータは持っておらず、IoTでデータを取ることを提案するA氏。予算がなくても、POC(概念実証)だといえば事業者は安くやってくれるという。途中で辞めるわけにもいかないので交通量のデータも収集した。1~2か月で渋滞の発生と宿泊の相関関係がグラフになった。
「車で訪れる年配の方が多く、渋滞が嫌で宿泊しないのでしょう。渋滞対策をしてください」というのが、A氏の結論だ。だが、これは本当にデータ分析だろうか。油野氏は、「属人的な知見を数値化してグラフで見える化しただけ」だという。コンサルタントの仮説以外の「他の要素」についての科学的な検証がなされていないからだ。
また、飲料のメーカーの会議室では、次のような分析の指示がよく出ているのではないだろうか。
- 寒くなるとスープが売れるが、最高気温が何度から売れるのか?
- 年齢別の分析は?
- 男女比は?
- 場所は?
- 時間は?……あとは自分で考えろ!
データをいろいろな切り口でグラフにすると、大量のグラフができあがり、とても全部は見られない。どの切り口でグラフ化するかという仮説も枯渇する。また、会議で発表する際は、上司の意に沿わない結果を発表しにくいという「発表バイアス」の問題もある。
これでは科学的な分析とは言えない。
相関関係を見ても因果関係はわからない
科学的にというなら、ITで解決すればいいに違いない。というわけで、データウェアハウス(DWH)やデータマートと呼ばれたものが導入された。これは、いわば「大きな冷蔵庫」だ。
- 大量のデータが保管できる
- 盗まれないようにセキュリティが重要
- すぐに取り出せるように高速なものが必要
これらの機能はもちろん必要だ。しかし、大きくて高性能の冷蔵庫があれば、おいしい料理が作れるわけではない。DWHも同様だ。大量のデータを保管しても、何を見ればいいかは自分たちで考えるしかない。
あるいは、分析するにはDMP(Data Management Platform)の構築が必要といわれることがある。DMPはいわば流通倉庫のようなもので、自動的に新鮮な食材が流れ込んでくる。しかし、倉庫は料理をしない。DMPを構築しても、何を見ればいいかは自分たちで考えるしかない。
データを大量に保管でき、取り出しやすい仕組みがあったとしても、それはデータを活用していることにはならないのだ。なぜ大量に保管する必要があるかといえば、相関関係を裏付けるためで、データ量が多いほど、相関の裏付けが強化される。しかし、統計学では
相関関係は因果関係を含意しない
という。たとえば、ある時刻になったらハト小屋にエサを置くという、有名な「ハトの実験」がある。ハトの状態に関係なく、決まった時刻になったらエサが置かれるのだが、ハトはエサが置かれる前にたまたまとった行動(羽を広げる、クビをかしげるなど)を、空腹になると繰り返すようになるのだという。ハトは愚かにも、「たまたま」おこなった行動に因果関係があると勘違いしているのだ。
同様のことがデータ分析の現場にも発生していないだろうか。相関関係を見つけても、それはたまたまかもしれない。必要なのは、科学的に因果関係を探すことだ。
- すべての要素について、ひとつずつ因果関係を見つける
- 見つけたと思ったら、それ以外の要素を同じ条件にしてもう一度計算し直す
相関関係を見ても、因果関係はわからないのだ。
因果関係を探す5つのステップ
経験や勘ではなく(ロジカルシンキングでもなく)、「何を見ればいいのか」を科学的に探すためには、次のような流れになる。
- 仮説を科学的に自動生成
- その中から黄金律を発見
- マーケティングに生かして収益向上
これを5つのステップで行う。
若干の統計学用語を使って解説しよう。
ステップ 1 アウトカムを検討する
「アウトカム」とは、「この数値が変わればうれしい」というもので、多くの場合グラフのY軸になるもの。たとえば、
- 売上
- アクセス数
- コンバージョンレート
- ライフタイムバリュー
- 購買回数
- リピート率
などで、「どうなりたいか、何が変わればうれしいのか」を検討する。
ステップ 2 「解析単位」を決める
「解析単位」とは、「××ごとのアウトカム」という時の、「××」に入る部分。たとえば、次のようなもの。
- 製品
- エリア
- 営業マン
- 人
- 運営されてるサイト
- 店舗
アウトカムと組み合わせると次のようになる。
- 店舗ごとの来客数
- サイトごとの閲覧数
- 商品ごとの購買数
- 担当者ごとの売上
ステップ 3 「説明変数」を探す
「説明変数」は、アウトカムに影響を「及ぼすであろう」パラメータのこと。X軸にあたり、これが変わるとY軸の値が変わるものを探すのだ。「何が変わればアウトカムが伸びてうれしい状態になるのか」を探す、これが統計学的に生成した「仮説」だ。
ステップ 4 検証する
A/Bテストなどのアクションをとり「説明変数」を動かしてみることで「アウトカム」との因果関係を検証する。どのアクションで説明変数が動くかは現場のノウハウが必要である。
ステップ 5 マーケティングに活用する
本来は、データ分析のITシステムよりも、この部分にお金をかけるべきだ。もし、データ分析をマーケティングに使うのなら、1年間のマーケティング費用(プロモーションだけではなく出店計画、製品企画なども含む)を考えれば、データ分析に使う予算も見えてくるだろう。
たとえば、「アルバイトがすぐに辞めて困っている。辞めるアルバイトと辞めないアルバイトの差が知りたい」という課題があるとする。アルバイトの給料よりも募集コストの方が高いなど、切実な問題だ。
この課題に対してデータを分析して説明変数を探したところ「自転車で通っている人」は他の通勤方法をとる人に比べて辞めにくいとわかった。そこで打ち手としては、そのような人を採用すればいいのだ。それはいままで見逃していた「水曜日に面接に来た人」なのかもしれない。
科学的な仮説立案をする現実的な方法
科学的な仮説立案をする方法はいくつかある。しかし、大学に入り直して統計学を学ぶのは現実的ではない。統計学を学んだ人を採用できればいいが、日本では非常に数が少ない。外部コンサルタントに依頼する場合は、長い付き合いか業界に詳しい人でないと事情をわかってもらうまでのコミュニケーションコストが高くなる。現実味があるのは、次のような方法だ。
統計学を専攻していなくても、心理学や経営学などで統計ツールを使っているケースがある。履歴書に卒論のテーマが書いてあるはずなので、探してみる。
外部コンサルタントに依頼する場合は、アウトカム、解析単位、説明単位をしっかり定義してから話すとレスポンスが早くなる。
シチズンデータサイエンティストとして、各種ソフトウェアを活用して社内でやる。オーギュメンテッドデータディスカバリー(拡張型データ探索)というが、日本ではまだポピュラーではない。
因果関係を見つける統計ツールとしては、SASとSPSSなどがある。これは専門家向けだが、データビークルはもっと容易に使えるツールを提供している。また、発見した数値の動きを監視するためには従来のBIツールも必要だ。データサイエンスについては、データビークルのサイトで基礎講座の動画を公開していて、「dtvcl.com」にアクセスすれば誰でも見られる。油野氏は、「データサイエンスや統計を少しだけ勉強してみてほしい」と締めくくった。
ソーシャルもやってます!