検索ボリュームの調査でGoogleキーワードプランナーの数字を盲信してはいけない(後編)
検索ボリュームを適切に判断するにあたって、Googleキーワードプランナーでは正確な判断ができない場合があり、より適切に判断するための考え方を解説するこの記事は、前後編の2回に分けてお届けしている。
前編では、優れたボリューム指標を形成する4つの特性のうち、適正な精度とカバレッジのバランスについて説明した。後編となる今回は、「関連性」と「変化の反映」をどのように向上させるかを見ていこう。→まず前編を読んでおく
関連性を改善する
検索ボリュームの「適正な精度」と「カバレッジ」のバランスを取ると、関連性は自然に改善された。
最も性能が高かったのは、たとえば範囲数が21個といった、あまり切りのよくないグループ数だった。しかし僕たちは結局、切りの良さと使いやすさを考慮して20グループにするほうを選択した。
ただこれは、ボリュームでキーワードをグループに分けるのが簡単にできるということであり、気まぐれに分けていいわけではない。やりたければ、いつだってExcelで範囲別にグループ化はできるが、思い付きで決めた範囲では、基本データという点でまったく効力を持たないだろう。
なぜこれが重要なのかを示す例を挙げよう。直感的に考えると、範囲の幅は大きくなるほど同じように対数的に増えるように想像される。
たとえば、ほとんどのキーワードの変動率を10%と考えるとして、あるキーワードが1か月に100回検索されるとすれば、90回の月もあれば110回の月もあると予想できる。同様に、1か月に1000回検索されたキーワードも、10%の範囲で上下すると予想する。したがって、「0-10」「100-200」「1000-2000」のように範囲を設定することになる。実際、グーグルがやっているのはこれだと思われる。実に簡潔で美しい。しかし、正しいのだろうか?
いや。キーワードデータのパターンはそうではなかった。おおかたはこれらのパターンに沿っているが、常にではない。たとえば、僕たちの分析では、101-200の次のボリューム範囲は201-500(幅が3倍増大)だが、そのすぐ次の最適な範囲は実際のところ501-850(、幅は6分の1広がっただけ)だった。
これには、特定のキーワードに関連して人々が意図的に行う検索パターンが影響しているようだ。キーワードの中には、おそらく毎日、毎週、毎月、四半期ごとなどで検索されているものがある。「今月の第1月曜日は何日か」や、「今月の最後の火曜日は何日か」などのキーワードを考えてほしい。これらのキーワードはすべて、毎月同じような回数だけ、同じような人に、同じような回数にわたって検索されて、ランダムでない一致を生み出すだろう。
こういったパターンのためにキーワードの動きが変わり、データが真にランダムだった場合に予想される自然な対数の尺度とは一致しなくなる。僕たちの機械学習によるボリューム範囲なら、人が意図的に行う行動を効率よく効果的に取り込む。
これは実際、グラフにかなり簡単に示すことができる。
このグラフで、Googleキーワードプランナーのボリューム範囲の対数曲線が、最後の部分を除いてほぼ直線であることに注意してほしい。これは、データが非ランダムになる検索行動のパターンに対処するための取り組みを、グーグルがほとんど何もやっていないことを示す。グーグルはボリューム区分にシンプルな対数曲線を適用しただけで放置している。R二乗値は、この関係がどれほど1(完全な直線)に近いかを示している。
Mozのキーワードボリューム範囲の対数曲線は直線とは大きく離れている。これは僕たちの範囲最適化の手順が、検索データのなかに検索ボリュームの変動と完全な対数関係で合致するわけではない変則性を見出していることを示す。
こういった変則性は、人間の検索行動に見られるランダムではないパターンから起きている可能性が最も高い。Mozのグラフで、11と12の位置を見てほしい。僕たちの範囲は実際に、12の位置で幅が縮小し、13で元に戻っている。現実のデータによって決定された変則性が存在し、頻繁に検索されていながら、その範囲における検索ボリュームは前の範囲における検索ボリュームよりも変動が少ないことが示されている。
変化の反映を向上させる
最後に、まったく新しい、サードパーティーによる匿名化されたクリックストリームのデータセットを使って、新しい変化をより反映できるようにした。
そう、僕たちは1時間前のクリックストリームデータを分析して、ボリュームデータにもコーパスにも含める価値のある新しいキーワードを手に入れた。もちろん、これはまったく難事業だ。毎日、膨大な数のイベントを解析して洗い出し、利用可能なデータにしなければならない。
さらに、検索ボリュームにおける統計的に有意な変化の多くは、実は瞬間的なものだ。Google Doodlesはこれで悪名高い。おかしなキーワードのトラフィックをたった1日で急上昇させてしまうからだ。
僕たちは次に、期待値以上の期間にわたって上昇しているキーワードを見つけるモデルを構築した。そうして、予測モデルを使い、そのクリックストリーム検索ボリュームを下位4分の1の範囲にマッピングした(つまり。翌月のGoogleキーワードプランナーデータに照らして検証できるようになるまで、意図的に想定を控えめにしたのだ)。
最後に、新しい変化のデータが信頼できると確信できるように、クリックストリームのデータセットそのものから固有バイアスを取り除く必要があった。やり方は次の通りだ。
クリックストリームデータからGoogleキーワードボリュームを予測する単純なモデルを作成する。
クリックストリームキーワードを解析して、外れ値と相関関係がある単語やフレーズを発見する。
これらの字句を抑制したり強化したりしたマップを構築し、それが含むものに基づいて予測モデルを修正する。
このマップをもとの単純なモデルに適用して、予測精度を上げる。
クリックストリームの生データを使うことができ、特定の前提条件(4週間の安定したデータ)を与えれば、適切なボリューム範囲を95%の精度で予測できるという点で、この取り組みは大きな成功を収めた。
単一の指標
この記事では、検索ボリュームに関して、いくつかの要素を解説した。
- Googleキーワードプランナーがなぜ不適切なのかという調査
- 機械学習による範囲
- 日々の新鮮なボリュームへの更新
実は、これらはすべて、単一の一見シンプルな指標に収まる。それがVolume Rangesだ。これはおそらく、Keyword Explorerの指標のなかで最も精査されていないものだろう。なぜなら、最も単純明快だからだ。Keyword Difficulty、Keyword Opportunity、Keyword Potentialはもっとずっと多くの精査が行われ、アプローチや分析、制作という点ではるかに洗練されている。
しかし、これで終わりではない。僕たちはさらに多くの優れたデータソースを追加して今後のトラフィックを予測し、そしておそらくは範囲とともに平均を提示することで、このボリューム指標を積極的に改良したいと考えている。さまざまな形式のボリューム指標に適したユースケースについて、どんなフィードバックも歓迎だ。
ただし、結局のところ、僕は次のような印象を抱いてくれたらと願っている。Mozでは、僕たちが細かい点にこだわるから、ユーザーはこだわらなくてよいのだと。
ソーシャルもやってます!