インデックス化されているのは何ページ? 本当に役立つ数字を5ステップで簡単に得る方法
1件以上のセッションを獲得したページの数がなぜ役に立つのか?
何ページインデックスされているかという数値は、それ単体では役に立たない。企業やWebサイトがそうした数字をKPIとして利用するのは、検索エンジンのインデックスに登録されているページが時間の経過とともに増えたかどうかを知りたいからだ。率直な話「君のページがインデックスに登録されているかどうかなんて気にするな」と僕は言いたい。そんなことより、君のページに「トラフィックを稼ぐ」機会があるかどうかを心配すべきだ!
君のページが検索インデックスに登録されていたとしても、以下のリストに当てはまる状況ならば何の意味もない。
- PageRank/リンクジュースが低すぎて検索結果に表示されない
- 検索エンジンが適切に解析できないコンテンツを表示している
- トラフィックを送り込めるキーワードやコンテンツがない
- 壊れている、リダイレクトのミス、または利用不能
- 内容の重複するページがあって、検索エンジンがその重複した別のページの方を順位付けしている
要するに、君が時系列で計測したい指標とは、(ほとんどの場合)インデックス化されたページの数ではなく、トラフィックを稼いだページの数だということだ。長い目で見て、これこそが、「上がってほしいと思う数字」「マーケターに注意を向けてほしいと思う数字」「意味のあるKPI」だということだ。
この数字は、検索エンジンが君のページをクロールしてインデックスに取り込み、「さらに」だれかが実際にクリックするかもしれない(あるいは、クリックした)検索結果に載せてくれているかどうかを教えてくれる。
この数字が下がった場合、トラフィックをすでに獲得しなくなっている実際のページについて、データをエクセルにエクスポートして前月分と比較することにより、詳しく調べることができる。この数字が上がった場合は、新しいページがトラフィックを獲得していることがわかる。こうした個々のURLは、壊れたページ、リンクが切れたページ、検索結果のあまりにも後ろの方のページに下がったページ、ユニークコンテンツを失ったページなど、いろいろなことを語ってくれるだろう。
SEO業者は、「site:」コマンドを使って得た「インデックス化に関連する数字の低下」に直面すると、しばしば謎解きゲームと格闘することになるけれど、こんなゲームをやるよりも、こうして得られたデータを使う方がずっとましだ。
使用上の注意
この手法はもちろん完璧ではないので、知っておくべき重要ポイントがいくつかある(特に、コメントでこれらを指摘してくれたみんな、ありがとう)。
Google Analytics(それに他の分析ツールの多く)は、数字を推測する際にサンプルのデータを使う。間違いのない正確な数字を得ていることを確認したい場合は、データをCSV形式でエクスポートし、エクセルで比較してみるべきだ。2つの時点で調べた結果から重複するものを削除すれば、その期間内に新たにトラフィックを獲得するようになったページとしなくなったページだけを知ることもできる。比較する際も、訪問数が5件、10件、あるいは20件以上増えたページと減ったページだけを考慮すればいいことが多い。
分析を実施する間隔を短くすれば、より正確なデータを得ることができる反面、滅多にお目にかかることのないロングテールクエリからトラフィックを得ているページがちゃんとリストアップされる可能性は低くなってしまう。だから、適宜調整を行うとともに、データが完全ではない場合を考慮しておく必要がある。この方法は、絶対に確実ではないけれど、(僕の意見としては)気まぐれなルーレットみたいな「site:」クエリよりはずっとましだ。
この手法では、重複コンテンツ、「301(恒久)リダイレクト」と「302(一時的)リダイレクト」などのSEO問題を把握するには役に立たないだろう(場合によっては有用でも、グーグルのウェブマスターツールのレポートなどに比べると劣る)。こうした問題には、クローリングによる解決策が必要だからだ。
もちろん、みんなからのフィードバックは大歓迎だ。僕は、SEO業者の多くが「site:」コマンドを使って得た数字に依存していて、進展を測る1つの方法としてこの数字を支持していることを知っている。だから、僕の考えが足りない部分や、その数字が意味を持つ場面などがあるかもしれない。また、みんなの多くがウェブマスターツールにあるサイトマップのクローリングデータから得られる数字を愛用していることも、僕は知っている(はっきり言うと、この数字についても僕は懐疑的だ)。だから、君がこうしたデータにどのような価値を見出しているのかについても聞かせてもらいたい。
コメント
キャッシュのページを除外する方法
Googleはキャッシュを許可してるとき、一緒に拾ってしまいますので、「/search?q=cache:(ユニークな文字列)~」をフィルターで除外したほうがイイです。※閲覧開始のページ数が約2倍になってしまいます
例:次の文字を含まない「/search\?q=cache」
他には、例えばAdsense検索の結果も1ページになりますので、それも除外するときは、「|」で区切るとandになります。※「~partner-pub-(ユニークな文字列)~」
例:次の文字を含まない「/search\?q=cache|partner-pub-」
404専用ページにトラッキングコードがある時はそれも拾いますので、一度全体を見てアドバンスフィルターをつくっておくと楽です :)
Googleキャッシュからのアクセス、そうですよね
おっと藤井さんだ。こんにちは。
たしかに! GAのデータをみていると、Googleの検索結果でキャッシュを見た人のアクセスが結構あることがわかるんですよね。
良い情報、ありがとうございます!
> 「|」で区切るとandに
ここはORですね。
GAもステータスコードでフィルタとかできるといいのですが……。