クロールは量より質! Googleのクロール・インデックスを最適化するための基本(前編)
今回のホワイトボード・フライデーでは、検索エンジンによるクロールの基本を前編・後編に分けてジェス・ショルツ氏が掘り下げる。前編となる今回は、「インデックス化に問題がないからといって、クロールに問題がないとは限らない理由」や「クロールは量より質が重要であること」について解説する。
そして後編では2つのAPI「Google Indexing API」と「IndexNow」について説明した後、自分たちがクロールの効率化のために実行できる3つのポイントを紹介する。
Mozファンのみんな、こんにちは。ホワイトボード・フライデーにようこそ。私の名前はジェス・ショルツ。今回はクロールについて詳しく説明しよう。理解すべきこととして、クロールはすべてのウェブサイトにとって不可欠なものだ。というのも、コンテンツがクロールされなければ、Google検索で真の意味でのビジビリティを獲得する機会がなくなってしまうからだ。
クロールに問題がないか調べてみよう
クロールは基本的なものだが、よく考えるとすべてはGooglebotの少々気まぐれな関心に基づいている。多くの場合、クロールに問題があるかどうか把握するのはとても簡単だと言われる。次のようにすればいいからだ:
Google Search Consoleにログインして、プロパティを選ぶ。
メニューの[インデックス作成]>[ページ]を選ぶ。
「ページのインデックス登録レポート」で、「検出 - インデックス未登録」というステータスが表示されていないか確認する。
表示されていればクロールに問題があり、表示されていなければ問題はない。これはある程度正しいが、それほど単純なことでもない。なぜなら、Search Consoleのページインデックス登録レポートで調べるには、以下2つの問題があるからだ。
確認できるのは新しいコンテンツにクロールの問題があるかどうかだけ
コンテンツを大幅に更新した場合も確認できない
たとえば、記事を更新したり、テクニカルSEOを大幅にアップデートしたりした場合、こうした最適化の効果を確認できるのは、Googleがページをクロールして処理した後だ。あるいは逆に、技術的に大規模な最適化を実施したが実際にはSEO的に悪い施策をしていた場合でも、Googleがサイトをクロールするまでは、その害を確認できない。
そのため、基本的には、Googlebotによるクロールが行われるまで時間がかかれば、「フェイルファスト」(速やかな失敗)とはならない。
意味のあるクロールの測定方法とは?
記事更新やテクニカルSEOのアップデートの効果をクロールの測定で調べるには、本当に意味のある方法によるクロールの測定について考える必要がある。なぜなら、ここでもSearch Consoleにログインして、今度は「クロールの統計情報」レポートにアクセスすると、クロールの総数が表示されるからだ。
Google Search Consoleにログインして、プロパティを選ぶ。
メニューの[設定]を選ぶ。
設定の「クロール」セクションにある「クロールの統計情報」を選ぶ。
しかし私は、「クロールの量を最大限に増やす必要がある」と主張する人に断固として異議を唱えたい。クロールの総数は虚栄心の指標にすぎないからだ。クロールの量が10倍になっても、重視しているコンテンツのインデックス登録件数も10倍になるとは限らない。インデックスに影響がないなら、クロールが増えてサーバーに負荷がかかるほど費用もかかって、マイナスしかない。
したがって、重要なのはクロールの量ではない。クロールの質だ。したがって、この視点でクロールを測定する必要がある。となると、見る必要があるのは次のことだ:
コンテンツを作成または更新した時点から、Googlebotがそのコンテンツをクロールしに行くまでにかかる時間
コンテンツを作成または更新してから、Googlebotに初めてクロールされるまでの時間差を、私は「クロールの有効性」と呼んでいる。クロールの有効性を測定するのは比較的簡単だ:
CMSのデータベースから、各コンテンツの作成時刻または更新時刻をエクスポートする。
Webサーバーのログファイルから、Googlebotによるそれ以降の、各コンテンツページへのクロール時刻を取得する。
各コンテンツに関して、コンテンツ作成・更新とクロールの時間差を計算する。
しかし、現実的に考えて、ログファイルやデータベースにアクセスするのは、多くの人にとって簡単なことではない。そういう場合のために代替案がある。
SEOの観点から重視しているURLのXMLサイトマップから、各コンテンツの最終更新日時を確認する(XMLサイトマップに含めるべき情報はこれだけだ)
URL Inspection APIで最終クロール日時を確認する。
各コンテンツに関して、コンテンツ更新とクロールの時間差を計算する。
URL Inspection APIで私が特に気に入っているのは、あるURLを繰り返し調査していけばインデックス登録(クロールの次の段階)のステータスが変化したときに把握できることだ。この情報を使えば、インデックス登録の有効性に関するスコアも計算できるようになる。
コンテンツを初めて公開した場合、あるいは更新内容を公開した場合、Googleがそのページのインデックスを登録するまでにどの程度の時間がかかるのだろうか。インデックス登録を気にする理由は、クロールされてもインデックスされなければまったく価値がないからだ。
そして、実際に時間を計算してみると、URLを作成または更新してからGooglebotがクロールするまでの時間は、数分以内、あるいは数時間、数日、数週間かかるかもしれないことがわかる。
クロールされるまで時間がかかる場合はどうする?
クロールされるまでの時間が長期に及ぶ場合は、どうすればいいだろうか?
検索エンジンとそのパートナー各社はここ数年、私たちSEO担当者がより効率的にクロールできるように改善する支援策についてよく話題にしている。結局のところ、これは検索エンジンの側にとって最善の利益になることだ。検索エンジンからすれば、より効果的にクロールすることで、価値のあるコンテンツをより素早く取得でき、それをオーディエンスの検索ユーザーに提示できる。
また、クロールは私たちのサーバーにも大きな負担をかけるので、クロールの効率化は環境保護に対する優れた取り組みにもなる。なぜなら、効率の悪いクロールはサーバーに負荷をかけ、大量の温室効果ガスを発生させるからだ。そのため、もっと効率的にクロールすることで、環境保護に貢献することにもなる。この点も、クロールの問題に関心を持つべき動機となる。
だからこそ、検索エンジンやパートナー各社はAPIの公開に多大な労力をつぎ込んでいるのだ。
この記事は、前後編の2回に分けてお届けする。後編となる次回は、2つのAPIであるGoogle Indexing APIとIndexNowについて説明した後、自分たちがクロールの効率化のために実行できる3つのポイントを紹介する。
ソーシャルもやってます!