Googlebotを手なずけるワザ
今や技術面でもビジネス面でも、インターネットを語るうえで欠かせない存在となったGoogle。この連載では、そんなGoogleが提供しているサービスとそれを支える技術の解説、ビジネス的な可能性の考察など、さまざまな視点から捉えていくとともに、Googleの最新ニュースなどもお届けする。
Googlebotのすべて
Googleのオフィシャルブログの1つWebmaster Central Blogで、All About Googlebotとして、Googleのインデックスクローラー「Googlebot」が自サイトを訪問した際の動きをコントロールする方法がいくつか公開された。
Googlebotの制御方法に関する情報は、ウェブマスター向けヘルプ センターの「robots.txt ファイルでサイト アクセス管理をするにはどうすればよいですか。 」にも書かれているので、ウェブマスターやウェブ制作者はぜひ参考にしてほしい(リンクをクリックして英語で表示される場合は、ページ右上のメニューから日本語を選択すると日本語で表示される)。
サイトがメンテナンス中の場合、Googlebotがメンテナンス中のページをインデックスせずに、のちほどまた来るように指示するにはどうすればいいですか?
サーバーを設定して、レスポンスコードとして200(成功)ではなく503(サービス不可)を返すようにしてください。これにより、Googlebotに後ほど来るように伝えることができます。
Googlebotがサイトにあまりにも頻繁にアクセスする場合はどうすればいいですか?
Googleに連絡してください。サーバーの帯域を消費しすぎないように対応します。現在、ウェブマスターがGooglebotの訪問頻度を指定できるツールを実験中で、良い感触を得ています。もうすぐだれでも利用できるようになるかもしれません。
HTMLファイル内にmeta robotタグを書くのと、robots.txtファイルで指定するのとどちらが良いのですか?
Googlebotはどちらにも従いますが、HTMLファイル内のmeta robotsタグはそのページに対してしか効きません。クロール対象から除外したいページが多くある場合は、サイト構造を調整してrobots.txtで一括して指定できるようにするといいでしょう(たとえば除外したいページを特定のディレクトリにまとめるなど)。
robots.txtに全クローラーに対する指示とGooglebotだけに対する指示がある場合、Googlebotはどのように解釈するのですか?
robots.txtファイルに一般的な指示とGooglebotに対する指示がある場合、Googlebotは特別に指示されている内容に従います。
たとえば、robots.txtファイルに次のような記述があったとします。
User-agent: * Disallow: / User-agent: Googlebot Disallow: /cgi-bin/
この場合、Googlebotはサイト内のすべてのファイルをクロール対象にしますが、cgi-binディレクトリだけはクロールしません。
以下のようなrobots.txtファイルの場合は、
User-agent: * Disallow: /
Googlebotはサイト上のどのファイルもクロール対象としません。
Googlebotがrobots.txtをどのように解釈するか自信がない場合は、robots.txt ファイル 分析ツールを使ってテストできます。Googlebotがファイルへの変更をどのように解釈するかをテストすることもできます。
その他のGooglebotや他のクローラーがrobots.txtファイルをどのように解釈するのかの詳細については、「 robots.txt ファイルでサイト アクセス管理をするにはどうすればよいですか。 」を参照してください。
ソーシャルもやってます!