このページは、外部サイト
Google ウェブマスター向け公式ブログ の情報をRSSフィード経由で取得して表示しているため、記事の一部分しか表示されていなかったり、画像などが正しく表示されなかったり、オリジナル記事が意図したデザインと異なっていたりする場合があります。
完全な状態のオリジナル記事は 「
Googlebot について、よくある質問」 からご覧ください。
ウェブマスターヘルプフォーラム に、Googlebot や robots.txt に関する質問が多く寄せられたので、少々古い記事にはなりますが、
2006 年に英語版ウェブマスターセントラルブログに掲載された記事 が、皆様の参考になればと、抄訳して掲載します。
サイトをメンテナンスのために落としています。Googebot に「メンテナンス中」のページをインデックスさせるのではなく、後でクロールに戻って来るよう伝えたいのですが、どうしたらいいですか?サーバーが、200 (成功)ではなく、503 (ネットワーク利用不可) の
HTTP ステータスコード を返すように設定してください。こうすることで、Googlebot はまた別の機会にクロールを試みるようになります。
Googlebot がサイトをクロールする負荷が高すぎる場合はどうしたらいいのですか?ウェブマスターツール内 [サイト設定] の [クロール速度] セクションで、希望のオプションを選択していただくことができます。Robots メタタグと robots.txt ファイルはどちらを使うのが望ましいのですか?Googlebot はどちらの指示にも従いますが、robots メタタグはページ毎に記述する必要があります。もしクロールされたくないページが多数ある場合は、robots.txt ファイルを使って一度にそれら複数のページへのアクセスをブロックできるようサイトを構成すると、設定が簡単になります(例えば、それらのページをひとつのディレクトリにまとめるなど)。
Robots.txt に、全ての検索エンジンのボット(クローラ)を対象にした記述と、Googlebot のみを対象にした記述が混在している場合、全ての検索エンジンを対象にした記述を Googlebot はどのように解釈するのですか?あるサイトの robots.txt に、全てのボット向けの指示と、Googlebot に限定した指示の両方が含まれている場合、Googlebot は後者を優先します。
例えば、次のような記述の robots.txt ファイルがある場合、
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Googlebot は、サイトの cgi-bin ディレクトリ以外のページを全てクロールします。
次のような記述の robots.txt ファイルがある場合は、
User-agent: *
Disallow: /
Googlebot は、サイトのページを一切クロールしません。
あなたのサイトの robots.txt ファイルを Googlebot がどのように解釈しているかは、ウェブマスターツールの
robots.txt のテスト を使って確認することができます。また、robots.txt ファイルに変更を加えた場合、Googlebot がどのように解釈するようになるかについても、このツールで試すことができます。
Googlebot (や Google のその他のクローラ群)がどのように robots.txt を解釈するかについて、より詳しく知りたい方は
ヘルプセンター をご参照下さい。
Posted by サーチクオリティチーム
Original Version:
All About Googlebot