検索エンジンの動きを制御する方法とツール - 『検索エンジン最適化の初心者ガイド』改訂版#8-1
この記事は、『検索エンジン最適化の初心者ガイド』をセクションごとに書き直していく過程のエントリだ。この構想については、概要を見てもらえば、もっとよくわかるだろう。
検索エンジンが提供しているウェブマスター用ツールの紹介
アクセスしやすいサイトやコンテンツをウェブマスターに作成してもらおうと、各主要検索エンジンは、サポートや参考資料に重点をおいたサービスの拡充に努めてきた。検索マーケターにとっての価値はサービスによってさまざまに異なるが、どれもみな理解しておく価値はある。これらのツールが提供してくれるデータポイント、および検索エンジンと情報をやり取りできる機会は、他では絶対に入手できないものだ。
この記事では、主要な検索エンジンが対応している一般的なロボット制御要素を挙げ、それらが役に立つ理由を概説する。これらの各要素については、それぞれのブログ記事の根拠となる詳細な説明がふんだんに存在するが、このガイドの目的に沿うよう、最も重要で価値ある部分だけを説明していこう。
一般的な検索エンジン制御プロトコル
サイトマップ
サイトマップは、あるWebサイト上にあるすべてのページを、一定の形式に則って表わしたリストだ。サイトマップは、検索エンジンがそのサイト上にある全Webページを簡単に見つけ出すのに役立てたり、各ページに相対的な重要度を割り当てたりする目的で使われる。
サイトマップのプロトコル(sitemaps.orgで詳細に説明されている)は、3種類のファイル形式で記述できる。
XML:「Extensible Markup Language」の略(推奨フォーマット)
長所これはサイトマップで最も広く採用されているフォーマットだ。XMLは検索エンジンにとって構文解析が非常にしやすく、これを生成してくれるサイトマップ生成ツールはたくさんある。さらに、ページに対するパラメータを最も細かく調整できる。
短所ファイルサイズが比較的大きいこと。XMLでは、要素すべてに開始タグと終了タグを必要とするから、その分ファイルサイズも大きくなる。
RSS:「Really Simple Syndication」または「Rich Site Summary」の略
長所メインテナンスがやりやすい。RSS形式のサイトマップでは、簡単なコード記述により、コンテンツが新しく追加された際に自動アップデートできる。
短所管理が困難。RSSはXMLをベースにしたフォーマットだが、アップデート機能という特性を持つために、実際にはXMLよりも管理がはるかに困難だ。
Txt:テキストファイル
長所非常に扱いやすい。テキスト形式のサイトマップは、1行につき1つのURLという形式で、5万行まで扱える。
短所メタデータをページに追加する能力がない。
サイトマップは、主な検索エンジンに直接送信することも、その所在を「robots.txt」で指定しておくこともできる。
robots.txt
robots.txtファイル(ロボット排除プロトコルの一種)は、Webサイトのルートディレクトリ(例:サイトが「www.google.com」ならば「http://www.google.com/robots.txt」でアクセスできる場所)に保存しておかなければならない。robots.txtファイルは、自動化された訪問者(Webロボット、ボット)のためのアクセスガイドとして機能する。これを用いると、ウェブマスターは、ボットにクロールしてほしくないサイトのエリアを指定できるほか、サイトマップファイルの所在(後述)やcrawl-delayパラメータを示すことができる。使えるのは、以下のコマンドだ。
Disallow:
robots.txtに従うロボットが特定のページまたはフォルダにアクセスしないようにする。
Sitemap:
Webサイトのサイトマップの所在を示す。
Crawl-delay:
ロボットがサーバーをクロールできる速度を(ミリ秒で)示す。
robots.txtの記述例:
#Robots.txt www.example.com/robots.txt
User-agent: *
Disallow:
# 「spambot」というユーザーエージェント名のロボットには
# どのページもクロールさせない
User-agent: spambot
Disallow: /
sitemap:www.example.com/sitemap.xml
※注意:非常に重要な留意点がある。すべてのウェブロボットがrobots.txtの内容に従うわけではないということだ。悪意のある人物(たとえばメールアドレスをかき集めるスパム業者)が、このプロトコルに従わないボットを作成し、極端な場合、それを使って個人情報の所在を突きとめることもある。したがって、管理セクションや、だれでもアクセスできるWebサイトの非公開セクションの所在は、robots.txtに記述しないことをお薦めする。その代わりに、これらのページは、メタタグ(meta要素)によるロボット制御(次項で説明)を利用して、注意が必要なコンテンツをインデックス化しないよう、主な検索エンジンに指示できる。
メタタグによるロボット制御
meta robotタグは、検索ロボットにページレベルで指示を与え、各ページのインデックス化からスニペット(検索エンジンが提供する抜粋)使用まで、さまざまなことを制御できる。
メタロボットタグは、HTMLドキュメントのヘッダー部(head要素内)に置かなければならない。
メタロボットタグの記述例:
<html>
<head>
<title>The Best Webpage on the Internet</title>
<meta name="ロボット名を指定" content="属性値を指定" />
</head>
<body>
<h1>Hello World</h1>
</body>
</html>
「ロボット名を指定」の部分にウェブロボットのユーザーエージェント名(例:Googlebot)を指定するか、あるいはすべてのロボットを対象とするためにはアスタリスク(*)を指定する。「属性値を指定」には下表のmeta列にある属性値のいずれかを指定する。
使用するケース | robots.txt | meta※ | その他 | 対応している検索エンジン |
---|---|---|---|---|
コンテンツへのアクセスを許可する | Allow | FOLLOW INDEX | グーグル ヤフー1 2 米ヤフー マイクロソフト | |
コンテンツへのアクセスを禁止する | Disallow | NOINDEX NOFOLLOW | グーグル ヤフー1 2 米ヤフー マイクロソフト | |
ページ上にある画像のインデックス化を禁止する | NOIMAGEINDEX | グーグル | ||
検索結果にコンテンツのキャッシュを表示しないようにする | NOARCHIVE | グーグル ヤフー 米ヤフー マイクロソフト | ||
検索結果にコンテンツの説明文を表示しないようにする | NOSNIPPET | グーグル ヤフー 米ヤフー マイクロソフト | ||
コンテンツが検索エンジンの翻訳ツールで他言語に翻訳されないようにする | NOTRANSLATE | グーグル | ||
コンテンツ内にあるリンクをたどる(評価する)ことを禁止する | NOFOLLOW | a要素の属性として rel="nofollow"を指定 | グーグル ヤフー 米ヤフー マイクロソフト | |
Open Directory Project(DMOZ)にあるコンテンツの説明文を検索結果に表示させないようにする | NOODP | グーグル ヤフー 米ヤフー マイクロソフト | ||
Yahoo Directoryにあるコンテンツの説明文を検索結果に表示させないようにする | NOYDIR | ヤフー 米ヤフー | ||
HTMLページ内の特定の要素について、インデックス化を禁止する | class="robots-nocontent" | ヤフー 米ヤフー | ||
指定日以降、コンテンツのインデックスを中止する | UNAVAILABLE_AFTER | グーグル1 2 | ||
サイトマップファイルあるいはサイトマップのインデックスファイルを指定する | Sitemap | グーグル ヤフー 米ヤフー マイクロソフト | ||
Webサイトに対するクローラーのアクセス頻度を指定する | Crawl-delay | Googleウェブマスターツール | ヤフー 米ヤフー マイクロソフト | |
クローラーが本物であることを確認する | DNS逆ルックアップ | グーグル ヤフー 米ヤフー マイクロソフト | ||
検索エンジンのインデックスからの自分のコンテンツを削除するようリクエストする | Googleウェブマスターツール Yahoo! サイトエクスプローラー 米ヤフー Microsoft Webmaster Tools | グーグル ヤフー 米ヤフー マイクロソフト |
rel="nofollow"
nofollowは、主な検索エンジンすべてがサポートしている一般的なインラインパラメータだ。これをリンクに追加すると、リンクジュース(ランキング決定の要素になる)を他に渡さないようにできる。
nofollowの記述例:
<a href="http://www.example.com" rel="nofollow">リンク例</a>
jane and robotにはrobots.txtに関して、さらに広範なすばらしい情報ページ「自分のWebサイトに対するロボットのアクセスを制御する方法」がある。また、プリントアウトして手元に置いておくのなら、SEOmozの「SEO基本技術のチートシート(トラの巻)を作ってみた」がお薦めだ。
ソーシャルもやってます!