Moz - SEOとインバウンドマーケティングの実践情報

検索エンジンの動きを制御する方法とツール - 『検索エンジン最適化の初心者ガイド』改訂版#8-1

robots.txtやmetaタグを使って、検索エンジンのクロールなどを制御する方法を解説する。

検索エンジンが提供しているウェブマスター用ツールの紹介

アクセスしやすいサイトやコンテンツをウェブマスターに作成してもらおうと、各主要検索エンジンは、サポートや参考資料に重点をおいたサービスの拡充に努めてきた。検索マーケターにとっての価値はサービスによってさまざまに異なるが、どれもみな理解しておく価値はある。これらのツールが提供してくれるデータポイント、および検索エンジンと情報をやり取りできる機会は、他では絶対に入手できないものだ。

この記事では、主要な検索エンジンが対応している一般的なロボット制御要素を挙げ、それらが役に立つ理由を概説する。これらの各要素については、それぞれのブログ記事の根拠となる詳細な説明がふんだんに存在するが、このガイドの目的に沿うよう、最も重要で価値ある部分だけを説明していこう。

一般的な検索エンジン制御プロトコル

  • サイトマップ

    サイトマップは、あるWebサイト上にあるすべてのページを、一定の形式に則って表わしたリストだ。サイトマップは、検索エンジンがそのサイト上にある全Webページを簡単に見つけ出すのに役立てたり、各ページに相対的な重要度を割り当てたりする目的で使われる。

    サイトマップのプロトコル(sitemaps.orgで詳細に説明されている)は、3種類のファイル形式で記述できる。

  • XML:「Extensible Markup Language」の略(推奨フォーマット)

    長所これはサイトマップで最も広く採用されているフォーマットだ。XMLは検索エンジンにとって構文解析が非常にしやすく、これを生成してくれるサイトマップ生成ツールはたくさんある。さらに、ページに対するパラメータを最も細かく調整できる。

    短所ファイルサイズが比較的大きいこと。XMLでは、要素すべてに開始タグと終了タグを必要とするから、その分ファイルサイズも大きくなる。

  • RSS:「Really Simple Syndication」または「Rich Site Summary」の略

    長所メインテナンスがやりやすい。RSS形式のサイトマップでは、簡単なコード記述により、コンテンツが新しく追加された際に自動アップデートできる。

    短所管理が困難。RSSはXMLをベースにしたフォーマットだが、アップデート機能という特性を持つために、実際にはXMLよりも管理がはるかに困難だ。

  • Txt:テキストファイル

    長所非常に扱いやすい。テキスト形式のサイトマップは、1行につき1つのURLという形式で、5万行まで扱える。

    短所メタデータをページに追加する能力がない。

サイトマップは、主な検索エンジンに直接送信することも、その所在を「robots.txt」で指定しておくこともできる。

robots.txt

robots.txtファイル(ロボット排除プロトコルの一種)は、Webサイトのルートディレクトリ(例:サイトが「www.google.com」ならば「http://www.google.com/robots.txt」でアクセスできる場所)に保存しておかなければならない。robots.txtファイルは、自動化された訪問者(Webロボット、ボット)のためのアクセスガイドとして機能する。これを用いると、ウェブマスターは、ボットにクロールしてほしくないサイトのエリアを指定できるほか、サイトマップファイルの所在(後述)やcrawl-delayパラメータを示すことができる。使えるのは、以下のコマンドだ。

  • Disallow

    robots.txtに従うロボットが特定のページまたはフォルダにアクセスしないようにする。

  • Sitemap

    Webサイトのサイトマップの所在を示す。

  • Crawl-delay:

    ロボットがサーバーをクロールできる速度を(ミリ秒で)示す。

    ※Web担編注 実際には、liveでは秒単位Yahoo! JAPANでは分単位、そしてGoogleではCrawl-delayには対応しておらずWebmaster Toolsで設定することになる。

robots.txtの記述例:


#Robots.txt www.example.com/robots.txt
User-agent: * 
Disallow:  

# 「spambot」というユーザーエージェント名のロボットには
# どのページもクロールさせない
User-agent: spambot 
Disallow: /

sitemap:www.example.com/sitemap.xml

※注意:非常に重要な留意点がある。すべてのウェブロボットがrobots.txtの内容に従うわけではないということだ。悪意のある人物(たとえばメールアドレスをかき集めるスパム業者)が、このプロトコルに従わないボットを作成し、極端な場合、それを使って個人情報の所在を突きとめることもある。したがって、管理セクションや、だれでもアクセスできるWebサイトの非公開セクションの所在は、robots.txtに記述しないことをお薦めする。その代わりに、これらのページは、メタタグ(meta要素)によるロボット制御(次項で説明)を利用して、注意が必要なコンテンツをインデックス化しないよう、主な検索エンジンに指示できる。

メタタグによるロボット制御

meta robotタグは、検索ロボットにページレベルで指示を与え、各ページのインデックス化からスニペット(検索エンジンが提供する抜粋)使用まで、さまざまなことを制御できる。

メタロボットタグは、HTMLドキュメントのヘッダー部(head要素内)に置かなければならない。

メタロボットタグの記述例:


<html>
    <head>
        <title>The Best Webpage on the Internet</title>
        <meta name="ロボット名を指定" content="属性値を指定" />
    </head>
    <body>
        <h1>Hello World</h1>
    </body>
</html>

ロボット名を指定」の部分にウェブロボットのユーザーエージェント名(例:Googlebot)を指定するか、あるいはすべてのロボットを対象とするためにはアスタリスク(*)を指定する。「属性値を指定」には下表のmeta列にある属性値のいずれかを指定する。

使用するケースrobots.txtmetaその他対応している検索エンジン
コンテンツへのアクセスを許可するAllowFOLLOW
INDEX
グーグル
ヤフー1 2 米ヤフー
マイクロソフト
コンテンツへのアクセスを禁止するDisallow
NOINDEX
NOFOLLOW
グーグル
ヤフー1 2 米ヤフー
マイクロソフト
ページ上にある画像のインデックス化を禁止するNOIMAGEINDEXグーグル
検索結果にコンテンツのキャッシュを表示しないようにするNOARCHIVEグーグル
ヤフー 米ヤフー
マイクロソフト
検索結果にコンテンツの説明文を表示しないようにするNOSNIPPETグーグル
ヤフー 米ヤフー
マイクロソフト
コンテンツが検索エンジンの翻訳ツールで他言語に翻訳されないようにするNOTRANSLATEグーグル
コンテンツ内にあるリンクをたどる(評価する)ことを禁止するNOFOLLOWa要素の属性として
rel="nofollow"を指定
グーグル
ヤフー 米ヤフー
マイクロソフト
Open Directory Project(DMOZ)にあるコンテンツの説明文を検索結果に表示させないようにするNOODPグーグル
ヤフー 米ヤフー
マイクロソフト
Yahoo Directoryにあるコンテンツの説明文を検索結果に表示させないようにするNOYDIRヤフー 米ヤフー
HTMLページ内の特定の要素について、インデックス化を禁止するclass="robots-nocontent"ヤフー 米ヤフー
指定日以降、コンテンツのインデックスを中止するUNAVAILABLE_AFTERグーグル1 2
サイトマップファイルあるいはサイトマップのインデックスファイルを指定するSitemapグーグル
ヤフー 米ヤフー
マイクロソフト
Webサイトに対するクローラーのアクセス頻度を指定するCrawl-delayGoogleウェブマスターツールヤフー 米ヤフー
マイクロソフト
クローラーが本物であることを確認するDNS逆ルックアップグーグル
ヤフー 米ヤフー
マイクロソフト
検索エンジンのインデックスからの自分のコンテンツを削除するようリクエストするGoogleウェブマスターツール
Yahoo! サイトエクスプローラー 米ヤフー
Microsoft Webmaster Tools
グーグル
ヤフー 米ヤフー
マイクロソフト
出典:jane and robot:自分のWebサイトに対するロボットのアクセスを制御する方法
※meta要素で指定できる内容は、HTTPレスポンスヘッダーに「X-Robots-Tag」として含められる。ただし、HTTPヘッダーを使う場合はロボット名を指定できない。

rel="nofollow"

nofollowは、主な検索エンジンすべてがサポートしている一般的なインラインパラメータだ。これをリンクに追加すると、リンクジュース(ランキング決定の要素になる)を他に渡さないようにできる。

nofollowの記述例:

<a href="http://www.example.com" rel="nofollow">リンク例</a>

jane and robotにはrobots.txtに関して、さらに広範なすばらしい情報ページ「自分のWebサイトに対するロボットのアクセスを制御する方法」がある。また、プリントアウトして手元に置いておくのなら、SEOmozの「SEO基本技術のチートシート(トラの巻)を作ってみた」がお薦めだ。

この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

リードジェネレーション
リードは潜在顧客のことで、ある特定の商品、サービスに関心がありそうなユーザーもし ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]