XMLサイトマップ利用のガイドライン
ここ数日間、僕たちの仕事のさまざまな面について、社内用のガイドラインをまとめている。これで当社は確実に、多様なクライアントに一貫した情報を提供できるようになるはずだ。作成したガイドラインの大半はかなり平易なもので、突っ込んで書くほどのものはない。しかしその中で、XMLサイトマップについて説明したガイドラインは、書くのがとりわけ難しかった。そこで今回はXMLサイトマップについて、僕の考えをみんなに開陳しよう。
XMLサイトマップとは何か
サイトマップは、クロール対象となるサイト上のページを検索エンジンに知らせるために、ウェブマスターが利用できる簡単な方法だ。サイトマップの最もシンプルな形式は、サイト上のURLの一覧と各URLに関する補足的なメタデータを含むXMLファイルだ。
一見すると、どんなWebサイトにとってもすばらしい強化になるように思われる。しかし、サイトマップの作成に飛びつく前に、認識しておくべき利点と欠点がいくつかある。
XMLサイトマップを使う利点
検索エンジンに追加情報を渡せるという点に関して、まず利点を挙げる。
サイトマップにはサイト内のすべてのURLを掲載できる
一部のページは、サイトマップに含めなければ検索エンジンからインデックス化されない場合もあり得る。
検索エンジンに優先順位の情報を提供できる
サイトマップには、ページに優先順位をつけるオプションのタグがある。これは、サイト上の他のページに比べてそのページがどれほど重要かを示すものだ。これによって検索エンジンは、優先度の情報に基づいてそのサイトのなかでどのページをクロールするかの順番を決定できるようになる。
更新スケジュールに関する情報を提供できる
さらに2つのタグ(lastmodとchangefreq)を使えば、検索エンジンにより多くの情報を提供でき、エンジンがより効率よくクロールする助けになるはずだ。lastmodタグはページが最後に変更された日時を伝え、changefreqタグはそのページがどのくらいの頻度で変更されるのかを示す。
検索エンジンに追加情報を提供できれば、エンジンがより効率よくサイトをクロールするようになるはずだ。Web担当者が考える優先順位に従って、検索エンジンがサイトのページをクロールするなら、Web担当者と検索エンジンの両方にとって利点となりそうだが、グーグル自身はサイトから得た情報について、ヒントとして考慮すると説明している。とはいえ、さらにすばらしい利点がもう1つあって、サイトマップを用意すると、検索エンジンから見返りに情報を提供してもらえる。
Google Webmaster Centralは、サイトマップを持つWeb担当者に有用な情報を提供している。たとえば、次のグラフは過去90日間におけるグーグルのクローラの活動を示している。
XMLサイトマップの欠点
サイトの構造上の問題点が見えなくなる
ランドはすでに、サイトマップに伴う大きな問題の1つを取り上げている。それは、「普通のクロールでは見つけられないページもインデックス化されることによって、サイトの構造上の問題が見えなくなることもあり得る」という問題だ。
競合サイトへの情報開示
検索エンジンにサイトの全ページの優先順位を知らせると、競合サイトもその情報に興味を持つのはまず間違いない。サイトマップを検索エンジンだけにアクセスさせて、他の連中から見られないよう保護する方法なんてないからね。
生成の問題
これは実のところサイトマップ自体の問題というよりも、多くのサイトマップ生成ツールの問題だ。自動的にサイトマップを作るために自分のサイトをクロールするプログラムを送りこんでサイトマップを生成するたびに、無駄な負荷がかかるなどの問題をサイトに与えることになる。賭けてもいいけど、現在利用されているどのサイトマップ生成ツールよりも、検索エンジンがあなたのサイトをクロールするのに使ってるアルゴリズムのほうが優れているはずだ。サイトマップのもう1つの問題は、データベースから動的に生成したサイトマップでないと、すぐに古くなってしまうという点だ。
XMLサイトマップのガイドライン
これらのことをすべて考慮すると、サイト上にサイトマップを置くのは避けたくなる。特に、新しいサイト、構造を変えたばかりのサイトなどはそうだ。サイトマップを送信しなければ、アクセスログからさまざまな情報を集めてサイトが正しく構築されているかどうかの検証に利用できるはずなのに、それができなくなってしまうのだから。ここでいう「さまざまな情報」とは、グーグルがどのページをインデックス化するか、各ページのインデックス化にどれくらい時間がかかるかといったものだ。
もっとも、いくつかの条件が揃う場合は、サイトマップの使用を推奨する。もし君が非常に大規模なサイトを持っていて、時間をかけてクロールの統計を吟味した結果、どのページがインデックス化されどのページがされないかについて完全に理由がわかっているのなら、サイトマップを加えることでインデックス化されるページの数を増やせるだろう。ただし、サイトマップがないとインデックス化してもらえないようなページは、リンクジュースの点では限りなく貧弱だということは言っておくべきだろう。こんなページはみそっかすで、ロングテールクエリ以外で、上位にランクされることなんかない。しかし、言うまでもなく、何千ものページが突然インデックスに加われば、やたらと長ったらしいロングテールクエリでようやく表示されるようなページであろうと、かなりのトラフィックをもたらすことができる。
まだ1つわからないことがある。それまでXMLサイトマップを提供していたサイトからサイトマップを削除するとどうなるかということだ。僕たちは新規の顧客すべてに対して、サイトの構造的な問題を確認するためにサイトマップを削除するよう勧めるべきだろうか? 僕は、検索エンジンを利用してサイトの構造的な問題を診断するのが大好きなんだ。サイトマップを削除すると、XMLサイトマップのおかげでインデックス化されていたページがインデックスから削除されるのか、確信が持てない。もしそれが事実なら、ささやかながらもすばらしい情報だ(心正しきホワイトハットよ、願わくはその話を他に漏らすことのなきように)。
ソーシャルもやってます!