誰も知らなかったグーグルのルール——URLの最後に「.0」を付けるな(今は大丈夫だけどね)
現在、この記事で触れている問題はすでに解決されているが、どのようなことが起きていたのかの参考のために記事をお届けする(どのように解決したのかの詳細は記事の末尾に記載)。
SEOmozのWeb 2.0 Awardのページがグーグルのインデックスから削除されたというThe SEO Companyのこの記事(またはその記事を紹介しているSphinnのスレッド)を読んだ人は、読者の中にも大勢いることでしょうね。私たちも夜遅くにこのことに気づき、朝になって一体何が起こったのかを調べてみたの。可能性としては、うっかり悪質なサイトにリンクしちゃったせいじゃないかと思っていたの。だって、Web 2.0 Awardのページにはリンクがたくさん貼ってあって、その中には、Google Blog SearchからLast.fmみたいな有名サイトだけじゃなく、知名度の低いサイトもあるんだもの。
この話を知らなかった人のために、事情を説明しておくわね。下の画像を見て。
画面右下隅にあるPageRankの小さなバー(ツールバーPageRank表示)について、私たちはいつも、意味のないものだから気にするなと言っているけど、長く伸びていた緑色のバー(7/10)が、いきなり灰色になてしまったの。グーグルで検索してみると、結果はもっと悲惨だったわ。
検索結果で一番上に表示されてるページは、受賞サイトと佳作サイトの一覧なんだけど、残念ながら「要約版(short版)」のページなの。大元の「http://www.seomoz.org/web.2.0」というページは検索結果から消えちゃったわ。
結局のところ、今朝、ランドがグーグルに問い合わせてみたら、URLが「.0」で終わらないように変更するのがいい、と言われたそうよ。グーグルは公式なコメントは差し控えたいらしいけど、この情報をみんなに教えてもいいと言ってくれたわ。当然のごとく、もっと突っ込んだ調査もしてみたわ。その結果、URLの最後を「.0」にするのは、お勧めできないだけっていうだけじゃなく、文字どおり、グーグルのエンジンにインデックス化してもらえなくなることがわかったの(「.exe」や「.tgz」という拡張子が付いたファイルを、グーグルがインデックス化しないのと同じようにね)。
「.0」で終わるURLの多くがスパムページであることを示す証拠は山ほどあるものの(当てずっぽうだけど、「.0」で終わるページはだいたい80万くらいあって、たぶん、ん~と……確かなことはわからないけど、インデックス化していいのは、そのうちの0.5%くらいかな)、果たしてこれを、即刻ペナルティを与えるための基準にしていいのかしら?
同じような目に遭っているまともなページは、他にもあるのよ。
たとえば、「http://en.wikipedia.org/wiki/Windows_1.0」なんて、多くのバックリンクを獲得しているのに、グーグルではヒットしないわ。
ただし、「http://en.wikipedia.org/wiki/Web_2.0」というページは、「http://en.wikipedia.org/wiki/Web_2」としてグーグルにインデックス化されているわ。
これに興味をかき立てられて、もう少し調査してみたの。わかったのは、この種のペナルティを受けるのは「ゼロ」だけに限られていたこと。「.1」~「.9」で終わるページは削除されていないわ。最後にスラッシュ(/)を付けたページがグーグルから見えれば、ペナルティを回避できるようよ。ピリオド(.)の代わりにアンダースコア(_)を使ったページもインデックス化されていたわ。
次のリストは、ヤフーでは(その多くはLiveでも)インデックス化されているけれどツールバーPageRankが表示されず、グーグルのインデックスにも出てこないページを集めたものよ。その下に、同じようなURLのページだけどインデックス化されているページをリストアップしておいたわ。ただ、こっちは「.0」で終わっていないんだけどね。
グーグルのインデックスにない(でもヤフーにはある)ページ
- en.wikipedia.org/wiki/Windows_1.0
- en.wikipedia.org/wiki/Web_2.0
- http://en.wikipedia.org/wiki/Die_Hard_4.0
- drupal.org/drupal-5.0
- keznews.com/3799_Vista_Transformation_Pack_8.0_Final_-_VTP_8.0
- en.wikipedia.org/wiki/BASIC_8.0
- drupal.org/drupal-6.0
- en.opensuse.org/OpenSUSE_11.0
- www.shopping.com/xGS-Illustrator_11.0
- www.mythtv.org/wiki/index.php/Opensuse_11.0
- www.shopping.com/xGS-Suse_9.0
- en.wikipedia.org/wiki/Mac_OS_X_10.0
- en.opensuse.org/Bugs:Most_Annoying_Bugs_10.0
インデックスにあるもの
- en.wikipedia.org/wiki/Web_2
- drupal.org/drupal-5.0-beta1
- http://keznews.com/3799_Vista_Transformation_Pack_8_0_Final_-_VTP_8_0
- drupal.org/drupal-6.0-beta1
- www.mythtv.org/wiki/index.php/Opensuse_10.3
- www.mythtv.org/wiki/index.php/Opensuse_10.2
- en.opensuse.org/Bugs:Most_Annoying_Bugs_10.3
あと、このページは、ツールバーPageRankは表示されるけど(3/10)グーグルの検索結果に出てないの。
http://www.fileplanet.com/62709/60000/fileinfo/WinZip-9.0-
「http://www.fileplanet.com/62709/60000/fileinfo/WinZip-9.0」は、インデックス化されてもいないし、PageRankもない。これは複製コンテンツの問題だと言えるのかもしれないけれど、やっぱり同じ傾向を示すものよね。
おもしろいことがいろいろとわかるでしょ。たとえば「en.opensuse.org/Bugs:Most_Annoying_Bugs_10.3」はインデックス化されているけど「en.opensuse.org/Bugs:Most_Annoying_Bugs_10.0」はされていないとかね。
簡単に言うと、URLの最後にスラッシュを付けるようにすれば、問題は回避できるわ。私個人としては、人間の目で確認もしないでペナルティを与えるこんなやり方なんて、非常にばかげていると思うけれど、こんな「偽陽性」の疑いをかけられてペナルティを受けるような事態を回避できるように、私たちがこういう話題を取り上げていくことは大事なのよね。サイトレビューのチェックリストに「URLが『.0』で終わっていないか」という項目を付け加えましょう。それ以外のファイル拡張子で、どこかの検索エンジンが同じような扱いをするものを見つけた人がいたら、コメント欄に書き込んでね。みんなで情報を共有しましょう。
付記:en.wikipedia.org/wiki/SAML_1.1もペナルティを受けているようね。「.n」で終わるURLをもっと調べてみて、ペナルティを受けるのはどれか正確に把握した方がいいみたい。私たちが見た中では、「.0」で終わっていなければ、ペナルティを受けてなかったわ。このフィルタが実際どこまで効いているのか知りたいところね。
この記事の翻訳時点では、この問題は解決されているようで、http://www.seomoz.org/web.2.0も検索結果に表示されている。
グーグルは、SEOmozのこの記事に応えるかたちで、「.0」などで終わるURLもクロールするように設定を変更したことを、マット・カッツ氏がブログで書いている。そのブログ記事によると、URLが「.0」で終わるということは、拡張子が.0である扱いになり、「.0」という拡張子はバイナリファイルである可能性が高いためにクロール時にインデックスしていなかったのだという。しかし、現状に合わせてインデックス対象としたということだ。
ソーシャルもやってます!