Moz - SEOとインバウンドマーケティングの実践情報

グーグルに見えない状態になっているコンテンツが問題を引き起こすケース

更新情報:ここで取り上げたサブディレクトリに影響を及ぼしたと思われる問題点が複数見つかったので、最後の方の追加情報もちゃんと読んでもらいたい。

6月は、誤判定を下されたりスパムに引っかかったりして大変な月だったけど、僕はそんなことでめげる人間じゃない。今日の投稿は、短いけれど、すべての開発者が心得ておくべき重要な内容を扱っている。

話の出所は、賢明なるSEOmozのメンバー、パー・スヴァンストローム氏だ。スヴァンストローム氏は、PageRankも高く、完全に正当でやましいところのないサブディレクトリが、グーグルのインデックスから除外されたことに困惑してたんだ。

グーグルのインデックスから除外されたBirdstepのデータベース
グーグルのインデックスから除外されたwww.birdstep.comのデータベース

上の画像からは、1つのURLが削除されていることしかわからないけれど、「site:birdstep.com/database」で検索してみると、実は、このディレクトリ内のすべてのページがインデックスから消えているんだってことがわかる。さて、捜査を開始するとしよう。

ジェーンと僕はしばらくの間、質の悪い外部リンクが張られていないか、あるいは何らかの形でページにクローキングが施されていないか、TOS(サービス利用規約)に違反した部分がないかなどを調べてみた。

被リンクのリストを調べていくうちに、僕らは、そのサブディレクトリ内のほぼすべてのページに「birdstep.com」ドメイン名からリンクが張られていることに気づいた。まぁ、当然のことなんだけどね。このサブディレクトリにリンクしているページ(たとえばトップページ)のソースコードを見てみると、奇妙な点を見つけた。ページ上部にあるナビゲーションバーのソースコードは、次のようになっている。

<ul>
<li id="menuLogo">
  <a href="/">
    <img src="/images/logotype/birdstep.jpg" alt="Birdstep" />
  </a>
</li>

<li class="menuObject">
  <a href="http://www.birdstep.com/Products/">
    <img src="/images/menu/Products.gif" alt="Products" />
  </a>
</li>

<li class="menuObject">
  <a href="http://www.birdstep.com/Investor-Relations/">
    <img src="/images/menu/Investor_Relations.gif" alt="Investor Relations" />
  </a>
</li>

<li class="menuObject">
  <a href="http://www.birdstep.com/Partners/">
    <img src="/images/menu/Partners.gif" alt="Partners" />
  </a>
</li>

<li class="menuObject">
  <a href="http://www.birdstep.com/Media-Center/">
    <img src="/images/menu/Media_Center.gif" alt="Media Center" />
  </a>
</li>

<li class="menuObject">
  <a href="http://www.birdstep.com/Corporate/">
    <img src="/images/menu/Corporate.gif" alt="Corporate" />
  </a>
</li>

<li class="menuObject">
  <a href="http://www.birdstep.com/Contact-us/">
    <img src="/images/menu/Contact_us.gif" alt="Contact us" />
  </a>
</li>

<li class="menuObject">
  <a href="http://www.birdstep.com/database/">
    <img src="/images/menu/Database.gif" alt="Database" />
  </a>
</li>
</ul>

問題なんかなさそうだろう? 画像にリンクを貼った通常のメニューだ。唯一の問題は……

 リンクが消えているのがわかるだろうか?
上部ナビゲーションバー右端に、あるべき「Database」の文字がない(「?」の場所)。

ソースコードで青色で示した部分がナビゲーションの文字に相当する(実際には文字は画像だけど)のだが、なぜか最後の「Database」だけナビゲーションバーから消えているのがわかるだろうか? Databaseセクションへのリンクがあるべき部分なんだけど、画像だけがなくなっている。どうやら、これは単なるデザイン上の誤りで、1×1ピクセルのgif画像が使われていたようだ。

多くのページでは、コンテンツの本文に、このデータベースセクションに張った「目に見えるリンク」がたくさんあるんだけど、ナビゲーションバーのトップリンクからのリンクは見えないリンクになっている。厳密に言うと、これはグーグルの規定に違反しているんだ。他の多数のサイトやページからはこのデータベースセクションに対して適正なリンクが張られていたし、Birdstepには(ピクセル幅の計算ミス以外に)リンクを隠す理由や意図などないのは明白なのにもかかわらず、このサブディレクトリ全体がインデックスから削除されてしまったんだ。

幸いにも、僕らがこの問題を見つけて、Birdstepはすでに該当のリンクを削除している。うまく行けば、このサブディレクトリは近いうちに再びインデックス化してもらえるだろう。また、ありがたいことに、Birdstepは寛大にも、ブログでこの問題を説明するのを許可してくれた。この問題は、どんな開発者やデザイナーにとっても役に立つ警告になると思うよ。故意ではなく悪意もない誤りが、ときには危険な事態を招き、あくどい不正操作と同じくらいひどい結果を招く可能性があるってことだね。自分が書くコードには注意しよう!

もう1つ興味深いことに気が付いた。この問題について調べている際に、グーグルで「http://www.birdstep.com/database/.」(URLの最後にドットを追加してある)を検索してみると、以下のような結果が得られるのを発見したんだ。

URLの最後にドットをつけて検索してみると
URLの最後にドット(「.」)をつけて検索してみると……

僕は、インデックスから削除されたページを他にも1つ知っていたから、そのページについても同じように検索してみた。すると、やっぱり上の画像のような結果になった(残念だが、そのページを教えるわけにはいかない)。将来、不正行為をしてインデックスから除外されたり、今回と似たような徴候を示したりするようなページが見つかった場合、その原因を調べるのにこのクエリが役立つかもしれない。このクエリが本当にこれからもずっと使えるようなら、自分の武器として用意しておくのに、決して悪いクエリではないよね。

追加情報

問題はこの見えないナビゲーションバーの画像にあると思えたんだけど、実際のところ、ここで関係していたのはそれじゃなかった。答えはというと……グーグルに404エラーページを見せるクローキングが行われていたことだったんだ(ジョン・ミューラー氏によるすばらしい発見だ)。

つまり、Birdstepでは、ユーザーエージェントとポートを検知して、Googlebotを404エラーページにリダイレクトしてしまっていたということだ。明らかに、「グーグルを欺きたいのでクローキングをしている」なんていう故意によるものでなく、「おっと、やっちまった」といった感じのミスだ。おかしなことに、Yahoo!MSN/Liveではちゃんと検索できるみたいなのに(また、バックリンクだってたくさん表示されるのに)、Googlebotは違う扱いを受けていたということだね。

僕らが最初のうちこのことに気が付かなかったのにはいくつか理由がある。まず、FirefoxでユーザーエージェントをGooglebotに切り替えただけじゃ、この問題は見えてこないんだ。SEO-Browserなどの検索スパイダーエミュレータを使ってもだめだ。実は、ポート80にテルネット接続しないとダメなんだよね(これについては、コメント欄でマット・カッツ氏が指摘してくれた)。それに、Yahoo!とMSNにはこのページが見えている(そのせいで、これはクロールの問題じゃなくて、ペナルティだという印象受けてしまうんだけどね)。

こんなことが原因でインデックスから削除されるものなのか、僕は強い疑問を感じている。だって、スパム攻撃を仕掛けようとか、検索エンジンを欺こうとかいう意図はまったくないんだからね。ただ、もう一度繰り返しておくけど、これは、サイトで発生しうる問題についていろいろ推理するためのすばらしい種になる話だと思うんだ。カッツ氏とミューラー氏が手助けしてくれたことにとても感謝している。

追伸:デーブ・ネイラー氏が、この種の問題を調べるのに役立つツールを提供している(本来はそういう用途を目的としたツールじゃないんだけどね)。

用語集
Googlebot / PageRank / SEO / SEOスパム / インデックス / クローキング / クロール / スパイダー / ディレクトリ / ドメイン名 / ナビゲーション / ユーザーエージェント / リンク / 外部リンク / 検索エンジン / 被リンク
この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

EC
「EC」は、Electronic Commerce(電子商取引)の略。Eコマース ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]