検索エンジンスパム - 『検索エンジン最適化の初心者ガイド』改訂版#9-2
この記事は、『検索エンジン最適化の初心者ガイド』をセクションごとに書き直していく過程のエントリだ。この構想については、概要を見てもらえば、もっとよくわかるだろう。
検索エンジンスパム
検索エンジンスパム、つまり、順位を人為的につり上げることを目的としたページや仕掛けを作ったり、コンテンツのソートに使用される順位決定アルゴリズムを悪用したりする行為は、1990年代中頃から盛んに行われるようになった。見返りが非常に大きいから、検索エンジンを操作しようとする行為がウェブで横行するようになったのも当然だ(あるSEOの同業者から聞いた話によると、「buy viagra」というクエリで1日だけグーグルの検索結果第1位を取ったら、アフィリエイトの利益が2万ドル以上になったという)。
でも、スパム行為を行うのはますます難しくなっていて、次に挙げる2つの理由から見返りも一層少なくなると、僕は考えている。
検索エンジンは、ユーザーがスパムを嫌うことを知っている。
これは取るに足らない当たり前の話に思えるかもしれない。だが事実、マクロな立場から検索業界を研究した人たちの考えによると、サービスの強みとしてグーグルがここ10年の間に示してきたものは、関連性の向上に加えて、競合するエンジンよりもスパムを制御して排除する能力が高いことだという。それがグーグルの世界的シェア拡大に直接つながったかどうかはわからないけれど、すべての検索エンジンがスパムの駆逐に時間と労力とリソースをつぎ込んでいることは間違いない。
世界でもとりわけ優秀なエンジニアが何百人もスパムとの戦いに専念していることを考えれば、検索エンジンスパムを長期的に勝算のある手法として推薦するなんてできっこない。
検索エンジンは不正操作と戦うスケーラブルでインテリジェントな手法を確立し、各社の意図したアルゴリズムに反する影響を及ぼすことは各段に難しくなった。
この点では、すばらしい成果が上がっている。
- TrustRank(日本語参考情報)(SEOmozのLinkscapeのインデックスで使っている)
- HITS(Hyperlink-Induced Topic Search)アルゴリズム(日本語参考情報1、2)
- 統計的解析
- 履歴データ(日本語参考情報)
をはじめとする多くのコンセプトや、
などによって、検索エンジンスパムの価値が減る一方で、いわゆる「ホワイトハット」的手法(検索エンジンのガイドラインに抵触しない手法)は一層魅力的なものになった。
このガイドでは、スパム的手法を詳細に説明するつもりはない(もはや有効性を失ったものも、今も使われているものもだ)。けれど、ペナルティを科されたり、インデックスから外されたり、警告を受けたりして助けを求めているサイトがたくさんあるので、検索エンジンがスパムを特定するのに使うさまざまな要素を取り上げて、SEOをやる人が問題を避けられるよう手助けするつもりだ。
検索エンジン側から見たスパムについてさらに詳しい情報は、
などを読んでほしい。
ページレベルのスパム解析
検索エンジンは、個々のページとWebサイト全体(ドメイン名)についてそれぞれスパム解析を行う。まず、URLレベルで不正操作があるかどうかをエンジンがどのように判定しているかについて見てみよう。
キーワードの使い方
もっともわかりやすくて嘆かわしいスパム手法としては、キーワードスタッフィング(キーワードの詰め込み)がある。ページの中でキーワードの語句を撒き散らすように何度も繰り返し、検索エンジンに対して関連性が高そうに見せかけることだ。
この発想の裏にあるのは、語句が現れる回数を増やせばページの順位を上げられるというものだが、まったくばかげている。さまざまな検索クエリで検索上位のページを大量に調べた結果、キーワードの繰り返し(またはキーワード密度)は検索順位を上げる上で非常に限られた役割しか果たさず、検索結果の1ページめに表示されることとの相関性は全体的に低いらしいことがわかっている。
検索エンジンは明確かつ効果的な方法でこの手口と戦っている。キーワードが詰め込まれたページをふるい分けるのはそれほど難しいことではないし、どの検索エンジンのアルゴリズムもこういった作業を行っている。この手口の詳細と、それに対するグーグルの見方については、ウェブスパムチームの責任者が書いた「SEOのヒント:キーワードスタッフィングはするな」というブログ(参考日本語情報)を読んでみるといい。
不正なリンク構築
とりわけ使用例の多いウェブスパムである「不正なリンク獲得」は、検索エンジンの順位決定アルゴリズムがリンク人気を使用しているのを逆手に取り、外部からのリンクを作為的に増やしてランクを上げようと試みるものだ。
不正なリンク構築はさまざまな形式をとり得るので、検索エンジンにとっては特に対処が困難なスパムでもある。数多くある中から、よく見かけるものをいくつか挙げてみる。
- 相互リンク交換プログラム。互いにリンクを張り合うリンクページを作って、リンク人気を高めようとするもの。これは決まったパターンが現れやすいため、検索エンジンは相互リンク交換プログラムに参加しているサイトを非常にうまく見つけて、評価を引き下げている。相互リンクについてさらに詳しくはこの記事を読んでほしい。
- 「リンクファーム」や「リンクネットワーク」を含む、閉鎖的リンクや自己参照リンク。作為的に人気度を上げるためのリンクソースとすることだけを目的として、見せかけだけのサイトや価値の低いサイトを構築、運営するという手口だ。検索エンジンは、サイト登録の関連性やリンクの重複など、この手口を使っているサイトに共通して見られる要素を発見するさまざまな方法を使って、この手口と戦っている。
- 有料リンク。検索順位を上げたがっている人が、お金と引き替えにリンクを張ってくれるサイトやページからリンクを買うこと。これは時として、リンクの買い手と売り手の大きなネットワークに発展することがある。検索エンジンはこれを阻止しようと努力しているが(特にグーグルは厳しい姿勢で対処してきた)、そうしたネットワークは依然として多くの買い手と売り手に価値を提供している(この点について詳しくは有料リンクについてのこの記事を参照してほしい。グーグルなどの検索エンジンの公式見解はSearch Engine Landのこの記事で説明されている)。
- 質の低いディレクトリリンクは、SEO業界にいる大勢の人間が頻繁に使う不正操作の手口だ。この手の有料登録制のWebディレクトリはたくさんあり、まっとうなサイトになりすましていて、成功の程度もさまざまだ。グーグルはこういうサイトのツールバーページランクをゼロにして(または大きく下げて)頻繁に対処しているけど、すべてのケースについて同じように対策を取っているわけではない。
上記のほかにも、検索エンジンが見つけてきた不正なリンク構築戦略はたくさんある。多くの場合、検索エンジンはそれを見つけたら、その効力を低減させるためのアルゴリズム的な手法を見出している。新たなスパムの仕組み(たとえばAvvoが発見した新しい相互リンク偽装の仕組みとか)が姿を現すにつれて、エンジニアは、それを標的にしたアルゴリズムや人手による調査、ウェブマスターやSEO業者からのスパム報告の収集などで、それに対抗し続けることになる。
クローキング
あらゆる検索エンジンのガイドラインで基本原則になっているのが、検索エンジンのクローラーと通常の訪問者に見せるコンテンツは同じにしなければならない、というものだ。この原則に違反すると、検索エンジンはこれを「クローキング」と呼び、そういうページが自分たちの検索結果に入り込むことを阻止する措置をとる。
クローキングの方法はたくさんあり、その理由も正当なものから不当なものまでさまざまだ。技術的には「クローキング」と見なせるものでも、より良いユーザー経験を提供することが目的ならば、検索エンジンがそれを許容する場合もある。
クローキングおよびその方法と意図によって変わるリスクについては、SEOmozの「こんなにあるクローキングの実態/許されるクローキングと許されないクローキング」という記事を読んでほしい。
「価値の低い」ページ
厳密な意味でこれを「ウェブスパム」とは見なすことはできないが、どの検索エンジンにも、そのページが検索者に独自のコンテンツと「価値」を提供しているかどうか、ページをインデックス化して検索結果に取り入れる前に判断するためのガイドラインと方法がある。
ここではじかれるページの中で特に多いのは、
- アフィリエイトコンテンツ(同じ商品やサービスを宣伝している他の多くのサイトと同じ素材を使用しているページ)
- 重複コンテンツ(すでにインデックス化されている別のページと完全に同じか、非常によく似たコンテンツを持つページ)
- 独自のテキストや価値をほとんど提供しない動的に生成されたページ(同じ商品やサービスを複数の地域を対象として紹介しているのに、各地域向けコンテンツの違いがあまりないページでよく起こる)
などだ。検索エンジンは基本的に、こういうページをインデックス化しない方針を取っていて、コンテンツやリンクを解析するさまざまなアルゴリズムを用いて、「価値の低い」ページが検索結果に表示されないよう排除している。
ドメイン名レベルのスパム解析
検索エンジンは、これまで説明したような個々のページに対するスパム的行為の監視だけでなく、ルートドメイン名やサブドメイン名の全体についても、スパムの目印と考えられる特徴や性質を検出できる。
ドメイン名全体を除外する措置が慎重を要する作業であるのは明らかだが、大規模な対処が必要な場合はこの方法がはるかに実際的だ。
リンク構築の手法
検索エンジンは、個別のページについて行うのと同じように、Webサイトに対して張られているリンク全体の種類と参照元の品質をモニターできる。前述した不正操作を継続的または重大な影響を与えるような方法で行っていることが明らかなサイトは、検索トラフィックの減少を経験することがあるし、インデックスから追い出されることさえある。
過去の記事から実例をいくつか知ることができる。
- ウィジェットで50万リンクを集めたリンクベイト——スパム扱いされる境界線はどこなんだ?
- GoogleがSEO目的のディレクトリにペナルティ——どんなサイトがなぜ罰せられたのか? 対策は?
- グーグルの「サンドボックス」は健在だ――「grader.com」の事例を検証する
- 不動産業者の事例に学ぶ、Googleのペナルティ対処法(フローチャート付き)
などだ(すべて日本語訳)。
信頼度
信頼を築いたWebサイトは往々にして、そうでないサイトと異なる待遇を受けられる。実際、多くのSEO業者が「一流ブランド」や重要度の高いサイトと、比較的新しい独立したWebサイトとの間に存在する「ダブルスタンダード」について論じてきた。
検索エンジンにとって、信用に最も関係がありそうなのは、そのドメイン名が獲得しているリンクだ(詳しくは「Using Trust Rank to Guide Your Link Building」と「How the Link Graph Works」に掲載したビデオを観てほしい)。だから、もし君が質の低い重複コンテンツを自分のブログに公開して、スパム的なディレクトリからリンクをいくつか買うと、検索順位が大きく下がるだろう。ところが、もしも同じ内容をWikipediaのページに投稿し、同じスパム的なリンクをそのURLに張ったなら、かなり好調な順位を維持できるはずだ。これがドメイン名の信用とオーソリティの力というものなんだ。
また、リンクを通じて築いた信用は、検索エンジンが新規ドメイン名を評価したり、サイトの活動を解析したりする際に使用する手だてとしても重要だ。君のサイトがCNNやコーネル大学、LII.org(Librarians' Internet Index)などの知名度も質も高く、編集担当者の手を経たソースからリンクをたくさん獲得していれば、ちょっとぐらい重複コンテンツや怪しいリンクがあっても見逃してもらえる可能性が高くなる。逆に、質の高いリンクをまだ手に入れていなければ、アルゴリズム的にずっと厳しい判定を下されることもある。
コンテンツの価値
ページが独自性や検索ユーザーに提供する体験などの基準から判定されるのと同じように、ドメイン名全体にもこの方針が適用される。独自性がなく、価値のないコンテンツばかりで占められるサイトは、ページ上やページ外で定番の要素を正しく押さえていても、検索上位を獲得できないだろう。
検索エンジンは、Wikipediaの引き写しやアマゾンのアフィリエイトサイトでインデックスが占領されるようなことを絶対に避けるため、アルゴリズムや人手による検討といった手法を実行しているわけだ。
この記事は3回に分けてお届けしている。次回は、自分のサイトがペナルティを受けたかどうかの判別法と、ペナルティを受けた際の対処についてお伝えする。→後編を読む
ソーシャルもやってます!