V 重複コンテンツの具体例(続き)
これまで紹介してきた例は、すべて完全重複だった。ここからは「不完全」重複の例をいくつか紹介してみたいと思う。少しばかり曖昧な概念だからだ。
よくある例は、サイト内検索に起因するものだ。サイト内検索はさまざまな形の不完全重複を生む原因となっているが、中でもよく見かけるのは、検索結果の並べ替え、検索フィルタ、検索結果のページネーション(ページ分割)だ。
Ⅴ-11 検索結果のソート(並べ替え)
並べ替え(昇順/降順)によってURLが異なれば、必ずそれによる重複が生じる。2つのソート結果は、厳密には別のページだが、検索インデックスには何の付加価値も与えない。まったく同じ中身で順番が異なるだけだ。URLはこんな風になるだろう。
たいていの場合、ソートした検索結果を完全にブロックしてしまうのがベストだ。普通は、ソート用のパラメータ付きで呼び出されたページにmeta robotsタグ(IV-4)を追加してnoindexを指定してやればいい。うまく行かない場合は、ウェブマスターツール(IV-7)とBing Webmaster Center(IV-9)でソート用のパラメータをブロックしてもいいだろう。
Ⅴ-12 検索フィルタ
検索フィルタは、サイト内検索の結果を価格、色、特長などで絞り込むために使われる。多種多様な商品を販売する通販サイトではごく普通に見かける機能だ。
多くの場合、検索フィルタのURLは検索結果をソートする場合と非常によく似ている。
ここでの解決方法はフィルタ付きのページをインデックスさせないことで、これはⅤ-11と同じようなものだ。製品ページに到達するための明確な経路をグーグルが知っているのであれば、そこにたどり着くためのURLのバリエーションをすべてインデックスすることは、メリットよりもデメリットをもたらす場合が多い。
Ⅴ-13 検索結果のページネーション(ページ分割)
ページネーションは、説明は簡単だが、解決が極めて難しい問題だ。サイト内検索結果を複数ページに分割すると、必ずページ分割されたコンテンツを持つことになる。URLは、見ればすぐにわかる。
当然ながら、数百件を超える検索結果があれば、1回の検索で何十もの不完全重複コンテンツが生じ得る。検索結果そのものは異なるが、ページの重要な特徴(title要素、meta descriptionタグ、見出し要素、文章、テンプレートなど)は多くがまったく同じだ。これに加えて、グーグルは、グーグル検索の検索結果ページに他のサイトの検索結果ページが表示されることをあまり好まない(検索結果からサイト内検索結果へ飛ばしたがらない)という問題もある。
グーグルは以前、ページネーション問題の解決を自分たちに任せてくれと言っていたが、問題はそれがうまく行っていないことだ。そこで、グーグルは最近、「rel="next"」と「rel="prev"」(IV-10)を導入した。当初のデータを見るとこの2つのタグは効果があるようだが、僕らの手元には十分なデータがないし、これらのタグは実装が難しい。また、Bingは今のところ未対応だ。
他に3つの実行可能な選択肢がある(と思う)が、どの程度有効か、またどういう場合に有効かは、多分に状況次第だ。
検索結果の2ページ目以降はmeta robotsタグで「noindex,follow」を指定する。こうすることで、グーグルにページ分割したコンテンツをクロールさせつつ、インデックス化されることを防ぐ。
すべての検索結果にリンクする「すべて表示」ページを1つのURLで作成し、グーグルに検出してもらう。グーグルはこういうやり方も好むようだ。
「すべて表示」ページを作成し、ページ分割された検索結果ではURL正規化タグ(rel="canonical")でこの「すべて表示」ページを正規のURLに指定する。この方法は裏ワザとして支持を集めているが、分割された検索結果ページは従来的な意味で重複しているわけではないため、この方法は「rel="canonical"」の本来の意図に反すると主張する人もいる。
この間、アダム・オーデット氏がSEOにおけるページネーション問題の解決を詳細に論じていたが、これはお勧めだ。SEOにおけるページネーション問題は非常に難しいトピックであり、今回の記事だけでは語り尽くせない。
Ⅴ-14 製品のバリエーション
製品バリエーションのページは、メインの製品ページから枝分かれしたもので、仕様やオプションが1つだけ異なるといったページだ。たとえば、製品の色ごとにページがある場合、以下のようになる。
検索結果で表示されることを期待して、色違いのページを全部インデックス化させたくなるかもしれないが、たいていの場合はメリットよりデメリットのほうが大きいと思う。製品のバリエーションが少ししかなくて数十ページ程度の話なら、それでも構わない。だが、数百や数千もの製品バリエーションがある場合、1つにまとめるのがベストだ。
これらのページは、厳密に言えば完全重複ではないが、URL正規化タグ(rel="canonical")(IV-5)でメインの製品ページを正規のURLとして指定するのがいいと思う。
なお、この例では、ある問題を明らかにするために、「静的」URLを意図的に使っている。URLにパラメータが含まれないからといって、重複コンテンツ問題を免れられるわけではない、ということだ。(パラメータを含まない)静的URLの方がすっきりして見えるかもしれないが、重複コンテンツの生じやすさという点では動的URLと大差ない。
Ⅴ-15 キーワードとなる地名を書き換えただけのページ
「ローカルSEO」と言えば、かつてはサイトの全ページを数百単位でコピーし、URLに都市名を付け加えて、文章中の都市を書き換えるだけだった。こんなやり方で使われたのは、次のようなURLだ。
2011年の時点において、ローカルSEOが格段に洗練されただけでなく、このようなページは、ほとんどの場合不完全重複みたいなものだと見なされるようになっている。
検索上位に表示される見込みがあるのは、各地域用にきちんと手間暇をかけて真っ当に作った独自コンテンツだ。そうした労力を惜しむのなら、地域別ページなど作らない方がいい。手抜きの地域ページはたぶん逆効果になるだろう。
Ⅴ-16 その他の「薄い」コンテンツ
具体例は示せないが、コンテンツを説明する際によく使われる「薄い」という用語についてきちんと説明しておきたい。
薄いコンテンツという言葉が表す意味はさまざまだが、その実例の多くはさっきのⅤ-14やⅤ-15で説明したような不完全重複だと思われる。コンテンツがごく一部しか違わないページを複数持つことは、グーグルにそれらのページは価値が低いと見なされるリスクを負うことになる。
さらに、そうしたページに大量の広告が掲載されている場合(しかも独自コンテンツよりも広告の方が多いならば)、リスクはさらに高まる。サイトに薄いコンテンツが多すぎるなら、コンテンツ戦略の再検討をすべき時期だろう。
Ⅴ-17 配信されたコンテンツ
ここから説明するⅤ-17~Ⅴ-19の3つの例は、すべてドメイン名間重複に関係している。ここではURLはあまり問題ではない。多種多様なURLが考えられるはずだ。
Ⅴ-17とⅤ-18の例は、意図が異なるだけだ。配信されたコンテンツとは、別のサイトからの許可を得て使用するあらゆるコンテンツを指す。そうしたコンテンツは、どんな方法で取得し統合したものであれ、別のサイト(しかもしばしば多数のサイト)でも公開されているものだ。
配信されたコンテンツの掲載は正当な手法だが、やはり1つかそれ以上の複製ページが検索結果から除外される可能性はある。
対処法としては運を天に任せて何もしない(IV-13)という作戦もあるが、伝統的なSEOの知恵によれば、オリジナルのソースにリンクバックした上で、おそらくドメイン名間のURL正規化タグ(IV-5)を指定すべきだ。ドメイン名間のURL正規化タグは、通常のURL正規化タグとまったく同じに見えるが、よそのドメイン名を参照する点が異なる。
もちろん、ドメイン名間のURL正規化タグを使うことは、グーグルがこのタグを尊重することを前提とするなら、自分のサイトにあるページはインデックス化されず、検索結果にも表示されないことを意味する。訪問者にとって価値があるということでそのコンテンツを利用しているわけだから、それで構わない場合もある。ただし、実際には、配信されたコンテンツをどの程度利用しているかによって変わると思う。
自分が提供するコンテンツを補強するために配信されたコンテンツを利用する場合もあるだろう。独自の素材もたくさんあるという場合は、リンクバックしてそのままにしておけばいい。とはいえ、自分のサイトの大部分を配信されたコンテンツが占めている場合は、厄介なことになるかもしれない。こういう場合、URL正規化タグ(IV-5)を使うと残念なことにそのコンテンツの順位獲得能力が失われることになる。とはいえ、その代わりにペナルティを免れるし、パンダ・アップデート関連の問題が発生しなくなるだろう。
Ⅴ-18 剽窃コンテンツ
剽窃コンテンツは、配信されたコンテンツに似ているが、転載の許可を得なかった(しかも法を犯している可能性さえあるある)点が異なる。最善の解決策は、「違法行為はやめろ!」ということだ。
真面目な話、勝手に他人のコンテンツを転載しているような連中は、真っ当な解決法なんかでは満足しないだろう。大半の解決方法がそのコンテンツを検索順位争いから弾き出すものだからだ。できることと言えば、無断複製したコンテンツを自分の独自コンテンツで可能な限りかさ上げするくらいのものだろう。
Ⅴ-19 ccTLD間の重複
最後に、前述のⅤ-10の例に関連するが、異なる国をターゲットとして同一言語のコンテンツを複製する場合、トップレベルドメイン(TLD)を別々にしたとしても、問題にぶつかる可能性がある。
幸いなことに、この問題はごくまれにしか発生しないが、英語コンテンツ、さらには一部の欧州言語コンテンツでも確認されている。たとえば「オランダとベルギーの2つのドメイン名上にあるオランダ語コンテンツが適切な検索順位を得られない」という質問をよく見かける。
残念ながら、この問題には簡単な答えがなく、解決策の多くが従来の重複コンテンツ対策とは異なる。多くの場合、ターゲティングを左右する要素に手を加えて、そのドメイン名が当該国に結び付いていることをグーグルにはっきりと示す必要がある。
重複コンテンツの具体例を整理して解説した。4回シリーズの最終回となる次回は、正規のURLを決定する上で注意すべき点と、重複を診断するツール類について説明する。
ソーシャルもやってます!