Googleブック検索の仕組みを徹底解剖 | SEO Japan

SEO Japan - 2011年9月3日(土) 13:05
このページは、外部サイト SEO Japan の情報をRSSフィード経由で取得して表示しているため、記事の一部分しか表示されていなかったり、画像などが正しく表示されなかったり、オリジナル記事が意図したデザインと異なっていたりする場合があります。
完全な状態のオリジナル記事は 「Googleブック検索の仕組みを徹底解剖」 からご覧ください。
日本では著作権の問題やら出版社の抵抗で普及が遅れている電子書籍ですが、英語圏では既にAmazonでも通常の書籍より電子書籍の方が売れているなど電子書籍が既に相当普及しています。Googleも負けじとなかりにブック検索を皮切りに電子書籍市場に本格参戦しようとしているようですが、さてリンクのない書籍の世界でGoogleはどのようなアルゴリズムでブック検索に挑むつもりなのでしょうか?SEO by the Seaが電子書籍検索の最先端を探ります。 — SEO Japan ウェブページとは異なり、グーグルがインデックスを行い、ページランクを計算するためのリンクは本には存在しない。リンク先のページに関するメタデータのような役割を果たすアンカーテキストもない。本は、ウェブページのように独自のタイトルの要素、メタデスクリプション、そして、見出しを持つそれぞれ独立した存在のページには分類されない。また、本には、ウェブサイトには存在する、検索エンジンが本の様々なセクションを理解し、分類するためのページやセクションに対するファイル名やフォルダ名を持つ内部リンクの構造も存在しない。 本日グーグルに付与された特許は、ユーザーが検索する本のコンテンツをインデックスするために用いるであろう幾つかのメソッドを紹介している。単純なテキストベースのマッチングを行い、本で言及されている特定の一節を見つけるのはそれほど難しいことではないだろう。タイトルやテキスト内に用語やフレーズを含む全ての書籍、または特定の作家によって綴られた書籍を探し出すのもまたさほど難しくはない。しかし、どのように格付けするのだろうか?どのようにアイテムを掲載する準備を判断するのだろうか? 2010年7月25日に申請された本のクエリとは関係ないエンティティの重要度に関する特許がグーグルに本日付与された。この特許の考案者は、David Petrou氏、Chiu-Ki Chan氏、Daniel Loreto氏、Jeffrey C. Reynar氏、そして、Nikola Jevtic氏である。 グーグルによる本のインデックスは、エンティティ、または特定の人物、場所、日時、出来事、そして、本で言及されている事柄に関する情報を探し、収集する役目を持つ。 重要度のスコアが以下のような要素の数に応じて、それぞれのエンティティに対して生成されると考えられる: 1. 特定のエンティティに関する情報がどれほど本に含まれているのか、そして、それはどこか この特許は、本の異なるセクションのエンティティの登場が、以下のような場所へのエンティティの掲載を含む、各エンティティが持つ重要度に影響を与えると指摘している: 表紙および裏表紙 仕掛け 著作権ページ 目次 序章またはあとがき 索引 出典 章の見出し 章 章の特別なページ(章の1文目等) 特殊なページ(ほとんどテキストがないページ等) この特許は、どの場所がより重要度が高いか(第一章の初めの文の中で言及されると重要度が非常に高い等)、そして、どの場所がより重要度が低いか(著作権の通知文の中で言及されると重要度が低いと見なされる等)に関するヒントを幾つか提供している。 2. 特定の書籍および特定のエンティティの言及を指摘する第三者の参照情報があるかどうか このタイプの参照情報の例を挙げていく: 本のレビュー 「この本について」の情報 引用 学術的な引用 WWWの参照 このタイプの参照が別の場所で頻繁に行われている場合、より重要度が高い可能性がある。特許の中では次のように説明されている: 例えば、学術記事が特定の書籍の章を引用しており、その記事が引用された章で、あるエンティティにも触れている場合、参照モジュールは当該のエンティティの重要度を上げるだろう。 実施形態の一つでは、参照モジュールによって検討された第三者の参照情報は、書籍のコンテクストモジュールによって検討された書籍内の参照情報よりも、重要度に大きな影響を与えると説明されている。第三者の参照情報はより完全性が高いと見られ、そのため、書籍内のセクションまたはエンティティの重要度のシグナルとしてより優れていると考えられる。 3. エンティティを含む本のセクションがその他の本のセクションよりも多くアクセスされているかどうか オンラインで本の検索を行い、様々な部分にアクセスする場合、ユーザーは何を見ているのだろうか?別の部分よりもより多くの人々に訪問されるセクションはあるのだろうか?あるとしたら、それはどんなセクションだろうか? 4. 他の本で言及される頻度と比べた場合、エンティティはどの程度その本で言及されているのか 例えば、その他の本よりも多くニューヨークシティーに言及する本は、エンティティ「ニューヨークシティー」において重要度のスコアが高いと考えられる。 その他のランキングの判断材料 この特許は、地図上で場所の情報を表示する、または時系列で出来事の情報を表示する、またはテキストや表で人物の情報を表示する等、この類の情報が提示される異なる方法を幾つか描いている。 検索エンジンは、インデックスする本のメタデータにも注目する可能性がある。メタデータは、作家名、出版社、出版された年、ページ数、版、デューイ十進分類法、米国議会図書館分類、ISBN番号等で構成されることが多い。 他にも検索エンジンは、本の販売数や売り上げランキングの位置等のクエリとは関係のない情報を参考にする可能性がある。 クエリに対する本の総体的なランキングは、クエリとは関係のないスコア、そして、本の中の用語とマッチするクエリ内の用語の数、同義語のマッチング等のクエリをベースとしたスコア、そして、その他の情報検索の手法を用いていると考えられている。 [...]
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

CMS
Web コンテンツの構成要素とサイト上での表示を一元的に管理するためのソフトウエ ...→用語集へ

連載/特集コーナーから探す

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]