インターネット広告創世記 ~Googleが与えたインパクトから発展史を読み解く~

検索語句はエロワードだらけ!?「ディレクトリ型」と「ロボット型」の検索エンジン[第3部 - 第18話]

「検索エンジンの開発はコストに見合わない」の常識を覆したGoogleの検索エンジン。検索エンジンの流れを振り返ります。

インターネット広告創世記〜Googleが与えたインパクトから発展史を読み解く~」シリーズ第18話。前回の記事はこちらです。

杓谷

楽天が佐藤さんの所属するInfoseek Japanを買収をした頃、Google日本語版のサービスが始まりました。佐藤さんはGoogleから声がかかり、サンフランシスコ近郊のマウンテンビューにあるGoogle本社を訪問し、2001年10月にGoogle日本法人のセールス&オペレーション・ディレクターとして入社しました。

佐藤

Googleの検索エンジンが当時いかに革新的だったかを読者のみなさまにご理解いただくために、Google以前の検索エンジンの技術と、検索エンジンに関連するインターネット広告がどのようなものであったかを紹介しておきたいと思います。

「ロボット型」と「ディレクトリ型」の検索エンジン

佐藤:第9話でも触れましたが、デジタルガレージがソフトバンクよりも早くYahoo!の日本展開を進めていたものの、結果的にソフトバンクが日本のYahoo!を事業展開することになり、1996年4月にYahoo!JAPANを公開しました。その後、デジタルガレージはロボット型検索エンジン「Infoseek」と業務提携しました。

「ロボット型」の検索エンジン

「ロボット型」の検索エンジンとは、現在のGoogleの検索エンジンと基本的に同じ仕組みです。「クローラー」(Crawler)と呼ばれるロボットがウェブサイトのリンク構造を辿ってインターネット上のありとあらゆるウェブページを巡回して検知し、情報を集めます。その集めた情報を、検索エンジンのデータベースに整理された状態で格納します。

この一連の作業のことを「インデックス化」といい、「クローラー」に「インデックス化」されることで、ウェブページは検索結果に表示できるようになります。つまり、ウェブページが公開されたばかりで「クローラー」がまだ巡回していないと、そのページは検索結果に表示されません。

この「インデックス化」で、HTMLに記述されたテキスト情報などを分析し、ウェブページ単位でコンテンツの内容を理解します。これにより、検索語句に関連するウェブページを適切に検索結果に表示できるのです。

「ディレクトリ型」の検索エンジン

一方で、Yahoo! JAPANはサービス開始時点では、「ディレクトリ型」と呼ばれる仕組みを採用していました。今では考えられないかもしれませんが、当時のYahoo! JAPANには「サーファー」と呼ばれる担当者がいて、手作業でウェブサイトを「ビジネスと経済」「コンピューターとインターネット」などのディレクトリ(≒カテゴリ)に分類していました。

  • ロボット型の検索エンジン: 検索語句に関連するウェブページのリンクを表示する
  • ディレクトリ型の検索エンジン: 検索結果に関連するカテゴリが表示される仕組み

ディレクトリ型の検索エンジンは、「サイト内検索」に近いものだとイメージするとわかりやすいです。

Yahoo! JAPANで「引っ越し」と検索した時の「ディレクトリ型」検索エンジンの検索結果(1997年1月)
出典:Internet Archive

佐藤: 米Yahoo!もYahoo! JAPANも、当時はロボット型の検索エンジンを開発していませんでした。そのため、デジタルガレージとしては、ロボット型検索エンジンを持つInfoseekの方が、Yahoo!より技術的に優れていると考えていたのだと思います。

僕がInfoseekに入社した頃、日本のロボット型検索エンジンには、早稲田大学の「千里眼」、東大の「ODiN」、京大の「RCAAU Mo-n-do-u(問答)」などがありました。これらの検索エンジンを開発していたエンジニアの多くは、その後Googleに移籍しています。

企業が開発したロボット型検索エンジンとしては、第11話で紹介したNTTの「goo」や、東芝の「フレッシュアイ(FreshEYE)」などがありました。「フレッシュアイ」は他のロボット型検索エンジンよりもクローラーの巡回頻度が高く、30分ごとに情報が更新されるため、「フレッシュ(新鮮)」な情報を提供できることを強みとしていました。また、情報量の多さでは、DECの「AltaVista(アルタビスタ)」が圧倒的でした。

東芝の「フレッシュアイ」(FreshEYE)。クローラーの更新頻度が30分おきで情報が新しいことが特長だった
出典:Internet Archive

技術は高度なのにディレクトリ検索に負けてしまうロボット型検索

佐藤:今のようにロボット型検索エンジンが主流になった時代から振り返ると、ディレクトリ型検索よりもロボット型検索の方が優れているように思えます。しかし、当時のロボット型検索エンジンは「第1世代」で、並列処理ができませんでした

そのため、クローラーがウェブサイトを巡回する頻度が低く、情報の更新が1か月に1回というのも珍しくなかったのです。その結果、検索結果に表示される情報が、実際のウェブサイトよりも古くなってしまうという技術的な課題がありました。

たとえば、「トヨタ」と検索したとき、本来ならトヨタ自動車の公式サイトが検索結果の一番上に表示されるべきですが、当時のロボット型検索エンジンではトップに表示されないことがありました。広告代理店からも、

トヨタと検索してもトヨタのサイトが出てこないなんて、おかしい! こんなんじゃ検索結果に広告を出しても売れないよ!

といったクレームがたくさん寄せられました。その点、Yahoo! JAPANのディレクトリ型検索では、人が手作業でカテゴリを整理しているため、確実にトヨタ自動車の公式サイトが上位に表示されます。

ロボット型検索エンジンは「スパム判定精度」にも課題あり

さらに、当時のロボット型検索エンジンは「スパム判定の精度が低い」という問題も抱えていました。たとえば、1999年1月にプロレスラーのジャイアント馬場さんが亡くなったとき、「ジャイアント馬場」と検索すると、検索結果のほとんどがアダルトサイトになってしまったのです。

これは、サイト運営者が「ジャイアント馬場」という文字を背景と同じ色で、隠しテキストを大量に埋め込むことで、検索エンジンに「このサイトはジャイアント馬場関連のページだ」と誤認させていたからです。実際の内容はアダルトサイトにもかかわらず、検索結果の上位に表示されてしまいました。第11話に登場したエンジニアのジョナも、この問題の対応に追われていました。

一方、ディレクトリ型検索では人が直接サイトの内容を確認するため、このような問題は起こりませんでした。技術的にはロボット型検索の方が優れているはずなのに、人海戦術を使うディレクトリ型検索の方が実用性で勝ってしまう、という悔しさがありました。

また、当時はウェブサイトの数自体が今ほど多くなかったことも、ロボット型検索エンジンにとって不利な要因でした。その結果、Infoseekも最終的にはディレクトリを作らざるを得なくなったのです。

編集注:1990年代の日本の主なロボット型検索エンジンをまとめると次の通り。

開始時期サイト名開発者
1994年12月千里眼早稲田大学
1995年11月ODiN東京大学
1996年1月RCAAU Mo-n-do-u京都大学
 10月Infoseekインフォシーク
1997年3月gooNTTグループ
 7月Exciteエキサイト
1998年6月フレッシュアイ東芝
2000年8月Googleグーグル

広告収益を上げるには、魅力的なコンテンツを増やしPVを伸ばす

佐藤: Infoseek時代、広告の収益を高めるにはどうすればいいかを常に考えていました。そのためには、魅力的なコンテンツを増やしてページビューを伸ばすことが重要でした。

「Infoseekが持っているコンテンツとは何か?」と考えたとき、真っ先に思い浮かんだのが検索エンジンにユーザーが入力する検索語句でした。検索エンジンを見れば、今世の中で何が流行っているのかがリアルにわかります。流行の息吹が検索語句に表れてくるわけです

そこで、これをランキング形式にして発信しようと考えました。「今年検索された女優ナンバーワン」などのランキングを作り、勝手にアワードを開催して授賞式をやったらおもしろいんじゃないか、なんてアイデアも出ました。社内ではかなり盛り上がったんですが、結局実現はしませんでした(笑)。

トレンドランキングを企画するも……実際の検索語句はエロワードだらけ!?

実際にInfoseekの検索データを調べてみると、検索数の多い語句を並べたランキングの上位はほとんどがエロ関連ワードだったんです。これには本当に衝撃を受けました。この事実は、意外と知られていないかもしれません。

検索エンジンとは、まるで世の中の営みをすべて映し出す「すごい入れ物」だと実感しました。人々の欲望や関心が、そのまま検索語句に表れるんです。「こんなところにこんな需要があるのか!」と驚くようなワードもたくさんありました。僕はすっかり検索語句の魅力に取り憑かれてしまいましたね。

第6話でも紹介しましたが、伊藤穰一が考察していたインターネットがもたらすであろう社会的な変化として

「情報発信を誰でもできるようになり、個人がエンパワーメントされる」

という一節がありましたが、検索エンジンも個人のエンパワーメントの一環だなと強く思いましたね。

日本人はタイピングしないから検索エンジンは流行らない?

佐藤:インターネットが登場したばかりの頃、よく言われていたのが「日本人はタイピングをしないから、検索エンジンは普及しない。ディレクトリ検索で十分だ」という意見でした。今聞くと極端な主張ですが、当時は一般の人がキーボードでブラインドタッチ(タッチタイピング)できるのかどうか、という懸念が確かにありました。

そこで僕が中心となり、ロボット型検索エンジンを提供する複数の企業に協力してもらい、「検索エンジンの便利さを知ってもらう」イベントを秋葉原で開催しました。

イベントでは、各社の検索エンジンの代表者が集まり、「7月の花火大会」などのテーマを設定し、どの検索エンジンが最も関連性の高いウェブサイトを表示できるかを競い合う企画を実施しました。

実は、「7月の花火大会」といった検索語句は、情報のニーズがかなり限定されているため、Yahoo! JAPANのようなディレクトリ型検索ではうまく対応できないことがありました。検索エンジンの優位性を示すには、こうした具体的な事例が有効だったのです。

1998年7月に行われた「Internet Show in 秋葉原」に佐藤さんが出演したセッションが紹介されている
出典:PC Watch『98 Internet Show in AKIHABARA』

佐藤:第6話で紹介した通り、日本でインターネットの商用利用は1993年11月に解禁されました。イベント開催した1998年頃、インターネット利用者はまだ検索エンジンそのものに馴染みがなく、検索の仕方を啓蒙する必要がありました。また1997年頃には、アスキーが制作していた深夜のパソコン関連番組では、検索エンジンの特集が組まれ、実際の検索デモが紹介されることもありました。

検索エンジンの開発は儲からない

佐藤: 2001年、私はInfoseekを辞めてGoogleへ転職するとき、かつての同僚ジョナを誘いました。しかし彼は「検索エンジンは儲からないから」と断りました。彼はInfoseekでの経験から、検索エンジンの開発がいかに大変かを身をもって知っていたのです。

Infoseekは1997年5月から「Ultraseek日本語版」という検索エンジンサービスを提供していました。これを支えていたのが、Sun Microsystemsの「Ultra Enterprise 3000」という高性能サーバーです。通常、約1000万円もする高価な機器でしたが、Infoseekは同社から出資を受けていたため利用できたのです。

1996 年の Sun Mircosystems Ultra Server Enterprise 3000 システムのパンフレット
出典:Internet Archive

「Ultraseek日本語版」は、それまでの検索エンジンとは比べ物にならないほど優れており、毎日のように情報が更新され、扱える情報量も格段に増えました。その結果、利用者も急増し、ページビューは一気に100万PV/日を超えました。この技術を開発したのが、ジョナと同僚だったスーパーエンジニアのテッド・クロスマン。彼は「ウルトラの父」とも呼ばれるほどの存在でした。

1997年9月号の『月刊サンワールド』に掲載された「Ultra Enterprise 3000」。よく見るとサーバーの名前に因んでウルトラマンの人形が置かれている(佐藤さん所蔵)
「Ultra Enterprise 3000」を使って飛躍的に向上したInfoseekの検索エンジンの処理能力
出典:1997年9月号の『月刊サンワールド』(佐藤さん所蔵)

佐藤: 検索エンジンの規模が拡大するにつれ、クローリングするウェブページの数も増え、必要なサーバー台数もどんどん増えていきました。僕の誘いを断ったジョナの「検索エンジンの開発はコストに見合わない」という考え方は、エンジニアにとってごく一般的なものでした。実際2001年には、米Infoseek本社も検索エンジン開発の停止を決定しています。

しかし、Googleの登場によって、この当時のエンジニアの常識は覆されることになるのです。

リンク構造を加味した「Page Rank」で精度が飛躍的に向上

佐藤: Googleは1998年9月、スタンフォード大学の博士課程に在籍していたラリー・ペイジとサーゲイ・ブリン(※日本語ではセルゲイ・ブリンと表記されることもあるが、本人は英語読みでサーゲイと呼ばれている)の二人によって設立されました。

2003年に撮影されたGoogle創業者のラリー・ペイジ(左)とサーゲイ・ブリン(右)
出典:Google page brin.jpg is under is under CC BY-2.0

Googleの検索エンジンは、Infoseekとは異なるアプローチを採用しました。一般的なパソコンに使われるCPUを大量に並列処理させることで、高価な専用サーバーを使わずに高性能な検索を実現したのです。この方式により、低コストでの運用が可能になりました。さらに、複数のクローラーを同時に動かせるため、情報の更新頻度が高くなり、検索結果に最新の情報を反映できるようになりました。

コンピューターヒストリーミュージアムに保管されたGoogleの初代サーバーラック
Google's First Production Server (1999) rack - Computer History Museum is under CC BY-SA 2.0

佐藤:当時の一般的なロボット型検索エンジンは、検索語句とウェブページの内容の関連性を数値化し、検索結果の順位を決めていました。言葉の意味を解析して、どれだけ一致しているかを評価する方法です。

ところが、Googleは学術論文の参考文献の構造に着想を得て、被リンク数を考慮する「PageRank(ページランク)」というアルゴリズムを開発しました。これは、多くの論文に参照される論文が優れたものと見なされるのと同じように、多くのウェブサイトにリンクされているサイトは信頼性が高いと判断する仕組みです。この手法により、検索結果に表示されるサイトの関連性が飛躍的に向上しました。

なお、「PageRank」の「Page」は「ウェブページ(Web Page)」の意味と、開発者であり創業者でもある「ラリー・ペイジ(Larry Page)」の名前をかけたものです。

Infoseekで検索エンジンの開発に関わっていた私にとっても、Googleの検索技術の高さには驚かされました。

次回は4/10(木)公開予定(毎週木曜日更新)です。

◇◇◇

※この連載では、記事に登場する出来事を補強する情報の提供を募っています。フォームはこちら。この記事に触発されて「そういえばこんな出来事があったよ」「このテーマにも触れるといいよ」などご意見ご要望ございましたらコメントをいただけますと幸いです。なお、すべてのコメントに返信できるわけではないことと、記事への反映を確約するものではないことをあらかじめご理解いただけますと幸いです。

用語集
HTML / PV / PageRank / インデックス / クローラー / セッション / ディレクトリ / ページビュー / ページランク / リンク / ロボット / 広告代理店 / 検索エンジン / 被リンク / 訪問
この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

Ruby
Rubyは、まつもとゆきひろにより開発されたオブジェクト指向スクリプト言語。We ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]