アクセス解析ツール3つのタイプ - ログ型/ビーコン(タグ)型/パケットキャプチャ型(第2回)
今回はまず、アクセス解析ツールの仕組みについて示したい。主に3つある測定方式の基本的な動作の仕方を理解しよう。測定方式に応じたデータの違いやコストの違いなど、より実際の運用に即した各測定方式の特徴については、次回詳しく説明する予定である。
3つの測定方式について
アクセス解析を行うためには、アクセス解析ツールを導入しなければならない。しかし、アクセス解析でどんなことをしたいかという要件は、「解析ツール自体の機能」ではなく、「測定方式の違い」によっても左右されることがある。そのため、解析ツールを導入する前に、現在大きく3種類あるアクセス解析の仕組みのそれぞれについて熟知することが、まず必要だ。
アクセス解析ツールの測定方式は時代とともに変遷してきた。まず、一番古くからあるのが、Webサーバーのログを解析する「サーバーログ取得型」だ。それから、HTMLファイルにJavaScriptのタグを記述する「Webビーコン型(タグ型)」、最後の1つが「パケットキャプチャリング型」である。しかし、必ずしも新しい方が優れているというものではなく、解析の要件によってどの測定方式が良いかが決まる。この点を踏まえた上で、説明を始めたい。
サーバーログ取得型
「サーバーログ取得型」は、「Webサーバーに記録されたアクセスログファイルをもとに解析を行う」方式である。図示すると、以下のようになる。
- ユーザーは、Webサーバーに対してページ表示のリクエストを行う
- リクエストを受けて、Webサーバーはページ内容をユーザーに送信する
- このユーザーのリクエストが、Webサーバーに「アクセスログファイル」として記録される
- 解析マシンが、一定の更新頻度でアクセスログを取り込み、解析を行う
- 解析結果は、基本的にはブラウザなどに表示される
この図では、理解しやすいようにWebサーバーを1台で示しているが、最近は冗長化して複数のサーバーを立てる場合も多い。その場合は、もちろんすべてのサーバーのログファイルを集める必要がある。
サーバーのログ形式は、記録するデータの多寡によって標準(コモン)ログ形式や結合(コンバインド)ログ形式などいくつかあるが、いずれにしても「リファラ」(参照元URL)と「ユーザーエージェント」(ブラウザの種類とバージョン、使用OSなど)が記録されていないと、アクセス解析には大きな障害となる。そのため、これらの情報がログに付加される設定にしておこう。
最近はインターネットのトラフィックが増大し、解析するログの容量も増えてきた。そのため、更新頻度は1日1回とする場合がほとんどである。それ以上になると、解析マシンのスペックを圧迫してしまう可能性が高くなるので注意しよう。
Webビーコン型(タグ型)
続いて紹介するのが、「Webビーコン型」である。これは、「htmlに記述したJavaScriptのタグが動作して、アクセスされたデータを解析マシンに送信し、解析する」方式である。図示すると、以下のようになる。Google AnalyticsはこのWebビーコン型である。
- ユーザーは、Webサーバーに対してページ表示のリクエストを行う
- リクエストを受けて、Webサーバーはページ内容をユーザーに送信する
- ページが表示されると、あらかじめページに書き込んでいたJavaScriptのコードが作動し、アクセスのデータをASP、または自社で構築した解析マシンに送信する
- ASP、または自社で構築した解析マシンにアクセスデータは蓄積され、解析される
- 解析結果は、基本的にはブラウザなどに表示される
Webビーコン型の場合、解析を行いたい全部のドメインの全ページにJavaScriptのタグを実装する必要がある。タグの入れ忘れできちんと解析できていないことは案外多いので、おかしいなと思ったら、まずはタグが入っているかどうかを確かめてみよう。
データの更新頻度は、解析ツールによって異なる。更新の早いツールだと数分という単位で更新されるが、最長でも1日で更新される。
パケットキャプチャリング型
最後に紹介するのが、「パケットキャプチャリング型」である。これは、「Webサーバーに流れるトラフィックを監視し、その状況を解析マシンに送信し、解析する」方式である。RTmetrics(アール・ティー・メトリクス)という解析ツールはこの形式だ。仕組みを図示すると、以下のようになる。
- ユーザーは、Webサーバーに対してページ表示のリクエストを行う
- リクエストを受けて、Webサーバーはページ内容をユーザーに送信する
- このやり取りで流れるトラフィックをパケットキャプチャという装置で読み取る。そのデータを解析マシンに取り込む。
- 解析マシンでデータが解析される。
- 解析結果は、ブラウザなどで表示される
パケットキャプチャリング型では、直接Webサーバーのトラフィックを測定するため、ホスティングやハウジングでサーバーを管理している場合は、導入が難しい。ホスティングサービス運営会社が一括してパケットキャプチャリング型のアクセス解析ツールを導入しているといった場合を除き、基本的には、Webサーバーが自社内で管理できる環境にあるときしか導入できない。
パケットキャプチャリング型の売りは、Webサーバーに流れるトラフィックを直接測定して解析するため、リアルタイムでの解析ができるという点だが、トラフィックの量や解析マシンのスペック次第では、もう少し長いスパンでの更新とすることもできる。
以上の3つが主なアクセス解析のツールである。今回は基本的な仕組み述べたが、仕組みを理解しただけでは、解析結果や運用にどのような影響を与えるのか、なかなか想像ができにくいだろう。しかし、それぞれの仕組みがアクセス解析環境の運用に及ぼす影響は思っているよりも大きく、それぞれの場合に注意すべき事項は大きく異なるのである。次回は、こうした点についてもう少し詳しく説明する予定だ。
ソーシャルもやってます!