2007年6月15日金曜日

Webアクセスログとその利活用

1.はじめに

SEO/SEM、検索ワードを解析することによるトレンド分析などの観点からWebページ閲覧情報に注目が集まっている。Webページの閲覧情報であるWebアクセスログから人々の行動パターンや傾向を抽出することは重要であり、現在までにリコメンテーションシステムやショッピングサイトにおける購買促進など数多くの研究が行われている。ここでは最近のWebアクセスログの研究事例やアクセスログの動向について述べる。

2.アクセスログに関する研究事例

2.1 ユーザやWebページのクラスタリングに関する研究

アクセスログから類似するユーザの行動パターンを発見し、ユーザのグループ化やユーザのパーソナライゼーションを行う研究は購買促進や新規顧客の獲得など、ビジネスに結びつくため現在までに様々な研究が行われている。また、ユーザが訪れたページの閲覧情報を元に、Webページやページで売られている商品のクラスタリングを行う研究も行われている。[Eirinaki 03]では、パーソナライゼーションについて詳細な説明や各ツールの比較などを行っている。[Murata 04]ではWeb視聴率調査データからユーザとそのユーザが閲覧したWebページのURL中のterm情報からユーザのグループ化を行う手法について述べている。

2.2 検索語のクラスタリングに関する研究

検索エンジンやポータルサイトのアクセスログの解析からユーザが入力した検索ごと閲覧されたWebページの組み合わせを大量に得ることが可能なため、これを用いて検索語のクラスタリングを行うことが可能である。最近ではGoogleサジェスト、gooサジェストなどの新しいサービスが提供され始めた。[Beeferman 00]ではLycosの一日分のアクセスデータ(50万レコード)から、検索語とその直後に閲覧されたWebページの組み合わせを元に2部グラフを作成し、これを用いて検索語のクラスタリングを行う手法を提案している。[大久保 98]では検索ログを用いて、例えば「桜と花見」のようなある一定の期間では関連語となる検索語の発見から、ユーザの情報ニーズを抽出する方法について述べている。ユーザの検索要求が時間とともに変遷する例として、桜の花が咲く前の期間では「桜」は「桜前線や開花」など桜の咲き始める時期との関連が強いのに対して、桜の開花後は桜の名所との関連が強いという結果を示している。またユーザが閲覧したWebページのテキスト情報から形態素解析を用いて名詞を取り出し、これをもとに関連語の抽出を行う手法なども提案されている。

2・3 ユーザの行動パターン抽出に関する研究

Webページを数多く保持しているサイトのアクセスログやWeb視聴率調査データを用いて、ユーザの行動パターンを抽出する試みが行われている。例えばWeb視聴率調査データを用いてユーザの大域的な行動を抽出する研究が行われている[大塚 03、Otsuka04]。これでは「チャイルドシート」と検索した人が一体どのWebコミュニティを徘徊することになるのかという事を調べていて、最初にベンダーコミュニティーを訪れた人はショッピングサイトやオークションサイトのコミュニティーに多く訪れ、最初に行政コミュニティーに訪れた人は安心を求める目的から「自動車事故対策センターを含む」コミュニティーや「JAF(日本自動車連盟)」を含むコミュニティなどを多く訪れているなどの傾向がわかる。

2.4 その他の研究

その他にもアクセスログから学生に教材を推薦するシステム、Webページ間の相関を発見するツールなどが提案されている。

3. Webアクセスログの動向

3.1 Web視聴率データ

様々な企業の提携やサービス終了等で2006年4月現在の日本におけるWeb視聴率調査データは1つのみである。

3.2 Web視聴率調査データ抽出方法

調査方法

  1. 協力世帯のパソコンに「調査用ソフトウェア」をインストール
  2. ユーザがWebサーバにリクエスト(URL入力/リンク/ブックマークなど)
  3. WebサーバからユーザのPCにWebページが転送される
  4. クライアント側の調査用ソフトが視聴データ(URL、時刻など)を記録、集計センタへ送信
  5. 集計センタでそれらをデータベース化し、集計分析用として提供

このように収集されたログからは使用者を特定するID,Webページにアクセスした時刻、アクセスしたWebページのURLなどがわかる。

3.3 Alexa

Amazon.comの子会社であるAlexa Internet社はWebサイトごとにトラフィック情報を公開している。このサイトでは、

  • 指定したサイトの閲覧率(100万人のうちどのくらい人が閲覧したか?)
  • 指定したサイトを閲覧したユーザの平均閲覧ページ数。
  • 指定したサイトの世界的なトラフィックランキング

などがわかる。これはAlexaツールバーをダウンロードした人から情報を集めている。

3.4 The Internet Traffic Archive

Web視聴率データは一般に高価であり、誰でも簡単に利用できるデータではないし、Alexaの統計データの詳細は公表されていないため、WEbアクセスログの研究に用いることは難しい。そこで、一般に公開されているWebアクセスログデータであるThe Internet Traffic Archiveについて説明する。これはNASAなどのトラフィックやページ数が多いWebサーバのアクセスログや、大学のコンピュータを利用している学生や教職員のWebページ閲覧情報が公開されている。

4. 終わりに

今後は広告の効率的な配信やマーケティング戦略などアクセスログに対するより高度な解析手法が望まれる。また行政サービスなどの公的機関でも電子化がすすんでおり、アクセスログを用いて悪意を持ったユーザの事前特定を行う研究など今後はさらにアクセスログの解析技術に対するニーズが高まると予想される。

参考 人工知能学会誌 21巻4号

0 件のコメント: