2007年6月18日月曜日

blogマイニング ーインターネット上のトレンド、意見分析を目指してー

1.はじめに

ブログは通常のWebページとは異なり、速報性、リアルタイム性のある新鮮な情報が発信されることから、掲示板同様有用な情報源と考えられるようになってきている。このblogを大量に収集し、収集したblog集合を様々な手法で分析することで一般の人々の「生の声」をうまく抽出することに現在関心が集まっている。

2.blogとは?

blogの情報源としての特徴の第一は、時系列情報を伴った膨大なテキスト集合であるという点であろう。いうまでもなく、内容を書いた日付(時刻)がメタデータとして付与されているテキストはこれまでで希少であり、そのため経年変化などの動向調査を行う素材としては非常に興味深いということができる。また上述したように、blogの書き手が一般の個人であり、その内容から一般の人々が何をし、何を思っているかを抽出できる可能性があることがblogを情報源として魅力的にしている第二の理由といえる。さらにblogの場合、トラックバックなど付加的な機能により、人と人の間のつながりに関する情報を入手しやすいという特徴もあり、後述するコミュニティ抽出などのように個人間のつながりに関する分析に向いているという特徴もある。

3.blogマイニング

       -blogから社会の何が見えてくるのか-

blogを対象にした分析にはどのようなものが考えられるだろうか。現状ではblogマイニングと呼ぶことができる分析技術は以下のようなものである。

  • Authority分析
  • トレンド分析
  • 評判分析
  • コミュニティ抽出
  • blogの書き手の属性推定
  • 実世界の動向(例えば、株価、売り上げ)との相関分析
  • spam filtering
  • 自動要約
  • 情報の重要性、信頼性評価
  • blogのエントリの自動分類、トピック同定
  • マスメディア(例えば、新聞記事)とblogの自動対応付け

4.blog検索 ーblogによるランキング手法

blogのみに的を絞った検索エンジンとしては、例えば、未来検索livedoor,Yahoo!ブログ検索などがあるが、これらは人手による収集、あるいはpingサーバからblogサイトの情報を得て、RSSを利用することでblogを収集する検索システムである。ブログ特有のランキング付けとして、日付順、更新間隔が短いもの順などを利用することが考えられる。

5. blogにおけるトレンド分析ーいつどんな話題が盛り上がっているのか?

ある程度の規模のblogページを利用することが可能な場合、それらのページの中で、あるキーワードの出現頻度がどのように推移するかを計ることで、そのキーワードが「いつ」、「どの程度」注目されていたのかを知ることが可能である。出現頻度のみを注目度の指標にするだけではキーワードごとの総出現頻度の差を受けるといった問題がある。(つまり人気キーワードと人気キーワードではないが最近注目されているキーワードの総出現頻度が同じである時、それらを同等に扱うのは間違いであり、最近注目されているキーワードをもっと優遇すべきということ)そこで筆者らはキーワードの出現間隔が狭くなってきている状態(バースト)を発見することによって、キーワードが注目されていると考えられる期間を検出している。

6.評判分析ー人々の意見を収集、分析する

blogが個人の発信するメディアであることから、現状評判分析がblogマイニングで最も関心をもたれている技術といってよいだろう。評判分析では、blog中の、ある対象に対する個人の肯定的あるいは否定的意見を抽出、表示することが目的となる。blogWatcherでは、ある対象に関する評判情報を検索することができる。実際にキーワードとしてipodと入力すると、評価表現が肯定的な評価か、否定的な評価かなどが自動的に判定されグラフにより傾向を掴むことができる。評判分析手法は、テキスト中の肯定的・否定的意見箇所を抽出する手法、それらの箇所がどの対象に対する意見であるかを同定する手法、それらの箇所がどの対象に対する意見であるかを同定する手法、の大きく2つの要素技術に分けることができる。

7. blog空間におけるコミュニティ抽出

blog空間におけるリンク構造を解析しblogのコミュニティを抽出しようという試みが多数見られる。またコミュニティが時間経過とともにどのように変化していくかを分析する手法なども研究されている。

8. その他のblogマイニング技術

8.1 blogの書き手の属性推定

blogの書き手の属性が推定できると、例えば属性による分類ごとに分析結果を示したり、また、居住地域を特定できれば、その居住地域に関して記述されている内容は、「地元」の人の記述として遠方の人のものより信頼性を与えられる可能性もでてくる。書き手の属性としては、性別、年齢、居住地域などが現在推定の対象となっている。

8.2 実世界の動向との相関分析

blogマイニングの結果、トレンドや評判の推移に関する情報がblogを情報源として得られるようになると、次は、このblog中での動向が実世界での動向とどのように相関するのかを分析したいという関心も当然高まってくる。この典型例が、blogの中での動向が実世界での動向とどのように相関するのかを分析したいという関心も当然高まってくる。この典型例が、blogの中での記述が選挙結果とどのように関連したかを分析するものといえる。同様に、株価の推移がblog中の記述とどのような相関にあるかを分析するという研究もある。またGruhlらは、amazonにおける書籍の売り上げランキングとblog上での言及数の推移の相関を分析している。

9.blogWatcher-インターネットから社会の関心、意見を収集・分析する

blogWatcherでは、システムが「今話題のトピック」と判定した話題を紹介するためのblog(メタブログ)を自動生成している。これは、全単語についてのバーストを計算することでその日にバーストしている単語がわかるため、その単語を元に注目されている話題を発見し,

その話題を、Movable Type(ブログのサーバサイドソフトウェア、投稿された記事をデータベースに保存しあらかじめ決められたテンプレートでその内容を表示するもの)で作られたblogに対し、毎日記事として(自動で?)投稿することで実現されている。メタブログでは特に何も入力しなくてもシステム側が推薦するコンテンツを見ることができるというような使い方の違いが存在する。

第2版で追加された機能である、ニュースとブログの自動対応付けでは、ある新聞記事に関して記述しているblogエントリを自動的に特定する。この機能により、記事にリンクを張っていないエントリでも、元記事を参照できるだけでなく、記事に言及しているblogエントリを検索できるので、新聞記事に関してのblog中での反応を閲覧可能である。また第三版では行動分析により、その行動がどの時間帯(朝、昼、夕方、夜)に行われたものかを自動推定する機能を追加予定である。ここでは「みんなは**をいつ食べている?」といった疑問に答えられることを目指している。

0 件のコメント: