2007年5月31日木曜日

インターネットからの評判情報検索

1.はじめに
インターネットは、誰もが情報を発信できる場であり、そこには様々な人の多様な意見が存在すると考えられる。もしこれらの意見を効率的かつ安価に収集・分類・分析できる方法があれば、次のような目的での幅広い利用が考えられる。
(1)商品購入の際の情報収集
もし意見に関連したWebページのみに検索範囲を絞ることができれば、効率よく意見を収集できる。
(2)市場調査などのマーケティング
インターネット上の意見を安価かつ効率的に収集できれば、アンケート調査に並ぶ意見収集手段になると期待できる。
(3)企業のリスク管理
インターネットには多くのコミュニティがそんざいするが、このような参加者の意見によって形成されているコミュニティでは、企業として迅速な対応が必要になる意見が発せられる場合があるため、それらを自動的に調査できるシステムを実現できれば利用価値は高い。

本稿では、インターネットの意見に関する様々な研究を意見の収集・分類・分析という3つの観点から紹介する
2. 意見の収集・分類・分析に関する研究
意見に着目した研究は大きく分けて、意見を収集する研究、意見を分類する研究、意見を分析する研究の3種類が存在する。収集→分類→分析で一つの流れとなっている。
2・1 意見の収集に関する研究
 
Inquirus2では、メタ検索の際にクエリーを自動補正することにより意見を含むページを収集することができる。また[Chakrabarti 99]のようにfocused crawlerによってあらかじめトピックやカテゴリーに限定したWebページのみのインデックスを作成する方法でも意見を収集することは原理上可能である。[Tateishi 04a]の評判情報検索システムでは、情報抽出技術を用いてキーワードに関する意見が記述されている箇所を抽出する。
 Web文書以外を対象とした研究としては、新聞記事を主観的な文と客観的な文に分類する研究がある。
2・2 意見の分類に関する研究
Web文書を対象とした研究としては意見を肯定・否定に分類する研究がある。その中では記事単位で肯定、否定に分類する研究、文単位で分類する研究、評価を示す表現単位に分類する研究がある。
またWeb文書以外を対象とした研究としては、感情表現の分類に関する研究がある。Web文書以外を対象とした研究としては、感情表現の分類に関する研究がある。[liu 03]では、電子メールの文を6種類の基本的な感情のカテゴリーに分類する。この研究ではOpen Mind Common Senseと呼ばれる知識ベースを用いている。OMCSには”Getting into a car accident can be scary"のような現象と感情の対応を示す例文が多く登録されており、これらを用いて電子メール文の感情を決定する。また電子メール文を対象として質問、回答、依頼などの発話意図に分類する研究なども行われている。
2・3 意見の分析に関する研究
Web文書を対象とした研究として[立石 02]がある。[立石 02]では意見を収集・分類する評判情報検索システムと、テキストマイニングツールであるSurveyAnalyzerを組み合わせて収集・分類したWebの意見から特徴後を抽出する。例えば同種の製品A,B,Cに対してAの製品が他の製品と違う点をB,Cに対する意見と比較して求めることができる。Web以外の文書を対象とした研究では、アンケートの自由回答文や、コールセンターの問い合わせ文から分類・相関ルールを導出する研究が行われている。
3.評判情報検索システム
ここでは評判情報検索システム[Tateishi 04]をその検索方式を中心に詳しく紹介する。まずユーザが初期画面で商品名などのキーワードを入力するとその検索語に関する意見を含むWebページを検索結果としてURLごとに列挙する。検索結果には、意見に該当する文をオリジナルのWebページから切り出して表示する。各意見の横には肯定または否定を示すアイコンを表示し、実際に意見が書かれている箇所と、その肯定、否定のラベルをユーザは眺めながら意見を閲覧できる。このシステムの実現には以下の3つの問題がある。
  1. 特定商品に関する意見を検出する。→単純に意見が記述された文書を見つけるだけでなくユーザが指定した商品名に関する意見を検出できる。
  2. 意見に該当する箇所を抽出する→文書内で意見がどの位置にあるのかを判定する必要がある。
  3. 抽出した意見を肯定・否定に分類する

3.1 アプローチ
このような機能を持つシステムを開発するために、まず、意見を下記のように定義する。

  • 商品と評価表現の2つのentityで構成される。
  • 記述者の判断として2つのentity間の関係が存在する。(良いか悪いか)

この定義により、評判検索の問題は、商品名と評価表現の組を検出する情報抽出の問題として扱うことができる。このように定義した意見を評価表現辞書とパターンマッチングルールを用いて抽出する。パターンマッチングルールは商品と評価表現の関係や、それが記述者の判断であるかを判定するために用いる。これにより、上記の1.2.の機能を実現する。また各評価表現にはあらかじめ肯定または否定のラベルが付与されているためそれを用いて意見を肯定・否定に分類する。これにより3.の機能を実現する。
3.2 検索方式の概要
システムが商品名をユーザから受ける→評価表現辞書を用いて意見候補をWebページから抽出する→意見候補の適正値をパターンマッチングルールを用いて計算する→肯定、否定に分類する。
3.3 評価表現辞書
評価表現辞書は、例えば「Yahoo掲示板」のような商品に関する話題が多く議論されているWebサイトから人手で該当する表現を収集して作成する。ただし例えば飲み物ならば肯定表現が「おいしい」、「飲みやすい」になるなど評価表現の種類はその商品分野に大きく依存するため、辞書は商品分野ごとに作成する。そのため、評判情報検索システムでは、商品分野に応じて辞書を切り替えて使用する。
3.4 意見候補抽出
商品名を含む一文とその前後のN分をパッセージとして、意見候補は商品名と評価表現を含むパッセージとして定義しその部分を抽出する。
3.5 適正値の計算
3.4節の条件で抽出された意見候補すべてが意見として認定されるとは限らない。例えば「dellの調子が悪いためvaioを使っています」ではvaioの評価が悪いということにはならない。そこで構文解析を利用して文が商品に対する批評かどうかを判断する適正値を設定してやる。これである閾値を超えたものを意見として認定するのである。
3.6 意見の分類
本処理では、評価表現辞書に付与された肯定・否定のラベルと否定表現を用いて意見を分類する。例えば奇数回否定表現が出てきた場合は否定とし、偶数回であれば肯定とするなどとしている。
例)vaioは良くない→良いが肯定ラベルで、ないが否定ラベル。否定が1回なのでこれは否定表現
例)vaioは良くなくない→否定が2回出てきているので否定表現
3.7 評価
上記の方式の評価実験結果を示す。実験対象の商品分野は、コンピュータとアルコール飲料の2分野とした、また実験対象Web文書は、それぞれの分野について選択した4商品の検索エンジンの検索結果の上位300ページ、計2400ページである。その実験結果の半分の1200ページを評価表現辞書の作成および、適正値の学習に用いて、残りの1200ページを評価に用いた。この結果意見抽出精度では適性値が高いほど適合率が高くなっており、パターンマッチングルールが有効に働いていたことがわかる。また意見分類精度の適合率(否定か肯定か)は全体で90%であった。不正解の中で最も多かったのが評価表現に付与したラベルの誤りであり、例えば「高い」は肯定のラベルを付与したが「価格が高い」のように否定的に使われることもありこれが精度に影響した。
4.今後の課題
意見をわかりやすい形で可視化する。例えば検索結果全体でどの着眼点に関する意見が多いかや、他の商品と比較してどの着眼点が優れているかなどを一覧できるとより使いやすい。またインターネットの意見の性質や特性(性別、年齢、職業などの偏り等)に合わせたシステムを作ることも必要である。

0 件のコメント: