2007年5月31日木曜日

インターネットからの評判情報検索

1.はじめに
インターネットは、誰もが情報を発信できる場であり、そこには様々な人の多様な意見が存在すると考えられる。もしこれらの意見を効率的かつ安価に収集・分類・分析できる方法があれば、次のような目的での幅広い利用が考えられる。
(1)商品購入の際の情報収集
もし意見に関連したWebページのみに検索範囲を絞ることができれば、効率よく意見を収集できる。
(2)市場調査などのマーケティング
インターネット上の意見を安価かつ効率的に収集できれば、アンケート調査に並ぶ意見収集手段になると期待できる。
(3)企業のリスク管理
インターネットには多くのコミュニティがそんざいするが、このような参加者の意見によって形成されているコミュニティでは、企業として迅速な対応が必要になる意見が発せられる場合があるため、それらを自動的に調査できるシステムを実現できれば利用価値は高い。

本稿では、インターネットの意見に関する様々な研究を意見の収集・分類・分析という3つの観点から紹介する
2. 意見の収集・分類・分析に関する研究
意見に着目した研究は大きく分けて、意見を収集する研究、意見を分類する研究、意見を分析する研究の3種類が存在する。収集→分類→分析で一つの流れとなっている。
2・1 意見の収集に関する研究
 
Inquirus2では、メタ検索の際にクエリーを自動補正することにより意見を含むページを収集することができる。また[Chakrabarti 99]のようにfocused crawlerによってあらかじめトピックやカテゴリーに限定したWebページのみのインデックスを作成する方法でも意見を収集することは原理上可能である。[Tateishi 04a]の評判情報検索システムでは、情報抽出技術を用いてキーワードに関する意見が記述されている箇所を抽出する。
 Web文書以外を対象とした研究としては、新聞記事を主観的な文と客観的な文に分類する研究がある。
2・2 意見の分類に関する研究
Web文書を対象とした研究としては意見を肯定・否定に分類する研究がある。その中では記事単位で肯定、否定に分類する研究、文単位で分類する研究、評価を示す表現単位に分類する研究がある。
またWeb文書以外を対象とした研究としては、感情表現の分類に関する研究がある。Web文書以外を対象とした研究としては、感情表現の分類に関する研究がある。[liu 03]では、電子メールの文を6種類の基本的な感情のカテゴリーに分類する。この研究ではOpen Mind Common Senseと呼ばれる知識ベースを用いている。OMCSには”Getting into a car accident can be scary"のような現象と感情の対応を示す例文が多く登録されており、これらを用いて電子メール文の感情を決定する。また電子メール文を対象として質問、回答、依頼などの発話意図に分類する研究なども行われている。
2・3 意見の分析に関する研究
Web文書を対象とした研究として[立石 02]がある。[立石 02]では意見を収集・分類する評判情報検索システムと、テキストマイニングツールであるSurveyAnalyzerを組み合わせて収集・分類したWebの意見から特徴後を抽出する。例えば同種の製品A,B,Cに対してAの製品が他の製品と違う点をB,Cに対する意見と比較して求めることができる。Web以外の文書を対象とした研究では、アンケートの自由回答文や、コールセンターの問い合わせ文から分類・相関ルールを導出する研究が行われている。
3.評判情報検索システム
ここでは評判情報検索システム[Tateishi 04]をその検索方式を中心に詳しく紹介する。まずユーザが初期画面で商品名などのキーワードを入力するとその検索語に関する意見を含むWebページを検索結果としてURLごとに列挙する。検索結果には、意見に該当する文をオリジナルのWebページから切り出して表示する。各意見の横には肯定または否定を示すアイコンを表示し、実際に意見が書かれている箇所と、その肯定、否定のラベルをユーザは眺めながら意見を閲覧できる。このシステムの実現には以下の3つの問題がある。
  1. 特定商品に関する意見を検出する。→単純に意見が記述された文書を見つけるだけでなくユーザが指定した商品名に関する意見を検出できる。
  2. 意見に該当する箇所を抽出する→文書内で意見がどの位置にあるのかを判定する必要がある。
  3. 抽出した意見を肯定・否定に分類する

3.1 アプローチ
このような機能を持つシステムを開発するために、まず、意見を下記のように定義する。

  • 商品と評価表現の2つのentityで構成される。
  • 記述者の判断として2つのentity間の関係が存在する。(良いか悪いか)

この定義により、評判検索の問題は、商品名と評価表現の組を検出する情報抽出の問題として扱うことができる。このように定義した意見を評価表現辞書とパターンマッチングルールを用いて抽出する。パターンマッチングルールは商品と評価表現の関係や、それが記述者の判断であるかを判定するために用いる。これにより、上記の1.2.の機能を実現する。また各評価表現にはあらかじめ肯定または否定のラベルが付与されているためそれを用いて意見を肯定・否定に分類する。これにより3.の機能を実現する。
3.2 検索方式の概要
システムが商品名をユーザから受ける→評価表現辞書を用いて意見候補をWebページから抽出する→意見候補の適正値をパターンマッチングルールを用いて計算する→肯定、否定に分類する。
3.3 評価表現辞書
評価表現辞書は、例えば「Yahoo掲示板」のような商品に関する話題が多く議論されているWebサイトから人手で該当する表現を収集して作成する。ただし例えば飲み物ならば肯定表現が「おいしい」、「飲みやすい」になるなど評価表現の種類はその商品分野に大きく依存するため、辞書は商品分野ごとに作成する。そのため、評判情報検索システムでは、商品分野に応じて辞書を切り替えて使用する。
3.4 意見候補抽出
商品名を含む一文とその前後のN分をパッセージとして、意見候補は商品名と評価表現を含むパッセージとして定義しその部分を抽出する。
3.5 適正値の計算
3.4節の条件で抽出された意見候補すべてが意見として認定されるとは限らない。例えば「dellの調子が悪いためvaioを使っています」ではvaioの評価が悪いということにはならない。そこで構文解析を利用して文が商品に対する批評かどうかを判断する適正値を設定してやる。これである閾値を超えたものを意見として認定するのである。
3.6 意見の分類
本処理では、評価表現辞書に付与された肯定・否定のラベルと否定表現を用いて意見を分類する。例えば奇数回否定表現が出てきた場合は否定とし、偶数回であれば肯定とするなどとしている。
例)vaioは良くない→良いが肯定ラベルで、ないが否定ラベル。否定が1回なのでこれは否定表現
例)vaioは良くなくない→否定が2回出てきているので否定表現
3.7 評価
上記の方式の評価実験結果を示す。実験対象の商品分野は、コンピュータとアルコール飲料の2分野とした、また実験対象Web文書は、それぞれの分野について選択した4商品の検索エンジンの検索結果の上位300ページ、計2400ページである。その実験結果の半分の1200ページを評価表現辞書の作成および、適正値の学習に用いて、残りの1200ページを評価に用いた。この結果意見抽出精度では適性値が高いほど適合率が高くなっており、パターンマッチングルールが有効に働いていたことがわかる。また意見分類精度の適合率(否定か肯定か)は全体で90%であった。不正解の中で最も多かったのが評価表現に付与したラベルの誤りであり、例えば「高い」は肯定のラベルを付与したが「価格が高い」のように否定的に使われることもありこれが精度に影響した。
4.今後の課題
意見をわかりやすい形で可視化する。例えば検索結果全体でどの着眼点に関する意見が多いかや、他の商品と比較してどの着眼点が優れているかなどを一覧できるとより使いやすい。またインターネットの意見の性質や特性(性別、年齢、職業などの偏り等)に合わせたシステムを作ることも必要である。

WWW上のテキスト情報の知的統合

1.はじめに
www上のテキスト情報の知的統合とは、関連するテキストをWWW上から自動的に収集し、それらをまとめ提示することで、ユーザの効率的な情報へのアクセスを可能にする技術である。本稿では、WWW上のテキスト情報の統合技術及び関連する研究やシステムを紹介する。特に、関連する複数のテキスト間でテキスト情報を関連付け、そこからユーザにとって有用な情報を抽出し、わかりやすく提示するための諸技術及び関連システムについて述べる。
2.テキスト情報統合の手順
WWW上に存在する特定トピックやジャンルのテキスト情報を統合するには、まず、関連するテキストをWWW上から網羅的に収集する必要がある。次に、テキスト中からトピックと関連する情報のみを抽出しなければならない。さらに、抽出された情報を何らかの観点から分類、整理し、わかりやすく提示する必要がある。以上をまとめると、テキスト情報の統合手順及び要素技術は、大まかに以下に示す4つの段階が必要となる。
  1. 特定トピックやジャンルのテキストの収集
    あるトピックに関連するテキストをWeb検索エンジンなどを利用して収集する。ここで述べるトピックとは例えば、用語、人物名、イベントなどを指し、テキスト収集の際にはこれらの語句をキーワードとして利用することができる。要素技術としては、情報検索が代表的な方法であるが、このほかにも情報フィルタリング、特定のトピックや分野のテキストのみを収集するフォーカストクローリングなどの技術の利用も考えられる。
  2. Web文書からの関連情報の抽出
    1で収集したテキストからトピックに関連する情報(語句、文、段落)を抽出する。要素技術としては情報抽出、パッセージ(部分テキスト)検索、HTML構造解析技術などが使われる。
  3. 情報の統合
    2.で複数のテキストから抽出された情報を統合する。抽出された複数の情報が等価である場合、それらをすべてユーザに提示するのは冗長であるからまとめる必要がある。要素技術としては、まず関連するテキスト情報を分類するのにテキスト分類技術が有用であり、テキスト間で類似する箇所を同定するほうほうでは、複数テキスト要約技術が研究されている。
  4. 情報の提示
    3.で解析された関係をわかりやすく提示する。表や図で可視化する方法も考えられる。

3.事例紹介
これまでに様々な目的や観点からWWW上のテキスト情報を収集、統合するシステムが開発されている。その例をいくつか示す。
3・1 WWW上のニュース記事の統合
WWW上の複数のニュースサイトから記事を自動的に収集、統合し、カテゴリーなどに分類して提示するサービスがいくつかある。

Google News
WWW上のニュースサイトから収集した情報を統合したニュース検索サイト
システム構築手順

  1. 約4500のニュースサイトから定期的に記事情報を自動収集
  2. 各ページからヘッドライン(タイトル)と写真画像を自動抽出
  3. ほぼ同時期に報道された複数ニュースサイト上の同一トピックの記事をグループ化
  4. トップページにはユーザがページにアクセスした時点で最も注目を集めているニュース(最も      多くの記事を含んだグループ)が表示されるこれは最も多くのニュースサイトで取り上げられてい  るニュースは重要であるという考えに基づいている。また統合されたニュースは「社会」、「国  際」、「政治」、「経済」「スポーツ」、「文化・芸術」、「科学・技術」といったカテゴリに自動分類される。ユーザはデータベース中のニュースを、カテゴリー検索とキーワード検索することが可能。

なおデータベースには過去30日分のデータが蓄積されており、一時間おきに更新されている。

他にも統合ニュースサイトはあるが有名なものについてその特徴を述べよう。

  • MSN Newsbot
    ユーザがMSNにアカウントを作成し、サインインした状態でNewsbotを利用すると、過去の利用状況や他のユーザのパターンに基づいてユーザが興味を持ちそうなニュースを薦めてくれる。
  • Columbia Newsblaster
    同一トピックの複数記事の内容を自動的に一つの要約にまとめてユーザに提示する機能を持っている。
  • NewsInEssence
    このシステムも自動で複数の関連記事から要約を自動作成するが、Newsblasterとの違いは、ユーザが関心のあるトピックを入力すると、複数のニュースサイトからリアルタイムで記事を収集し、要約を作成する展である。ただしこれには数分程度時間がかかる。

3.2 WWW上の論文データの統合
近年、出版社や学会、あるいは研究者個人のWebページでPostscriptやPDFといった形式のフルテキスト論文データを公開するケースが増えている。このような論文データを収集して論文データベースを構築し、検索可能にしたサービスがいくつかある。ここではCiteSeer,Cora,PRESRIの3つのシステムを紹介する。これら3システムは、いずれも引用文献索引データベースであり、また、ある論文が他の論文から引用されている場合、その論文の被引用論文における引用箇所を提示できる点が特徴的である。このような引用箇所には、引用論文がどのような研究を行っているのかを手短に述べるだけでなく、どのような問題点があるのか、また他の研究にどのように利用できるのか、といった情報が記述されている。したがってある論文に関する複数の引用箇所を提示することにより、その論文に関する様々な意見や見解をユーザが比較できる。

CiteSeer
NEC Research Institute のLawrenceらが開発したシステム。WWW上の英語論文を収集して構築、今回紹介する3システムの中では最も大規模な論文データベースを保持している。

                         システム構築の手順

  1. Web検索エンジンを利用して"publications","papers","postscript"といった語を含んだWebページを検索し、これらのページを出発点としてクローリングしてPostscriptやPDF形式の論文を収集する。
  2. 1.で収集した論文データを、PreScriptを用いてテキスト変換した後、テキストのヘッダから、タイトル、著作名などの情報を抽出。また、各論文データから参考文献情報の抽出も行っている。
  3. 2.で、各論文データから抽出された書誌情報の同定を行い、同一論文はグルーピングする。これらの作業により論文集合全体の引用関係が解析されることになる。
  4. 論文をキーワードによる検索、論文間の引用関係を辿った検索、およびカテゴリー検索が可能にする。ある論文が複数の論文から引用されている場合、その論文に関する複数の引用箇所が並べて提示されるため、ユーザはある論文に関する様々な見解、評価などがわかる。

・Cora
テキストの収集にフォーカストクローラを用いている点が他とは異なるが他の手順はほぼCiteSeerと同じである。
PRESRI
www上の日英論文データを収集して構築。引用箇所の情報からどのような理由で論文が引用されているのかを自動的に解析している点が他のシステムとは異なる。また検索結果を提示する際に、論文間の引用関係をグラフィカルに提示できる点も異なる。またPRESRIはWWW上の論文データとそれ以外から取得できる論文データベースを統合することも可能であり、その管理はすべてWebブラウザ上で行えるため。複数論文データベースの統合が容易にできる。

3.3 人物、組織名、地名に関する情報収集・統合
佐藤らはWITプロジェクトにおいて様々な側面からWWW上のテキストデータの統合を試み、システムを構築している。そのうちにWWWを利用した住所検索に関する研究がある。これは与えられた名称から、その名称に対する住所情報をWWWを利用して探し出ものであるが現在閉鎖したようである。システム構築手順としては、Web検索エンジンを用い、入力された名称を含むWebページを収集し、各ページからHTMLタグを利用して住所情報の記述されている領域を抽出し、さらにそこから名称、住所、郵便番号などを抽出する。




2007年5月30日水曜日

WWWからの情報抽出

1.はじめに
1・1 WWWと情報抽出
HTMLやXMLなどの半構造化文書から有用な知識を発見、抽出するためのWebマイニングの研究が注目を集めている。そしてWebマイニングの研究のひとつとして、Webページのコンテンツと構造を再構成し、新たな情報としてユーザに提供するための研究が行われている。これらの情報の再構成の鍵となる技術が、Webページから特定の箇所を自動的に抽出するための情報抽出である。
1・2 Webラッパー
Webページからある特定の部分を抽出するためのぷろぐらむや、抽出するための場所を指示する文法はWebラッパーと呼ばれる。ラッパーで抽出した情報は関係データベースのレコードやXMLデータなど必要な形式に変換され、新たなサービスを提供するために用いられる。
1・3 Webラッパーの自動生成
Webラッパーが抽出の対象とするものはフィールド(例えば新聞記事といった限られたジャンル)やレコード(テーブルタグに囲まれた部分など)を対象としているものが多い。本稿ではラッパーの自動生成法を中心に、Webラッパー構築に関する様々な話題を紹介する。
1・4 Webラッパーの応用
Webラッパーの最も重要な応用の一つが、情報の統合である。分散した複数の情報サービスを統合して、それを見やすくまとめて情報を提供するのである。情報の統合を可能にするには、情報抽出と同時にそれらの持つ意味的構造、
スキーマ(データベースの構造)を抽出する必要がある。その意味で情報の統合は情報抽出の間接的な応用と言える。一方Webラッパーの直接的な応用として半構造化文書から必要な部分のみを抽出することによるデータの圧縮がある。これにより、モバイル端末や携帯電話などの小さなディスプレイへの表示や、HTMLページの要約に役に立つ。

2. ラッパーの自動生成
ラッパーの対象となる半構造化文書群は様々なサイト上に存在し、様々な形式で記述されているため、サイトごと、同種の項目を持つページ群ごとにラッパーを生成しなければならない。WWW上に存在する膨大な量の半構造化文書を考えると手動でラッパーを生成することはコストの大きい仕事であり、また間違う可能性も高いため自動的な生成法が求められる。機械学習を用い、訓練例を入力例を入力として与えることによりラッパー生成を行うもの、タグによる階層構造に着目したもの、機械学習を用いる代わりに、訓練例を与えずに自動的にラッパーを生成するものなどがある。また人間によるWebラッパーの生成支援環境についても研究が盛んに行われている。

3.教師つき学習による情報抽出
本章では、ラベルやデータ間の区切り目などの付加的な情報を含んだ訓練例からの学習によってラッパーを構築する、教師つき学習による情報抽出を紹介する。
3.1 Kushmerickのラッパー帰納
ラッパーとは与えられたHTMLから所望の部分を切り出すためのルールまたはプログラムであるが、Kushmerickが提案したラッパーのうち最も単純なLRラッパーを説明しよう、LRラッパーの一般系は、W: = ((a1,b1),(a2,b2).........(ak,bk)) と表現される。例えばテーブルで
<tr><td>CPU</td><td>2.8GHz</td></tr>
<tr><td>メモリ</td><td>512MB</td></tr>
とあったとするとa1=(<tr><td>,</td>) b1=(<td>,</td></tr>)としてやることで間にあるCPUと2.8GHzを抽出することができる。同様の規則でメモリも抽出することができる。このように、いったんラッパーを構築することができれば、与えられたHTMLページから自動的に必要な情報を抽出できる。しかし、求める情報を正しく切り出すラッパーを構築することは難しい問題である。Kushmerickはこの問題をラッパー帰納問題とよび、定式化した。これは与えられたHTMLファイルPと、切り出しに関する訓練例Lから、正確に訓練例と同じ切り出しをする、すなわちW(P) = LとなるラッパーWを見つける問題である。

3.2 STALKER:DFAの学習
 
2番目の事例はMusleaらによるラッパー帰納問題である。彼らはHTMLページが木構造で表現できることに注目し、その構造からラッパーを構築する方法を提案した。彼らのSTALKERアルゴリズムは、一言で言うと与えられたHTMLページから非常に限定された正規表現のパターンをオートマトン形式で抽出するアルゴリズムである。
3・3 カーネル法
Kashimaらは、木構造からの情報抽出問題を定式化し、その問題にSVM(Support Vector Machine)による分類問題で威力を発揮するカーネル法を適用した。これを元に機械学習を行ったところ、非常に高い精度で正しい切り出し場所を学習していることが報告されている。特に、あいまいなマッチングによる木の埋め込みを許したベクトル表現のほうが通常のベクトル表現よりも高い精度で学習が行われていることが実験データで示されていることが興味深い。
4.教師なし学習による情報抽出
本章では、データを加工せずに学習者に与える教師なし学習の枠組みで提案されている情報抽出の研究事例を紹介する。
4.1IEPAD:文字列の繰り返しの発見
これまでに紹介した学習における切り出しでは、アルゴリズムに与える訓練例は、どこを切り出すかを指定したり、必要な部分だけをあらかじめ取り出したりしたHTMLページの加工品であった。このような方法では、精密な切り出しを期待できる半面、そのような訓練例を準備することはユーザにとってしばしば非常に手間のかかることである。これにたいしてIEPADでは、訓練例に特別な加工は必要なく、手に入れたHTMLをそのままアルゴリズムの入力として利用できる。IEPADは繰り返し登場するHTMLの文字列のパターンで、文字列数が最長のものを探し出してそこを切り出すことにより情報を抽出しようという考え方である。PAT木と呼ばれる特別なデータ構造を使うことでO(n)時間で計算可能である。
4.2 PLRラッパー:木構造と文字列の組み合わせ
Treeラッパーによって情報抽出を行うときにパスに対応する文字列には不必要な文字列がついている場合がある。例えば、毎日新聞の記事では、あるパスに対応する文字列が”[毎日新聞3月1日](2002-03-01-11:6)のように、日付・時間の回りに不要な文字列がついている。これは、情報統合を考える際に不要である。そこで、パスに対応する文字列の中から、さらに細かく文字列を抽出するために、山田らはTreeラッパーとLRラッパーを組み合わせたPLRラッパー(Path-Left-Rightラッパー)を提案している。PLRラッパーは、入力として与えられた半構造化文書から各項目を抜き出すためのルールの集合によって表現される。ルールとは各項目の出現する木構造のパスと、そのパスで特定されるノードに対応する文字列中の項目を囲んでいる左区切り文字列と右区切り文字列と呼ばれる文字列の組から成り立つ。そしてノードの文字列のうち不要な部分は削除される。






2007年5月29日火曜日

百科事典としてのWWW

1.はじめに

Webを百科事典として使うことは最近日常化している。Webには既存の百科事典には載っていない新しい情報や専門情報が存在するし、また、パソコンや携帯端末があればいつでもどこでもアクセス可能である。今回はWebを事典的に利用することを目的とした研究事例について解説する。情報を形式化して利便性を高める試みは、Webが登場する以前から存在する。情報の形式化という視点から、研究事例を以下の2つに大別する。

・情報検索的アプローチ
情報の原型をできるだけとどめて蓄積し、利用する段階で適宜加工する。もしくは、情報の加工や解釈はユーザに委ねる。
・知識工学的アプローチ
情報を蓄積する段階で内容の解析を積極的に行い、目的に応じた形式で表現する。

以下2章と3章で両方のアプローチについて個別に説明する

2.情報検索的アプローチ
2.1 検索エンジン
検索エンジンの仕組み的に誰もが知りたいような情報が上位に来ることになっているし、主要検索エンジンではキーワードを含む文脈の抜粋が検索結果画面に提示されているので読むべきページかどうかを判断しやすい。しかし、ページの内容を理解して必要な情報を選別したり、複数のページを横断的に吟味して何らかの結論を導くことは依然としてユーザの役目である。
2.2 質問応答システム
§1 背景
前節の検索エンジンを質問応答形式にするとシステムは有用性が高くなりユーザの負担は軽減する。しかし現在の技術では「誰?」「どこ?」、「いつ?」というwho,where,whenの対象にはある程度精度よく答えられるが「なぜ」や「どうやって」といったwhy,how型の質問に答えるのは困難であるか対象外である。ということで本稿でも狭義での質問応答に限定して説明していく。今回のテーマは百科事典としてのWebということなので質問応答を「Webという擬似的な事典」を検索する機能の一つと捉えて本稿では扱うことにする。
§2 方法論
質問応答システムは、質問文→質問解析→検索式生成→検索→回答抽出→回答選択→回答というプロセスに一般化できる。これをWebに適用すると後述するが「検索式生成」と「回答選択」の役割や効果が一般的なシステムとは異なってくる。
i.質問解析
質問文からキーワードを抽出し、さらに回答の種類を特定する。例えば「カナダの首都はどこですか?」という質問文であれば「カナダ」「首都」を名詞キーワードとして抽出し、「どこですか」回答の種類として「場所」を特定する。使う技術としては「形態素解析」、「構文解析」、「意味解析」などの自然言語処理が使われる。
ii.検索式生成
抽出されたキーワードと回答の種類に基づいて、検索エンジンに入力する検索式を生成する。以下のような手法を適宜選択するっか組み合わせることが効果的である。

  • 使用する検索エンジンの特徴やくせを考慮して、キーワード列や論理式などの適切な形式で検索式を表現する

  • 検索の網羅性を高めるためにシソーラス(類語辞典)を用いる。これは情報検索における質問の拡張に相当する。

  • 「回答が記述されているパターン」を予測して質問を変換した上で検索式を生成する。

最後の手法について考える。例えば「カナダの首都はどこですか?」という質問の回答は文書内で「カナダの首都であるオタワは」、や「カナダ(カナダの首都)」のように記述されている可能性が高い。そこで検索エンジンがこの「カナダの首都はどこですか?」という質問を「カナダ」、「首都」と置き換えるのではなく、例えば「カナダの首都である.*は」とか「.*(カナダの首都)」(.*は任意の文字列を指す。ここにオタワという答えが入っていることが多い)といった質問に置き換えてやれば回答を得やすくなる。
また、キーワードの出現順序や近接演算を考慮できれば、「カナダ」と「首都」の位置関係に関する制約を検索式で記述することで不要なページを排除する。
iii.検索
2・1節で紹介した検索エンジンと同様に、検索式に関連する文書を取得する。文書を段落のような細かな単位(「パッセージ」と呼ばれることがある)に分割して検索することで、回答候補の探索範囲を制限することが効果的である。また複数の検索式が生成された場合にすべてを検索に利用すると処理の効率を低下させるので、正解率の期待値とコストを勘案して、実際に使用する検索式の数を決定する手法がある。
iiii.回答抽出
回答の候補となる名詞句を抽出する。固有表現認識を応用して、語や表現に対して「組織名」「人名」「地名」などの種別を特定し回答の候補を絞る。
v.回答選択
複数の回答候補に対して優先度を決定し、優先度の高い回答から順番に提示する。この際、キーワードとの近接度合い(カナダの例で言うと「カナダ」と「首都」というキーワードに近い位置にある名詞との近接度合い)を考慮する方法や、複数の文書で繰り返し出現する候補に優先度の重みを多くするといった方法がある(投票方式)。この投票方式は統制のとれていないWebに対して回答の信頼性をあげる意味合いがある。
§3 実状
小規模なもの、名詞句を回答するものは試験的に運用されているが、大規模なWebページ群を対象にした検索エンジンは今のところはない。
3.知能工学的アプローチ
3・1 概要
知識工学的アプローチは、情報の内容解析を行い、データベースのような形式で情報を組織化して蓄積する。玉石混淆のWeb情報から玉だけを取り出してデータベース化できれば処理の効率化や正解率の向上が期待できる。ここでは、Web情報の内容解析や組織化をどのように行うかという視点で選先行事例を分類する。
3・2 人手による情報の組織化
人手で構築されたデータベース型のサイトをシステムに複数登録しておき、ユーザの質問内容に応じて適切なサイトを検索し、結果を提示する方法、人手で作成された用語集サイトを対象にして、説明文を検索する機能。また、人手で構築された複数サイトを統合して新しい情報源を作り出す情報統合がる。Webラッパーやデータベース工学への関連が強い。
3・3 情報の自動的な組織化
池田らは、新聞記事の見出しを5W1H要素に基づいて解析し、必要な要素からの検索を可能にした。また藤井らは擁護や事柄に関する説明情報をWebから集約して事典的なデータベースを自動構築し、多様な検索機能を提供する検索システムCycloneを構築した。

4.事典検索システムCyclone
4.1 概要
Cycloneには、見出し語を集めて事典コンテンツを自動構築する機能と、コンテンツを様々な方法で検索する機能がある。まあ使ってみればわかると思うがWebクローリングももう行っていないみたいであまり役に立ちそうではないが、とにかく分野や関連語を選択するなどして情報を絞り込むことで必要な説明を効率的に取得することができる。関連語を自動抽出しそれにより次々と言葉の意味を調べていけるのは便利である。
4.2 事典コンテンツの構築

§1 新語検出
Cycloneは事典コンテンツの内容を短期間で自動更新することが可能である。更新頻度が高いサイトのページ内容を定期的に形態素解析し、見出し語として登録されていない形態素列を検出する。
§2 検索
既存の検索エンジンを利用しても良いのだが、通信コスト削減のため、独自にページを収集し、検索エンジンを実装した。
§3 抽出
見出し語の説明はページ全体ではなく特定の一部分であることが多いので、段落を説明の単位として抽出する。具体的には、HTMLのタグ構造を利用してページのレイアウトを解析し、見出し語を含む段落や用語解説特有のHTMLタグ構造を持つ段落を抽出する。
§4 組織化
抽出処理の結果見出し語が説明されている可能性が高い段落が収集される。組織化処理は、見出し語が適切に説明されている段落を選択し、更に既存の事典と同じように語義や分野に応じて分類を行う。説明としての適切さは、特定分野への関連度、「(見出し語)とは、」などの説明らしい言語表現を含むかどうか、抽出現のページが用語集らしいレイアウトで記述されているか、抽出元ページの信頼度(PageRankを用いる)で定量的に判断する。
§5 関連後抽出
見出し語の説明に良く使われる言葉を検出し、関連度とする。
§6 要約
多数のサイトから情報を集めるので同じ説明を何度も読まされる可能性がある、これを排除するために、

  1. 一つの見出し語に関する説明群を単文に分割する
  2. 同じ観点に対応する単文を一つのグループにする
  3. 各グループから代表文を選出して、連結する。

ということを行っている。要約によって、クリックやスクロールせずに必要最小限の情報を取得したり、携帯端末での情報取得が可能になる。

4.3 事典コンテンツの検索
 事典コンテンツ検索の基本は、見出し語を入力して説明を表示する方法である。しかし、ユーザの入力が見出し語になかった場合は様々な代替手段を用いて意味のある応答を返し、ユーザを必要な情報へと誘導する。
 まず、前方一致、後方一致、部分一致検索によって文字列が類似する見出し語を検索する。これにより入力誤りや表記のゆれを補完することができる。
 コンテンツの全文検索によって事典コンテンツの逆引きを行う。その結果、「電子メールに感染するソフト」や「印刷機を発明した人」という入力に対して、「マクロウイルス」や「グーテンベルク」などの見出し語を提示する。また、英訳が同じ言葉を同義語として提示したり、関連語抽出によって構成された見出し語同士の関係を可視化して、別の見出し語を探す機能もある。

2007年5月27日日曜日

「震災対策技術展」 in大阪

5月23日に大阪で開かれた震災対策技術展というものに行ってきました。僕のこれからやるであろう研究はというと地震や津波などで大規模災害が発生した場合に直ちにその状況を把握できるようなシステムを作るというものである。どこで何が起きているのかが正確にわかっていないとどうやって上の人は指示を出せばいいのかわからないのでそれを補助してやろうっていうものである。どうやればそういったシステムがつくれるのだろうか?という疑問に対する何らかのヒントをこの震災対策技術展で掴もうということで行ってきたのだが、どうやらGISシステムというのを使った製品が僕のやるであろう研究と近いだろう、っという所までは得られた。GISシステムというのは位置や空間に関する情報をもったデータ(空間データ)を総合的に管理・加工し、視覚的に表示できる高度な分析や迅速な判断を可能にする技術である。1995年1月の阪神・淡路大震災において、GISを用いた瓦礫(がれき)撤去業務支援活動等の実践により、災害緊急時の情報処理・共有化の手段として、また非常時と平常時の連続性を高めるための情報手段として、GISの有効性について社会的関心が高まった。さてGISとグーグルマップとの関係が良くわからないのだが、グーグルマップはGISのデータが利用されているって事なのかな?この辺はうやむやだが取りあえずグーグルマップはAPIも公開されているので何らかの形で使えるかもしれない。

災害時のボランティア活動

GISを利用したボランティア活動としてGIS防災情報ボランティアというものが存在する、災害(地震、津波、降雪による被害)などに対してボランティアの人々が通行止め情報や災害現場の詳細を書き込んでいくという方式である。能登半島の地震においては・内閣府 ・国土交通省北陸地方整備局 ・輪島市 ・穴水町 ・能登町 ・七尾市からの情報を基にして地図情報を書き込んでいっているのだが、災害が発生してから地図情報への書き込みを開始するまでに丸一日かかっている。さらに情報源についてもやや乏しい感じがあり、ボランティアに参加した人も36人と非常に少ない。ここで問題になってくるのは
  • 情報源が限られている。少ない

この程度の情報源からすべての状況を把握することは困難である。

  • 情報源から送られてきている問題はすでに解決されているかもしれない。

例えば瓦礫のため通行止めという情報が送られてきたとしても、もう地図情報を書き込む頃には通れるようになっているかもしれない。つまり情報の即時性に乏しい。

これらの欠点をなくすようなシステムであればそれなりに役立ちそうである。うーむどうやってやろうか?

Weblogの現在と展望 セマンティックウェブおよびソーシャルネットワーキングの基盤として

Weblog(blog)は既存のマスメディアやジャーナリズムにも大きな影響を与えており、Weblog上での議論が世論に反映するような事例も出始めている。このようにWeblogは社会システムとして定着しつつあると思われる。今回はWeblogをめぐる技術に着目し、これらの開設の中心として、今後のWebの発展の可能性について述べる。

Weblogの定義等

Weblogが始まったのは1998年ごろからであるが、Weblogがまず注目され始めたのは、新しいジャーナリズムとしての側面であったといわれている、Weblogはマスメディアの制約にとらわれずジャーナリストが自ら意見表明を行うことのできる場であった。その後、9.11の同時多発テロ後に一般市民がWeblogを通じて意見の交換、議論を行うようになり、そのことがWeblogの認知度を急速に上げた。今日Weblogはこのような草の根ジャーナリズムのようなコンテンツからいわゆる日記にいたるまで様々なコンテンツを提供するための基盤となっている。最も広義のWeblogとは「日々更新される短いコンテンツの集積とされている。」とされているが、Weblogたる所以はWeblogツールにあると思われる。現在のWeblogの普及においてWeblogツールはなくてはならない存在である。これらのツールが書き手の時間的、心理的コストを下げ、コミュニケーションの形態を変え、結果として爆発的に増えたのである。

Weblogによる動向

すでに、Weblogサイトの数が増加するに伴い、多くの関連サービスが登場している、対象をWeblogサイトに限定した検索エンジンや、引用関係を分析して最新のトピックを提示するものGoogleやAmazon.comのWebサービスと連携するものなどが挙げられる。しかしブログは検索エンジンから評価されやすい構造であるので個人の日記等、大抵あまり有益でない情報が検索エンジン上位に来てしまい情報過多を更に悪化させることにもなった。最近はブログの検索順位を落とすように対応されてきているが。Weblogに関する研究では、分析、計算機科学の方面ではWeblogによって構成される空間が持つ性質をWebグラフの分析手法などを用いて分析した研究やWeblogにおけるトピックスの伝播を抽出する研究、Weblogにおけるトピックスの伝播を抽出する研究、Blogに適したランキングアルゴリズムの研究などがある。また社会学的、心理学的なアプローチもよく採られていて、Weblog作者に対するインタビューに基づくWeblogの分析や内容分析によるWeblogの分析、社会での影響力の分析などがある。

日本におけるWeblogの位置づけ

アメリカではWeblogという概念の中に、日記的コンテンツが含まれるのに対して、基本的に日本では日記の拡張として位置づけられることが多い。

Weblogツールの概要

WeblogツールはWeblogサイトを容易に構築することのできるソフトウェアである。簡単にサイトを構築できる機能が主なのだが、いくつか特徴的な機能も備わっている。

  • トラックバック→Weblogサイト間の逆リンクを生成する機構、普通に張ることのできる順リンクとは逆方向の、相手から自分の側に来訪者を引き込むようなリンクを生成でき、この機能を利用して引用関係を伝うことで議論の流れを時系列的に追うことが可能になる。


  • RSS→サイトの概要をXML形式で記述するためのメタデータフォーマット。プレーンなRSSは表現力に乏しいが、モジュールという形式を用いて他のメタデータフォーマットの語彙を利用することで、タイトル、更新時間などの追加情報が記述できる。RSSを利用することにより、ソフトウェアを用いて複数のサイトから情報を収集し、一覧することが可能になった、これをアグリゲーションと呼ぶ現在ではいくつかのRSSアグリゲーションソフトウェアが提供されている。またRSSに関連するサービスとしてRSS全文検索というものがあり、これは検索対象がRSSのみである検索で、このサービスを利用してRSSアグリゲータにクエリーを登録しておくと、キーワードに合致する最新ニュースやエントリを常にチェックするなどの使用法が可能になる。

セマンティックWebとの関係

Webにおける情報洪水を克服するために、コンテンツに機械可読な意味的タグ(セマンティックタグと称す)を埋め込み、ソフトウェアエージェントによって適切な情報の検索や有効活用を目指す、いわゆるセマンティックWeb技術への期待が高まっている。セマンティックWebを実現する要素技術としてはRDF(Resource Description Framework)やオントロジー記述言語が提案されており、基盤は整いつつある。しかしながら、若干めんどくさい技術であるためこれらの言語がHTMLと同様に普及するかは未知数である。一方でRSS1.0の基礎となるRDFは、セマンティックWebの基本的な要素技術である。RSSを自動生成・配信するWeblogツールは個人用のセマンティックWebのためのプラットフォームになり得ると考えられる。Weblogツールにより一般ユーザも容易にセマンティックタグを付加できるようになることが期待される。

Weblogの今後 Community Webへの展望

今後はGREE,mixiといったソーシャルネットワーキングの時代に入ってくると思われる、というかすでに入っている、これらは現状では単なる集中型人間関係登録システムとなっているが、すでにGoogleはこれらのパーソナルネットワークを新たな検索技術に応用することを表明している。これらのサービス上で得られる情報には限界があるが、個人が持つWeblogとのリンク付けが可能になれば、各個人について更なる情報を得ることができる。Weblogの効用は個人が一定の場所において意見の表明し続けていくことで来訪者からの信頼を得やすいという部分にあるといえる。上記のソーシャルネットワーキング技術と組み合わせることで「何を」検索するといった既存の手法から「誰を」検索するというKnow-Who検索をWeb上のオープンな環境で実現することが可能になる。個人を単位として情報を組織化することにより、これまでは単純にHTMLファイルがリンクで結ばれていたWebの状況から、より情報の粒度がおおきくなり、検索性が高まると思われる。このように、Web上に個人の存在を表明できるようなアーキテクチャを筆者らは「Community Web」と呼んでいる。Community Web上での人々のコミュニケーションやコラボレーションの結果が新たなコンテンツとして表現され、他の人によって共有、編集される、筆者らは、このような活動の上に積みあがる信頼関係がセマンティックWebが目指す「信頼のWeb」の一つの実現方法であると考えている。

参考文献→IPSJ Magazine Vol.45 No.6 June 2004

2007年5月26日土曜日

質問応答技術

質問応答技術は、自然言語で記述された任意の質問に対して大量の組織化されていない情報から答えを得る技術である。例えば「ワールドカップで優勝したのはどこですか」という質問に対して、数年分の新聞記事から答えとなる情報を取り出す技術である。質問応答技術は情報検索、情報抽出、自動要約などの自然言語処理の研究と関連がある。まず、質問応答システムが与えられた質問に答えるためには、質問文中の情報を利用して大量のテキストからある程度の情報まで絞り込む必要がある。これには情報検索技術が不可欠である。さらに、絞り込まれた範囲から答えとなる情報を取り出す技術として情報抽出技術がある。質問応答においては得られた答えが正しいものであるという証拠を示すため、答えが得られた根拠となる情報を提示することも重要である。根拠となる情報としては、答えが得られたテキスト全体を示す方法や、テキスト中の一部を提示する方法が考えられる。しかし根拠となる情報がテキスト中の広範囲に分散している場合には、それを要約して示すことも考えられる。したがって、文書要約技術も質問応答には重要な技術であると考えられる。また、「なぜ」や「どのようにして」などの質問に対する答えを求めている場合など、質問の種類によっては答えをテキスト中からそのまま抽出するだけではなく、要約した形で答える場合も考えられる。この点からも文書要約技術は重要な技術である。またユーザのあいまいな質問内容やシステム側が不十分な回答を返した場合に、質問応答システムに対していくつかの補足的な情報を与える必要がある。これをユーザとシステムとのインタラクションによって実現することも考えられる。またシステム自身がユーザに問い合わせて質問のあいまいな部分を解消することも考えられる。そのような一連の質問応答に対応するためには対話処理技術が必要となる。

質問応答処理の流れ

まず質問表現のパターンから回答が何を尋ねているのかの属性を予測するとともに、特徴的なキーワードを抽出する(質問文解析)、次に文書検索により前記キーワード集合に適合するテキスト集合を知識源であるコーパス(辞書の意味、この場合コーパスとなるのは大量のWebサイトだろう)から抽出する。次に絞り込んだテキストから回答属性に合致する回答候補を見つけ出す(回答候補絞込み)そして得られた回答候補に対してキーワードとの単語間距離などの尺度を用いてスコアを計算し上位のスコアのものを回答として選択する。

質問文解析と固有表現抽出

質問文解析によって質問文が回答として求める情報のタイプとしては、会社名、大臣の名前、商品名や各種の数値情報などの固有表現が多い、これらの固有表現の情報抽出について様々な手法が考案されている。フリーのツールとしては固有表現ツールNExTというものがある。

情報検索

大量のデータから効率よく情報を抽出するには情報検索が必要である。検索システムとしてはNamazuなどフリーで公開されているものもある。

回答候補の絞込み

回答候補が何個か抽出できたら、質問文中のキーワードと回答候補が近い位置にあるほど有力としたり、構文的な類似性を利用したりして回答を絞っている。

質疑応答評価プロジェクト

代表的な質問応答技術評価プロジェクトとしてTREC QA Track とNTCIR QACがある。TREC QA Trackは文書検索から情報検索への技術的発展の目指す研究支援および、文書検索分野と情報検索分野の研究者にアピールすることを目的として設けられた。評価方法は簡単な英語の質問が与えられて、それに対してシステムが自動で回答できるかというものである。検索対象となるデータベースの中には必ず正解が含まれているものとする。さらに回答が複数ある質問に答えるlist task、一連の関連質問に答えるcontext taskも設定された。また事物の定義を答えるdefinition taskも追加され、質問応答技術に対する興味範囲が広がってきている。

質問応答技術の今後

これまでの質問の内容は(固有)名詞を答えさせるものが多かった。例えば「ワールドカップの開催期間は何日ですか?」とか「木製の衛星にはどんな名前が付いていますか?」とか「日本の国鳥は何ですか?」などである。しかし最近では「コリン・パウエルとは誰ですか?」という定義を求める質問や、なぜ?を答える質問にどうやって応じたらよいかの研究が始まっている。また最初に述べたが曖昧性を解消するためにユーザとシステムのインタラクションによって必要な情報を補う研究も必要である。また現在質問応答システムの多くは新聞記事を対象としているが、知識源として百科事典を対象としたものやWebの情報を対象とした研究もあり今後の成果が待たれるところである。

参考文献→IPSJ Magazine Vol.45 No.6 June 2004

テキスト自動要約

情報を要約して自動でまとめることができたら必要な文書を選択することが容易になる、そこで今回は情報アクセス技術としてのテキスト自動要約に関して概観する。特に現在テキスト自動要約技術が実際に情報アクセ技術としてどの程度利用可能なのかを示す実例を紹介する。
要約の種類
要約を研究するに当たって考慮するべき要因として以下の3つが提示されている
  • 入力の性質ーテキストの長さ、ジャンル、分野、単一/複数テキストのどちらかであるなど
  • 要約の目的ーどういう人が(ユーザーはどういう人か?例えば予備知識を十分に持っているかどうかということで要約内容も変わってくる)、どういう風に(要約の利用目的は何か)など
  • 出力の仕方

利用目的に応じて、要約を次の2つのタイプに分けることも多い

  • 指示的(indicative):原文が読むべきものかどうか自分の感心に合うかどうかを判断する。原文の適合性を判断するなど、原文を参照する前の段階で用いる。
  • 報知的(informative):原文の代わりとして用いる。

いろいろなテキスト自動要約手法

どのような手法がテキスト自動要約にはあるのだろうか、現在以下のようなトピックスでテキスト自動要約手法に関する研究は行われるようになってきている。

  1. 文から文中の重要箇所を抽出する事による要約手法→現在の要約システムではほぼ定着しつつある手法である。
  2. 単一テキストではなく、複数テキストを対象にした要約手法→テキスト検索時のユーザナビゲーションに用いる試みが始まりつつある。
  3. ユーザに特化した要約を動的に作成する要約手法→テキスト検索のクエリが与えられて、そのクエリに特化した要約を作成する手法が現在広く使われるようになってきている。

2についてであるが単一テキスト要約では重要文抽出→重要箇所抽出→生成というプロセスを辿るが、複数テキスト要約では、関連するテキストの自動収集→重要文抽出→冗長性判定→重要箇所抽出→文の順序の決定(生成)という複雑なプロセスを辿る必要がある。

テキストの自動要約技術の応用

YSTやGOOGLEのように検索結果にWebページの内容を短く紹介したものが提示されたり、ニュースの文字放送では、ニュースの原文自体ではなく、その要約といえるような形でニュースが配信されていたり、市販のワープロソフトで要約機能がついたものが見受けられるようになってくるなど応用されている。検索結果の要約では原文の重要な情報をもれなく含んでいる必要はなく、テキストとして読みやすい必要はない、必要なのはユーザが検索結果のテキストなり、テキストのクラスタ(種類)なりの内容を適切に判断できる要約であれば構わない。これは指示的要約の範疇といえる要約である。一方文字放送では「情報の網羅性」と「テキストとしての可読性」が要求される。これは「報知的」要約の範疇といえる要約である。

テキスト検索時の利用を想定した要約

テキスト検索時において、ユーザがクエリを入力し、検索されたテキストが適切かどうかを判断する際に要約を用いる場合を考えると、要約はユーザが入力したクエリに即したものになっていることが望ましい。例えばGoogleでは、検索結果としてそのページのsnippet(抜粋)を表示するが、そのsnippetをクエリによって動的に変化させて作成している。クエリと関連する文により大きい重要度を与えているのである。それ以外にもユーザの持つ予備知識の程度に応じて、出力する要約の詳細さ、長さを可変にする試みなどもその一例であると考えられる。

ナビゲーションのための複数テキスト要約

テキスト検索の結果得られたテキスト集合には、ユーザの目的と合致しないテキストが数多く含まれている可能性がある。このような場合、目的のテキスト集合へユーザをナビゲートする支援システムは有効であり、そのようなシステムでは、テキスト集合を自動的にクラスタリングし、クラスタごとに、クラスタのテキスト集合の要約を作成しラベルとして付与する。ユーザは、自分の必要なテキストがクラスタに含まれているかどうかを付与されたラベルを見て判断する。上田らは、クラスタリングによりある程度同じ話題でまとめられたテキスト集合を対象に、各クラスタの特徴を表す文を自動的に作成する手法を提案している。これはテキスト中の各文を構文解析し、テキスト間で構文木同士を比較することで、テキスト間の共通箇所を同定するという手法を提案している。

文字放送、字幕を出力として想定した要約

このような要約は原文の代わりとなる報知的要約としての問題が大きい、そのため文単位で抽出するテキストを短くするのではなく、一文ごとに重要でない箇所を削り、情報をなるべく減らさずにテキストを短く表現しなおす要約作成手法が開発されている。不要と考えられる文字列を削除したり、文末のサ変動詞を体言止めにする(「7月中に解散します」→「7月中に解散へ」などのような変換規則を用意し、文に対し変換規則を繰り返し適用することで、文はより短い文に変換される。

対象テキストの性質に特化したテキスト自動要約

テキスト自動要約技術では、対象とするテキストのジャンルを考慮して要約手法を決定する必要がある。そのため、テキスト自動要約技術を利用した、商用ソフトウェア、利用に供されているサービスなども、対象とするテキストを特化した形で提供されていることが多い。ニュース記事の要約サイトやメールを対象とした要約ソフト(電子メールの冒頭のあいさつ文や末文などメール本来の趣旨から判断し不要な部分を省き、メール本文の中で要点と思われる文章のみを抜き出す)などがある。

自動要約ソフトウェア

市販のソフトウェアの中で、要約だけを専門に行うものはあまり見受けられないように思われる。がフリーの要約システムとして利用可能なものにPosumというものがある。興味があればなにか要約してみると面白いかもしれない。

他の情報アクセス技術との統合を目指して

今回は、情報アクセス技術としてのテキスト自動要約についてのみ概観したが、この技術は、例えば質疑応答ができる検索の一部として使える可能性が高いなど、他の様々な分野に応用できる技術である。今後の連携による研究に期待したい。

参考文献→IPSJ Magazine Vol.45 No.6 June 2004

Web検索の技術動向と評価手法

今回はWeb文書を対象とした検索技術の最新動向を、とりわけテキスト処理手法およびリンク解析手法を中心に概観するとともに、Web検索に関する評価ワークショップを中心とした評価の取り組みについて紹介する。

Web検索の諸問題

従来の情報検索が扱ってきた新聞記事、特許、論文などとはWeb情報は次のような点で異なっている
  1. 作成者と作成目的の多様性:情報の信頼性、記述の専門性、想定読者など
  2. ジャンルの多様性:論文、個人の日記、商売サイトなど
  3. 表現の多様性:タグを用いたレイアウトや構造化、表や画像などの視覚効果など
  4. 情報の粒度:一つのhtmlに複数の内容が混在
  5. リンクによる参照:参照・被参照の情報の活用が可能
  6. 変化の速度:文書の追加、削除、更新が常時発生。

またWeb検索において効果的な検索を難しくしている要因として、特に重要な点を以下に指摘する

100億程度も存在するWeb文書に対していかに対応するか

これはデータを集めてくることが非常に大変だということを意味する。大規模なWeb文書データに対応した汎用的な検索を実現するには並列化による処理の高速化、あるいは分散化による管理コストの軽減などが必要になる。まあ過度に分散させすぎることに対する批判も多いのだが、例としてこんな記事もある。

検索に関する情報量の不足

ユーザのクエリ(検索キーワード)は明確には何が知りたいのかわからない場合が多い。クエリの長さは平均して2単語程度であるし、さらにユーザは検索結果の1ページ目までしか見ない場合が多い。

情報ニーズの多様性

ユーザの知りたい要求というものが多種多様になってきており、前述の少ない情報しか与えないクエリからその背後に潜むユーザの情報ニーズを理解しそれに即した結果を提示することがWebサーチエンジンの課題の1つである。

トピック・ドリフト問題

映画賞について知りたいと思い[movie awards]という検索語をかけたとする、そうすると検索上位には映画制作会社やそこからリンクが張ってあるオーソリティのあるサイトが上位に入りやすく、本来ユーザーが求めているはずの情報がなかなか得られないことが多い、このように一般的な語を含むクエリが与えられ、その一般的な語によって検索されたWebページがリンク集などにより密に結合されていた場合などで、ユーザが本来求めていたトピックとは関連性が低いはずのWebページが検索結果の上位にランキングされる問題をトピックドリフト問題といい、現在のPageRankやHITSといったリンク構造の重みを解析するアルゴリズムの欠点となっており、これから検討の余地が残されていると思われる。

個人や環境に適応した検索

ユーザから与えられた限定的な情報に基づいて効果的な検索を実現する方法に、ユーザに関する情報やユーザのコンテクストを活用した検索技術、ユーザのおかれた環境に応じて適切なWebページを提示する技術などが挙げられる。

個人化検索

まずユーザにプロファイルをつくってもらう。たとえば趣味や、興味のあるジャンル、性別、年齢などを入力してもらう。あるいは検索履歴などを利用してそのプロファイルを作る方法もある。この情報を利用すると同じクエリを入力した場合でも人によって異なった、その人自身の興味に合わせた検索結果を反映させることができるようになる。個人化検索の課題としてはユーザの興味が時間とともに変化する事にどう対処するかなどが挙げられる。

地理情報に基づく情報アクセス

外出先において携帯端末を用いてユーザの物理的位置から距離的に近い店舗や施設などに関するWebページを優先して検索するというのが環境に応じたアクセスとしてみても典型的な例である。ほかにもWebサーチエンジンの検索結果を地理的な配置に基づいて分類するなどの活用が検討されている。

Web検索の評価の取り組み

Web検索の有効性評価はユーザの実際の利用行動や満足度等も評価しなければならず、どの検索エンジンが優れているというのは数値として出しにくいものである。Web検索に焦点を当てたものとしてはTREC WebトラックとNTCIR WEBタスクが知られている。そこではユーザのページの閲覧時間や、検索の有効性だけではなく効率性(どれだけ効率的にトラフィックを処理できるか)なども評価の対象となっている。また、タスク設計としてはユーザの情報ニーズの種類が所与でない状況で適切な検索を実現することに焦点を当てて議論されているところもある。これは情報ニーズの多様性の問題に焦点を当てたものといえる。

参考文献→IPSJ Magazine Vol.45 No.6 June 2004

情報抽出 -情報を整理して提示するー

今回は情報抽出の技術の解説を行い、いくつかの応用システムを紹介する。情報抽出とは特定のテーマの情報を非構造的な文書の中から抽出し、構造化された形で提示するものである。例えば新聞記事の中から「人名」、「会社名」といった特定の固有名詞を抜き出すといった具合である。特定の情報だけを新聞記事のような決まった情報源から抽出する技術は、テキストマイニングを源流としたWebラッパーと呼ばれる技術であるが、今回はこれまでのMUC型(これは1980年代に米国のMessage Understanding Conferenceというところで始まった情報抽出プロジェクト)の情報抽出を紹介し、現在の情報抽出で用いられている代表的な要素技術、そして、新しい情報抽出の展開を具体例を挙げながら紹介する。


これまでの情報抽出技術

MUCにおける情報抽出とは、新聞記事のようなテキストからあらかじめ指定されたイベントや事柄に関する情報を抽出し、その情報を表形式のデータベースに自動的に入力するという技術である。あらかじめ指定したものが「人名」ならば田中さんや佐藤さんのような名前を自動で抽出することができる。簡単そうであるが書かれたテキストからそれを”名前である”とコンピューターに自動認識させるわけであるからなかなか難しい技術である。これを解決するのがパターンマッチングという技術であり、これは例えば「○○は××を発表した」という文であれば○○はおそらく人名であるだろうということをコンピュータに認識させ、学習させる機械学習の事である。

情報抽出のための要素技術

情報抽出のシステムを実現するためにはいくつかの要素技術が必要である。ここでは特に情報抽出に重要なものとして固有表現抽出、照応解析、パターンの自動作成の3つについて解説する。

名前や重要な表現を特定する固有表現抽出

人名、地名、組織名など数種類の固有名詞を抽出するだけならば先ほどのパターンマッチングによる教師付き学習で十分な精度が期待できるが、新しいタイプの固有名詞も抽出する必要がある場合(例えば生物学ならばたんぱく質やDNAの名前など)には200種類程度の固有表現が必要であり現在の教師付き学習では解決しそうにない。それが今後の課題であり、クラスタリング、未知語処理、人手による辞書、ルールの作成といったことが行われている。

照応関係を特定する

一文目で日本銀行という用語が登場し、二文目からはそれが日銀と略されていたり、または「政府に対して金融政策の説明を行った」というように「日本銀行」のことを言っているにもかかわらず完全に省略されたりするような場合(これはゼロ代名詞と呼ばれている)がある。このように代名詞、省略形などで表された表現でも、それが本来何を指しているのかを特定できなければ、適切に情報を抽出できない場合がある、この問題を解決するのが照応解析のシステムである。関連する技術として「2007年5月5日」「5日」「昨日」「一ヶ月前の今日」といった様々な表現がされているのを同一のものであることを認識するタスクもある。

パターンを自動的に学習する

これは要するにあるトピックでよく使われる、あるいは重要な言い回しを研究してそれをコンピュータに記憶、学習させ情報の抽出に役立てようとするものである。

特定の情報について大量に抽出する

この技術は自然言語処理とは別にテキストマイニングの研究分野からも形成されてWebラッパーと呼ばれる技術として形成されている。米国では実際にこの技術を使って自動的に情報を収集したポータルサイトが存在し大きな注目を集めている。以下に実例を紹介する。

製品情報を抽出する

製品情報を収集しポータルサイトとして公開されている有名なサイトの一つにgoogleがやっているfroogleがある、ここでは、googleによって集められた大量のページの中から製品の名前、値段、写真、概要などの情報を自動的に収集する。そして集められた情報を適切な形で表示することによって、製品に関する巨大なポータルサイトが出来上がることになるのである。

リクルート情報を抽出する

製品情報と同様にリクルート情報を広範なWebページから抽出するという応用が行われている。代表的なものにFlipDogという名前のサイトがある。全世界から約20万のリクルート情報を収集しており、地域、カテゴリー、職種などの情報が抽出され、ユーザは自分の希望する職を検索することができる。

論文情報を抽出する

英文の論文を検索している人は知っている人が多いと思うが、Citeseerというシステムがある。これはキーワード検索、引用のリンクをたどった検索、内容の似た論文の検索などができる便利なシステムである。

幅広い情報を抽出する

ここまでは、特定分野の情報抽出についてみてきたが「オデマンド抽出」という幅広い情報を抽出することも依然重要視されている。この精度を上げるために今文章の意味づけをする、言い換え表現を見破る、などということが注目されている。

参考文献→ISSJ Magajin Vol45 No6 June 2004