2007年5月26日土曜日

情報抽出 -情報を整理して提示するー

今回は情報抽出の技術の解説を行い、いくつかの応用システムを紹介する。情報抽出とは特定のテーマの情報を非構造的な文書の中から抽出し、構造化された形で提示するものである。例えば新聞記事の中から「人名」、「会社名」といった特定の固有名詞を抜き出すといった具合である。特定の情報だけを新聞記事のような決まった情報源から抽出する技術は、テキストマイニングを源流としたWebラッパーと呼ばれる技術であるが、今回はこれまでのMUC型(これは1980年代に米国のMessage Understanding Conferenceというところで始まった情報抽出プロジェクト)の情報抽出を紹介し、現在の情報抽出で用いられている代表的な要素技術、そして、新しい情報抽出の展開を具体例を挙げながら紹介する。


これまでの情報抽出技術

MUCにおける情報抽出とは、新聞記事のようなテキストからあらかじめ指定されたイベントや事柄に関する情報を抽出し、その情報を表形式のデータベースに自動的に入力するという技術である。あらかじめ指定したものが「人名」ならば田中さんや佐藤さんのような名前を自動で抽出することができる。簡単そうであるが書かれたテキストからそれを”名前である”とコンピューターに自動認識させるわけであるからなかなか難しい技術である。これを解決するのがパターンマッチングという技術であり、これは例えば「○○は××を発表した」という文であれば○○はおそらく人名であるだろうということをコンピュータに認識させ、学習させる機械学習の事である。

情報抽出のための要素技術

情報抽出のシステムを実現するためにはいくつかの要素技術が必要である。ここでは特に情報抽出に重要なものとして固有表現抽出、照応解析、パターンの自動作成の3つについて解説する。

名前や重要な表現を特定する固有表現抽出

人名、地名、組織名など数種類の固有名詞を抽出するだけならば先ほどのパターンマッチングによる教師付き学習で十分な精度が期待できるが、新しいタイプの固有名詞も抽出する必要がある場合(例えば生物学ならばたんぱく質やDNAの名前など)には200種類程度の固有表現が必要であり現在の教師付き学習では解決しそうにない。それが今後の課題であり、クラスタリング、未知語処理、人手による辞書、ルールの作成といったことが行われている。

照応関係を特定する

一文目で日本銀行という用語が登場し、二文目からはそれが日銀と略されていたり、または「政府に対して金融政策の説明を行った」というように「日本銀行」のことを言っているにもかかわらず完全に省略されたりするような場合(これはゼロ代名詞と呼ばれている)がある。このように代名詞、省略形などで表された表現でも、それが本来何を指しているのかを特定できなければ、適切に情報を抽出できない場合がある、この問題を解決するのが照応解析のシステムである。関連する技術として「2007年5月5日」「5日」「昨日」「一ヶ月前の今日」といった様々な表現がされているのを同一のものであることを認識するタスクもある。

パターンを自動的に学習する

これは要するにあるトピックでよく使われる、あるいは重要な言い回しを研究してそれをコンピュータに記憶、学習させ情報の抽出に役立てようとするものである。

特定の情報について大量に抽出する

この技術は自然言語処理とは別にテキストマイニングの研究分野からも形成されてWebラッパーと呼ばれる技術として形成されている。米国では実際にこの技術を使って自動的に情報を収集したポータルサイトが存在し大きな注目を集めている。以下に実例を紹介する。

製品情報を抽出する

製品情報を収集しポータルサイトとして公開されている有名なサイトの一つにgoogleがやっているfroogleがある、ここでは、googleによって集められた大量のページの中から製品の名前、値段、写真、概要などの情報を自動的に収集する。そして集められた情報を適切な形で表示することによって、製品に関する巨大なポータルサイトが出来上がることになるのである。

リクルート情報を抽出する

製品情報と同様にリクルート情報を広範なWebページから抽出するという応用が行われている。代表的なものにFlipDogという名前のサイトがある。全世界から約20万のリクルート情報を収集しており、地域、カテゴリー、職種などの情報が抽出され、ユーザは自分の希望する職を検索することができる。

論文情報を抽出する

英文の論文を検索している人は知っている人が多いと思うが、Citeseerというシステムがある。これはキーワード検索、引用のリンクをたどった検索、内容の似た論文の検索などができる便利なシステムである。

幅広い情報を抽出する

ここまでは、特定分野の情報抽出についてみてきたが「オデマンド抽出」という幅広い情報を抽出することも依然重要視されている。この精度を上げるために今文章の意味づけをする、言い換え表現を見破る、などということが注目されている。

参考文献→ISSJ Magajin Vol45 No6 June 2004


0 件のコメント: