2007年5月26日土曜日

テキスト自動要約

情報を要約して自動でまとめることができたら必要な文書を選択することが容易になる、そこで今回は情報アクセス技術としてのテキスト自動要約に関して概観する。特に現在テキスト自動要約技術が実際に情報アクセ技術としてどの程度利用可能なのかを示す実例を紹介する。
要約の種類
要約を研究するに当たって考慮するべき要因として以下の3つが提示されている
  • 入力の性質ーテキストの長さ、ジャンル、分野、単一/複数テキストのどちらかであるなど
  • 要約の目的ーどういう人が(ユーザーはどういう人か?例えば予備知識を十分に持っているかどうかということで要約内容も変わってくる)、どういう風に(要約の利用目的は何か)など
  • 出力の仕方

利用目的に応じて、要約を次の2つのタイプに分けることも多い

  • 指示的(indicative):原文が読むべきものかどうか自分の感心に合うかどうかを判断する。原文の適合性を判断するなど、原文を参照する前の段階で用いる。
  • 報知的(informative):原文の代わりとして用いる。

いろいろなテキスト自動要約手法

どのような手法がテキスト自動要約にはあるのだろうか、現在以下のようなトピックスでテキスト自動要約手法に関する研究は行われるようになってきている。

  1. 文から文中の重要箇所を抽出する事による要約手法→現在の要約システムではほぼ定着しつつある手法である。
  2. 単一テキストではなく、複数テキストを対象にした要約手法→テキスト検索時のユーザナビゲーションに用いる試みが始まりつつある。
  3. ユーザに特化した要約を動的に作成する要約手法→テキスト検索のクエリが与えられて、そのクエリに特化した要約を作成する手法が現在広く使われるようになってきている。

2についてであるが単一テキスト要約では重要文抽出→重要箇所抽出→生成というプロセスを辿るが、複数テキスト要約では、関連するテキストの自動収集→重要文抽出→冗長性判定→重要箇所抽出→文の順序の決定(生成)という複雑なプロセスを辿る必要がある。

テキストの自動要約技術の応用

YSTやGOOGLEのように検索結果にWebページの内容を短く紹介したものが提示されたり、ニュースの文字放送では、ニュースの原文自体ではなく、その要約といえるような形でニュースが配信されていたり、市販のワープロソフトで要約機能がついたものが見受けられるようになってくるなど応用されている。検索結果の要約では原文の重要な情報をもれなく含んでいる必要はなく、テキストとして読みやすい必要はない、必要なのはユーザが検索結果のテキストなり、テキストのクラスタ(種類)なりの内容を適切に判断できる要約であれば構わない。これは指示的要約の範疇といえる要約である。一方文字放送では「情報の網羅性」と「テキストとしての可読性」が要求される。これは「報知的」要約の範疇といえる要約である。

テキスト検索時の利用を想定した要約

テキスト検索時において、ユーザがクエリを入力し、検索されたテキストが適切かどうかを判断する際に要約を用いる場合を考えると、要約はユーザが入力したクエリに即したものになっていることが望ましい。例えばGoogleでは、検索結果としてそのページのsnippet(抜粋)を表示するが、そのsnippetをクエリによって動的に変化させて作成している。クエリと関連する文により大きい重要度を与えているのである。それ以外にもユーザの持つ予備知識の程度に応じて、出力する要約の詳細さ、長さを可変にする試みなどもその一例であると考えられる。

ナビゲーションのための複数テキスト要約

テキスト検索の結果得られたテキスト集合には、ユーザの目的と合致しないテキストが数多く含まれている可能性がある。このような場合、目的のテキスト集合へユーザをナビゲートする支援システムは有効であり、そのようなシステムでは、テキスト集合を自動的にクラスタリングし、クラスタごとに、クラスタのテキスト集合の要約を作成しラベルとして付与する。ユーザは、自分の必要なテキストがクラスタに含まれているかどうかを付与されたラベルを見て判断する。上田らは、クラスタリングによりある程度同じ話題でまとめられたテキスト集合を対象に、各クラスタの特徴を表す文を自動的に作成する手法を提案している。これはテキスト中の各文を構文解析し、テキスト間で構文木同士を比較することで、テキスト間の共通箇所を同定するという手法を提案している。

文字放送、字幕を出力として想定した要約

このような要約は原文の代わりとなる報知的要約としての問題が大きい、そのため文単位で抽出するテキストを短くするのではなく、一文ごとに重要でない箇所を削り、情報をなるべく減らさずにテキストを短く表現しなおす要約作成手法が開発されている。不要と考えられる文字列を削除したり、文末のサ変動詞を体言止めにする(「7月中に解散します」→「7月中に解散へ」などのような変換規則を用意し、文に対し変換規則を繰り返し適用することで、文はより短い文に変換される。

対象テキストの性質に特化したテキスト自動要約

テキスト自動要約技術では、対象とするテキストのジャンルを考慮して要約手法を決定する必要がある。そのため、テキスト自動要約技術を利用した、商用ソフトウェア、利用に供されているサービスなども、対象とするテキストを特化した形で提供されていることが多い。ニュース記事の要約サイトやメールを対象とした要約ソフト(電子メールの冒頭のあいさつ文や末文などメール本来の趣旨から判断し不要な部分を省き、メール本文の中で要点と思われる文章のみを抜き出す)などがある。

自動要約ソフトウェア

市販のソフトウェアの中で、要約だけを専門に行うものはあまり見受けられないように思われる。がフリーの要約システムとして利用可能なものにPosumというものがある。興味があればなにか要約してみると面白いかもしれない。

他の情報アクセス技術との統合を目指して

今回は、情報アクセス技術としてのテキスト自動要約についてのみ概観したが、この技術は、例えば質疑応答ができる検索の一部として使える可能性が高いなど、他の様々な分野に応用できる技術である。今後の連携による研究に期待したい。

参考文献→IPSJ Magazine Vol.45 No.6 June 2004

0 件のコメント: