2007年5月31日木曜日

WWW上のテキスト情報の知的統合

1.はじめに
www上のテキスト情報の知的統合とは、関連するテキストをWWW上から自動的に収集し、それらをまとめ提示することで、ユーザの効率的な情報へのアクセスを可能にする技術である。本稿では、WWW上のテキスト情報の統合技術及び関連する研究やシステムを紹介する。特に、関連する複数のテキスト間でテキスト情報を関連付け、そこからユーザにとって有用な情報を抽出し、わかりやすく提示するための諸技術及び関連システムについて述べる。
2.テキスト情報統合の手順
WWW上に存在する特定トピックやジャンルのテキスト情報を統合するには、まず、関連するテキストをWWW上から網羅的に収集する必要がある。次に、テキスト中からトピックと関連する情報のみを抽出しなければならない。さらに、抽出された情報を何らかの観点から分類、整理し、わかりやすく提示する必要がある。以上をまとめると、テキスト情報の統合手順及び要素技術は、大まかに以下に示す4つの段階が必要となる。
  1. 特定トピックやジャンルのテキストの収集
    あるトピックに関連するテキストをWeb検索エンジンなどを利用して収集する。ここで述べるトピックとは例えば、用語、人物名、イベントなどを指し、テキスト収集の際にはこれらの語句をキーワードとして利用することができる。要素技術としては、情報検索が代表的な方法であるが、このほかにも情報フィルタリング、特定のトピックや分野のテキストのみを収集するフォーカストクローリングなどの技術の利用も考えられる。
  2. Web文書からの関連情報の抽出
    1で収集したテキストからトピックに関連する情報(語句、文、段落)を抽出する。要素技術としては情報抽出、パッセージ(部分テキスト)検索、HTML構造解析技術などが使われる。
  3. 情報の統合
    2.で複数のテキストから抽出された情報を統合する。抽出された複数の情報が等価である場合、それらをすべてユーザに提示するのは冗長であるからまとめる必要がある。要素技術としては、まず関連するテキスト情報を分類するのにテキスト分類技術が有用であり、テキスト間で類似する箇所を同定するほうほうでは、複数テキスト要約技術が研究されている。
  4. 情報の提示
    3.で解析された関係をわかりやすく提示する。表や図で可視化する方法も考えられる。

3.事例紹介
これまでに様々な目的や観点からWWW上のテキスト情報を収集、統合するシステムが開発されている。その例をいくつか示す。
3・1 WWW上のニュース記事の統合
WWW上の複数のニュースサイトから記事を自動的に収集、統合し、カテゴリーなどに分類して提示するサービスがいくつかある。

Google News
WWW上のニュースサイトから収集した情報を統合したニュース検索サイト
システム構築手順

  1. 約4500のニュースサイトから定期的に記事情報を自動収集
  2. 各ページからヘッドライン(タイトル)と写真画像を自動抽出
  3. ほぼ同時期に報道された複数ニュースサイト上の同一トピックの記事をグループ化
  4. トップページにはユーザがページにアクセスした時点で最も注目を集めているニュース(最も      多くの記事を含んだグループ)が表示されるこれは最も多くのニュースサイトで取り上げられてい  るニュースは重要であるという考えに基づいている。また統合されたニュースは「社会」、「国  際」、「政治」、「経済」「スポーツ」、「文化・芸術」、「科学・技術」といったカテゴリに自動分類される。ユーザはデータベース中のニュースを、カテゴリー検索とキーワード検索することが可能。

なおデータベースには過去30日分のデータが蓄積されており、一時間おきに更新されている。

他にも統合ニュースサイトはあるが有名なものについてその特徴を述べよう。

  • MSN Newsbot
    ユーザがMSNにアカウントを作成し、サインインした状態でNewsbotを利用すると、過去の利用状況や他のユーザのパターンに基づいてユーザが興味を持ちそうなニュースを薦めてくれる。
  • Columbia Newsblaster
    同一トピックの複数記事の内容を自動的に一つの要約にまとめてユーザに提示する機能を持っている。
  • NewsInEssence
    このシステムも自動で複数の関連記事から要約を自動作成するが、Newsblasterとの違いは、ユーザが関心のあるトピックを入力すると、複数のニュースサイトからリアルタイムで記事を収集し、要約を作成する展である。ただしこれには数分程度時間がかかる。

3.2 WWW上の論文データの統合
近年、出版社や学会、あるいは研究者個人のWebページでPostscriptやPDFといった形式のフルテキスト論文データを公開するケースが増えている。このような論文データを収集して論文データベースを構築し、検索可能にしたサービスがいくつかある。ここではCiteSeer,Cora,PRESRIの3つのシステムを紹介する。これら3システムは、いずれも引用文献索引データベースであり、また、ある論文が他の論文から引用されている場合、その論文の被引用論文における引用箇所を提示できる点が特徴的である。このような引用箇所には、引用論文がどのような研究を行っているのかを手短に述べるだけでなく、どのような問題点があるのか、また他の研究にどのように利用できるのか、といった情報が記述されている。したがってある論文に関する複数の引用箇所を提示することにより、その論文に関する様々な意見や見解をユーザが比較できる。

CiteSeer
NEC Research Institute のLawrenceらが開発したシステム。WWW上の英語論文を収集して構築、今回紹介する3システムの中では最も大規模な論文データベースを保持している。

                         システム構築の手順

  1. Web検索エンジンを利用して"publications","papers","postscript"といった語を含んだWebページを検索し、これらのページを出発点としてクローリングしてPostscriptやPDF形式の論文を収集する。
  2. 1.で収集した論文データを、PreScriptを用いてテキスト変換した後、テキストのヘッダから、タイトル、著作名などの情報を抽出。また、各論文データから参考文献情報の抽出も行っている。
  3. 2.で、各論文データから抽出された書誌情報の同定を行い、同一論文はグルーピングする。これらの作業により論文集合全体の引用関係が解析されることになる。
  4. 論文をキーワードによる検索、論文間の引用関係を辿った検索、およびカテゴリー検索が可能にする。ある論文が複数の論文から引用されている場合、その論文に関する複数の引用箇所が並べて提示されるため、ユーザはある論文に関する様々な見解、評価などがわかる。

・Cora
テキストの収集にフォーカストクローラを用いている点が他とは異なるが他の手順はほぼCiteSeerと同じである。
PRESRI
www上の日英論文データを収集して構築。引用箇所の情報からどのような理由で論文が引用されているのかを自動的に解析している点が他のシステムとは異なる。また検索結果を提示する際に、論文間の引用関係をグラフィカルに提示できる点も異なる。またPRESRIはWWW上の論文データとそれ以外から取得できる論文データベースを統合することも可能であり、その管理はすべてWebブラウザ上で行えるため。複数論文データベースの統合が容易にできる。

3.3 人物、組織名、地名に関する情報収集・統合
佐藤らはWITプロジェクトにおいて様々な側面からWWW上のテキストデータの統合を試み、システムを構築している。そのうちにWWWを利用した住所検索に関する研究がある。これは与えられた名称から、その名称に対する住所情報をWWWを利用して探し出ものであるが現在閉鎖したようである。システム構築手順としては、Web検索エンジンを用い、入力された名称を含むWebページを収集し、各ページからHTMLタグを利用して住所情報の記述されている領域を抽出し、さらにそこから名称、住所、郵便番号などを抽出する。




0 件のコメント: