2007年5月29日火曜日

百科事典としてのWWW

1.はじめに

Webを百科事典として使うことは最近日常化している。Webには既存の百科事典には載っていない新しい情報や専門情報が存在するし、また、パソコンや携帯端末があればいつでもどこでもアクセス可能である。今回はWebを事典的に利用することを目的とした研究事例について解説する。情報を形式化して利便性を高める試みは、Webが登場する以前から存在する。情報の形式化という視点から、研究事例を以下の2つに大別する。

・情報検索的アプローチ
情報の原型をできるだけとどめて蓄積し、利用する段階で適宜加工する。もしくは、情報の加工や解釈はユーザに委ねる。
・知識工学的アプローチ
情報を蓄積する段階で内容の解析を積極的に行い、目的に応じた形式で表現する。

以下2章と3章で両方のアプローチについて個別に説明する

2.情報検索的アプローチ
2.1 検索エンジン
検索エンジンの仕組み的に誰もが知りたいような情報が上位に来ることになっているし、主要検索エンジンではキーワードを含む文脈の抜粋が検索結果画面に提示されているので読むべきページかどうかを判断しやすい。しかし、ページの内容を理解して必要な情報を選別したり、複数のページを横断的に吟味して何らかの結論を導くことは依然としてユーザの役目である。
2.2 質問応答システム
§1 背景
前節の検索エンジンを質問応答形式にするとシステムは有用性が高くなりユーザの負担は軽減する。しかし現在の技術では「誰?」「どこ?」、「いつ?」というwho,where,whenの対象にはある程度精度よく答えられるが「なぜ」や「どうやって」といったwhy,how型の質問に答えるのは困難であるか対象外である。ということで本稿でも狭義での質問応答に限定して説明していく。今回のテーマは百科事典としてのWebということなので質問応答を「Webという擬似的な事典」を検索する機能の一つと捉えて本稿では扱うことにする。
§2 方法論
質問応答システムは、質問文→質問解析→検索式生成→検索→回答抽出→回答選択→回答というプロセスに一般化できる。これをWebに適用すると後述するが「検索式生成」と「回答選択」の役割や効果が一般的なシステムとは異なってくる。
i.質問解析
質問文からキーワードを抽出し、さらに回答の種類を特定する。例えば「カナダの首都はどこですか?」という質問文であれば「カナダ」「首都」を名詞キーワードとして抽出し、「どこですか」回答の種類として「場所」を特定する。使う技術としては「形態素解析」、「構文解析」、「意味解析」などの自然言語処理が使われる。
ii.検索式生成
抽出されたキーワードと回答の種類に基づいて、検索エンジンに入力する検索式を生成する。以下のような手法を適宜選択するっか組み合わせることが効果的である。

  • 使用する検索エンジンの特徴やくせを考慮して、キーワード列や論理式などの適切な形式で検索式を表現する

  • 検索の網羅性を高めるためにシソーラス(類語辞典)を用いる。これは情報検索における質問の拡張に相当する。

  • 「回答が記述されているパターン」を予測して質問を変換した上で検索式を生成する。

最後の手法について考える。例えば「カナダの首都はどこですか?」という質問の回答は文書内で「カナダの首都であるオタワは」、や「カナダ(カナダの首都)」のように記述されている可能性が高い。そこで検索エンジンがこの「カナダの首都はどこですか?」という質問を「カナダ」、「首都」と置き換えるのではなく、例えば「カナダの首都である.*は」とか「.*(カナダの首都)」(.*は任意の文字列を指す。ここにオタワという答えが入っていることが多い)といった質問に置き換えてやれば回答を得やすくなる。
また、キーワードの出現順序や近接演算を考慮できれば、「カナダ」と「首都」の位置関係に関する制約を検索式で記述することで不要なページを排除する。
iii.検索
2・1節で紹介した検索エンジンと同様に、検索式に関連する文書を取得する。文書を段落のような細かな単位(「パッセージ」と呼ばれることがある)に分割して検索することで、回答候補の探索範囲を制限することが効果的である。また複数の検索式が生成された場合にすべてを検索に利用すると処理の効率を低下させるので、正解率の期待値とコストを勘案して、実際に使用する検索式の数を決定する手法がある。
iiii.回答抽出
回答の候補となる名詞句を抽出する。固有表現認識を応用して、語や表現に対して「組織名」「人名」「地名」などの種別を特定し回答の候補を絞る。
v.回答選択
複数の回答候補に対して優先度を決定し、優先度の高い回答から順番に提示する。この際、キーワードとの近接度合い(カナダの例で言うと「カナダ」と「首都」というキーワードに近い位置にある名詞との近接度合い)を考慮する方法や、複数の文書で繰り返し出現する候補に優先度の重みを多くするといった方法がある(投票方式)。この投票方式は統制のとれていないWebに対して回答の信頼性をあげる意味合いがある。
§3 実状
小規模なもの、名詞句を回答するものは試験的に運用されているが、大規模なWebページ群を対象にした検索エンジンは今のところはない。
3.知能工学的アプローチ
3・1 概要
知識工学的アプローチは、情報の内容解析を行い、データベースのような形式で情報を組織化して蓄積する。玉石混淆のWeb情報から玉だけを取り出してデータベース化できれば処理の効率化や正解率の向上が期待できる。ここでは、Web情報の内容解析や組織化をどのように行うかという視点で選先行事例を分類する。
3・2 人手による情報の組織化
人手で構築されたデータベース型のサイトをシステムに複数登録しておき、ユーザの質問内容に応じて適切なサイトを検索し、結果を提示する方法、人手で作成された用語集サイトを対象にして、説明文を検索する機能。また、人手で構築された複数サイトを統合して新しい情報源を作り出す情報統合がる。Webラッパーやデータベース工学への関連が強い。
3・3 情報の自動的な組織化
池田らは、新聞記事の見出しを5W1H要素に基づいて解析し、必要な要素からの検索を可能にした。また藤井らは擁護や事柄に関する説明情報をWebから集約して事典的なデータベースを自動構築し、多様な検索機能を提供する検索システムCycloneを構築した。

4.事典検索システムCyclone
4.1 概要
Cycloneには、見出し語を集めて事典コンテンツを自動構築する機能と、コンテンツを様々な方法で検索する機能がある。まあ使ってみればわかると思うがWebクローリングももう行っていないみたいであまり役に立ちそうではないが、とにかく分野や関連語を選択するなどして情報を絞り込むことで必要な説明を効率的に取得することができる。関連語を自動抽出しそれにより次々と言葉の意味を調べていけるのは便利である。
4.2 事典コンテンツの構築

§1 新語検出
Cycloneは事典コンテンツの内容を短期間で自動更新することが可能である。更新頻度が高いサイトのページ内容を定期的に形態素解析し、見出し語として登録されていない形態素列を検出する。
§2 検索
既存の検索エンジンを利用しても良いのだが、通信コスト削減のため、独自にページを収集し、検索エンジンを実装した。
§3 抽出
見出し語の説明はページ全体ではなく特定の一部分であることが多いので、段落を説明の単位として抽出する。具体的には、HTMLのタグ構造を利用してページのレイアウトを解析し、見出し語を含む段落や用語解説特有のHTMLタグ構造を持つ段落を抽出する。
§4 組織化
抽出処理の結果見出し語が説明されている可能性が高い段落が収集される。組織化処理は、見出し語が適切に説明されている段落を選択し、更に既存の事典と同じように語義や分野に応じて分類を行う。説明としての適切さは、特定分野への関連度、「(見出し語)とは、」などの説明らしい言語表現を含むかどうか、抽出現のページが用語集らしいレイアウトで記述されているか、抽出元ページの信頼度(PageRankを用いる)で定量的に判断する。
§5 関連後抽出
見出し語の説明に良く使われる言葉を検出し、関連度とする。
§6 要約
多数のサイトから情報を集めるので同じ説明を何度も読まされる可能性がある、これを排除するために、

  1. 一つの見出し語に関する説明群を単文に分割する
  2. 同じ観点に対応する単文を一つのグループにする
  3. 各グループから代表文を選出して、連結する。

ということを行っている。要約によって、クリックやスクロールせずに必要最小限の情報を取得したり、携帯端末での情報取得が可能になる。

4.3 事典コンテンツの検索
 事典コンテンツ検索の基本は、見出し語を入力して説明を表示する方法である。しかし、ユーザの入力が見出し語になかった場合は様々な代替手段を用いて意味のある応答を返し、ユーザを必要な情報へと誘導する。
 まず、前方一致、後方一致、部分一致検索によって文字列が類似する見出し語を検索する。これにより入力誤りや表記のゆれを補完することができる。
 コンテンツの全文検索によって事典コンテンツの逆引きを行う。その結果、「電子メールに感染するソフト」や「印刷機を発明した人」という入力に対して、「マクロウイルス」や「グーテンベルク」などの見出し語を提示する。また、英訳が同じ言葉を同義語として提示したり、関連語抽出によって構成された見出し語同士の関係を可視化して、別の見出し語を探す機能もある。

0 件のコメント: