2007年5月26日土曜日

質問応答技術

質問応答技術は、自然言語で記述された任意の質問に対して大量の組織化されていない情報から答えを得る技術である。例えば「ワールドカップで優勝したのはどこですか」という質問に対して、数年分の新聞記事から答えとなる情報を取り出す技術である。質問応答技術は情報検索、情報抽出、自動要約などの自然言語処理の研究と関連がある。まず、質問応答システムが与えられた質問に答えるためには、質問文中の情報を利用して大量のテキストからある程度の情報まで絞り込む必要がある。これには情報検索技術が不可欠である。さらに、絞り込まれた範囲から答えとなる情報を取り出す技術として情報抽出技術がある。質問応答においては得られた答えが正しいものであるという証拠を示すため、答えが得られた根拠となる情報を提示することも重要である。根拠となる情報としては、答えが得られたテキスト全体を示す方法や、テキスト中の一部を提示する方法が考えられる。しかし根拠となる情報がテキスト中の広範囲に分散している場合には、それを要約して示すことも考えられる。したがって、文書要約技術も質問応答には重要な技術であると考えられる。また、「なぜ」や「どのようにして」などの質問に対する答えを求めている場合など、質問の種類によっては答えをテキスト中からそのまま抽出するだけではなく、要約した形で答える場合も考えられる。この点からも文書要約技術は重要な技術である。またユーザのあいまいな質問内容やシステム側が不十分な回答を返した場合に、質問応答システムに対していくつかの補足的な情報を与える必要がある。これをユーザとシステムとのインタラクションによって実現することも考えられる。またシステム自身がユーザに問い合わせて質問のあいまいな部分を解消することも考えられる。そのような一連の質問応答に対応するためには対話処理技術が必要となる。

質問応答処理の流れ

まず質問表現のパターンから回答が何を尋ねているのかの属性を予測するとともに、特徴的なキーワードを抽出する(質問文解析)、次に文書検索により前記キーワード集合に適合するテキスト集合を知識源であるコーパス(辞書の意味、この場合コーパスとなるのは大量のWebサイトだろう)から抽出する。次に絞り込んだテキストから回答属性に合致する回答候補を見つけ出す(回答候補絞込み)そして得られた回答候補に対してキーワードとの単語間距離などの尺度を用いてスコアを計算し上位のスコアのものを回答として選択する。

質問文解析と固有表現抽出

質問文解析によって質問文が回答として求める情報のタイプとしては、会社名、大臣の名前、商品名や各種の数値情報などの固有表現が多い、これらの固有表現の情報抽出について様々な手法が考案されている。フリーのツールとしては固有表現ツールNExTというものがある。

情報検索

大量のデータから効率よく情報を抽出するには情報検索が必要である。検索システムとしてはNamazuなどフリーで公開されているものもある。

回答候補の絞込み

回答候補が何個か抽出できたら、質問文中のキーワードと回答候補が近い位置にあるほど有力としたり、構文的な類似性を利用したりして回答を絞っている。

質疑応答評価プロジェクト

代表的な質問応答技術評価プロジェクトとしてTREC QA Track とNTCIR QACがある。TREC QA Trackは文書検索から情報検索への技術的発展の目指す研究支援および、文書検索分野と情報検索分野の研究者にアピールすることを目的として設けられた。評価方法は簡単な英語の質問が与えられて、それに対してシステムが自動で回答できるかというものである。検索対象となるデータベースの中には必ず正解が含まれているものとする。さらに回答が複数ある質問に答えるlist task、一連の関連質問に答えるcontext taskも設定された。また事物の定義を答えるdefinition taskも追加され、質問応答技術に対する興味範囲が広がってきている。

質問応答技術の今後

これまでの質問の内容は(固有)名詞を答えさせるものが多かった。例えば「ワールドカップの開催期間は何日ですか?」とか「木製の衛星にはどんな名前が付いていますか?」とか「日本の国鳥は何ですか?」などである。しかし最近では「コリン・パウエルとは誰ですか?」という定義を求める質問や、なぜ?を答える質問にどうやって応じたらよいかの研究が始まっている。また最初に述べたが曖昧性を解消するためにユーザとシステムのインタラクションによって必要な情報を補う研究も必要である。また現在質問応答システムの多くは新聞記事を対象としているが、知識源として百科事典を対象としたものやWebの情報を対象とした研究もあり今後の成果が待たれるところである。

参考文献→IPSJ Magazine Vol.45 No.6 June 2004

0 件のコメント: