2007年5月26日土曜日

Web検索の技術動向と評価手法

今回はWeb文書を対象とした検索技術の最新動向を、とりわけテキスト処理手法およびリンク解析手法を中心に概観するとともに、Web検索に関する評価ワークショップを中心とした評価の取り組みについて紹介する。

Web検索の諸問題

従来の情報検索が扱ってきた新聞記事、特許、論文などとはWeb情報は次のような点で異なっている
  1. 作成者と作成目的の多様性:情報の信頼性、記述の専門性、想定読者など
  2. ジャンルの多様性:論文、個人の日記、商売サイトなど
  3. 表現の多様性:タグを用いたレイアウトや構造化、表や画像などの視覚効果など
  4. 情報の粒度:一つのhtmlに複数の内容が混在
  5. リンクによる参照:参照・被参照の情報の活用が可能
  6. 変化の速度:文書の追加、削除、更新が常時発生。

またWeb検索において効果的な検索を難しくしている要因として、特に重要な点を以下に指摘する

100億程度も存在するWeb文書に対していかに対応するか

これはデータを集めてくることが非常に大変だということを意味する。大規模なWeb文書データに対応した汎用的な検索を実現するには並列化による処理の高速化、あるいは分散化による管理コストの軽減などが必要になる。まあ過度に分散させすぎることに対する批判も多いのだが、例としてこんな記事もある。

検索に関する情報量の不足

ユーザのクエリ(検索キーワード)は明確には何が知りたいのかわからない場合が多い。クエリの長さは平均して2単語程度であるし、さらにユーザは検索結果の1ページ目までしか見ない場合が多い。

情報ニーズの多様性

ユーザの知りたい要求というものが多種多様になってきており、前述の少ない情報しか与えないクエリからその背後に潜むユーザの情報ニーズを理解しそれに即した結果を提示することがWebサーチエンジンの課題の1つである。

トピック・ドリフト問題

映画賞について知りたいと思い[movie awards]という検索語をかけたとする、そうすると検索上位には映画制作会社やそこからリンクが張ってあるオーソリティのあるサイトが上位に入りやすく、本来ユーザーが求めているはずの情報がなかなか得られないことが多い、このように一般的な語を含むクエリが与えられ、その一般的な語によって検索されたWebページがリンク集などにより密に結合されていた場合などで、ユーザが本来求めていたトピックとは関連性が低いはずのWebページが検索結果の上位にランキングされる問題をトピックドリフト問題といい、現在のPageRankやHITSといったリンク構造の重みを解析するアルゴリズムの欠点となっており、これから検討の余地が残されていると思われる。

個人や環境に適応した検索

ユーザから与えられた限定的な情報に基づいて効果的な検索を実現する方法に、ユーザに関する情報やユーザのコンテクストを活用した検索技術、ユーザのおかれた環境に応じて適切なWebページを提示する技術などが挙げられる。

個人化検索

まずユーザにプロファイルをつくってもらう。たとえば趣味や、興味のあるジャンル、性別、年齢などを入力してもらう。あるいは検索履歴などを利用してそのプロファイルを作る方法もある。この情報を利用すると同じクエリを入力した場合でも人によって異なった、その人自身の興味に合わせた検索結果を反映させることができるようになる。個人化検索の課題としてはユーザの興味が時間とともに変化する事にどう対処するかなどが挙げられる。

地理情報に基づく情報アクセス

外出先において携帯端末を用いてユーザの物理的位置から距離的に近い店舗や施設などに関するWebページを優先して検索するというのが環境に応じたアクセスとしてみても典型的な例である。ほかにもWebサーチエンジンの検索結果を地理的な配置に基づいて分類するなどの活用が検討されている。

Web検索の評価の取り組み

Web検索の有効性評価はユーザの実際の利用行動や満足度等も評価しなければならず、どの検索エンジンが優れているというのは数値として出しにくいものである。Web検索に焦点を当てたものとしてはTREC WebトラックとNTCIR WEBタスクが知られている。そこではユーザのページの閲覧時間や、検索の有効性だけではなく効率性(どれだけ効率的にトラフィックを処理できるか)なども評価の対象となっている。また、タスク設計としてはユーザの情報ニーズの種類が所与でない状況で適切な検索を実現することに焦点を当てて議論されているところもある。これは情報ニーズの多様性の問題に焦点を当てたものといえる。

参考文献→IPSJ Magazine Vol.45 No.6 June 2004

0 件のコメント: