2007年6月18日月曜日

Webサーチ技術の現状と今後の展望

1.はじめに

ほとんどのユーザがWebへの入り口としてWebサーチエンジンを利用しており、Webサーチの重要性はますます高まってきている。本稿では、目覚しい発展を続けるWebサーチ技術について、「ユーザの問題解決や意思決定」という観点から、現状の動向を概観するとともに今後の方向性を探る。

2.文書検索からの脱却

従来型のWebサーチエンジンは精度は向上したが依然、検索語に適合する膨大なWebページのリストを返すのみである。ユーザが求めているのは膨大なWebページのリストではなく、自らの問題解決や意思決定に必要な「答え」である。例えば、Web情報に基づいて、世の中の動向を把握したり、行動計画を立案したり、コミュニケーションすべき相手を探し出したりする。しかし、従来型のWebサーチエンジンでは答えにたどり着くまでユーザ自身努力して膨大な情報を集約し洗練する必要がある。そこで次世代のWebサーチに求められるのはユーザの問題解決や意思決定を直接的に支援することである。そのためには、膨大なWeb情報を集約し洗練することによって一段上位の「知識」を発見し利用することが必須である。また、ユーザごとに異なる状況に応じてサーチを適応化させる技術や、ユーザの行動とサーチを連携させる技術などが重要になる。本稿では、従来型の文書検索から脱却し次世代のWebサーチを指向する様々な取り組みについて述べる。

3.Web情報の集約と分析

本章では、Web情報を集約し、より深く分析することによって、Webページ単位の検索では見えてこなかった「知識」を浮き彫りにしようとする試みについて述べる。

3.1 クラスタリングエンジン:検索結果から学ぶ

多くの検索ユーザは、最初漠然とした情報要求しか持っていないことも多く、何度かサーチしながら自分の情報要求を明確化し絞り込んでいく。こうした検索スタイルを支援すべく、検索結果をクラスタリングすることによって、検索結果に含まれる代表的なトピックを発見するクラスタリングエンジンが近年注目を浴びている。クラスタリングエンジンはWebサーチの検索結果に含まれるWebページ集合を内容の類似性に基づいてグループ化し、各グループの内容を特徴付けるラベル(単語やフレーズ)を生成することを行う。ユーザが理解しやすいラベルを生成するために、クラスタリングアルゴリズムとラベル生成は密接に関係しており、例えばZamirらは共通の単語やフレーズを含むWebページ集合を階層的にグループ化し、クラスタとそのラベルを同時に生成するSuffix Tree Clustering(STC)手法を、ZengらはWebページのタイトルとスニペットを手がかりに、機械学習に基づいてラベル候補となるフレーズを発見しそのフレーズを含むWebページをグループ化するクラスタリング手法を提案している。また商用サービスもすでに公開されている。

3.2 評判情報の抽出

レビュー記事を肯定・否定に分けたり、良い点と悪い点を抽出する研究。意見を要約する研究などが行われている。個人の情報発信メディアとして大きな役割を果たしているblogは、評判情報抽出の情報源としても注目されている。blogからの評判情報抽出で問題となるのは、ある話題について述べられている一連のblogエントリ集合を特定し、評判情報抽出の対象となるテキストデータを取得することである。日常会話形式の砕けた文で書かれているためニュースサイトのようなある程度形式がある文と比べて話題分割が難しい。そこで記事の内容だけでなく記事の間に存在する意味構造を利用して話題分割を行うという手法が考えられている。(具体的なところはよくわからないが)

3.3 大量のWebデータに潜む傾向の分析

IBMのWebFountainプロジェクトでは従来のWebサーチエンジンが軽視してきたWebデータ、すなわち掲示板やblog、ニュースグループといったリンク構造を持たないデータに着目している。こうしたリンク構造を持たないテキストデータのほうが興味深いデータを発見するのに有効だと考えているからである。またWebFountainが従来の検索エンジンと異なる点は、大量の分析結果からトレンドを見つけ、例えば「会社の評判」や業界のトレンドといった質問に答えようとしていることである。

3.4 Webページの”見られ方”の発見

自分のWebページが他のWebページからどのように見られているのかを発見する技術として、[Zettsu 05]の「アスペクトマイニング」というものがある。アスペクトマイニングでは、目的のWebページをリンクしている個々のリンクアンカーの周辺テキストを「参照文脈」として抽出し、それらを類似したもの同士のグループにクラスタリングする。これを応用することでほしい情報とその情報を利用する状況(文脈)の両面から検索結果を絞り込むことが可能になる。

4.集合知の利用

4.1 Folksonomy:タグによる集団分類

様々なユーザがWebコンテンツに対して持つ”コンテンツ”を「タグ」と呼ばれるキーワードを使って付与し、ボトムアップなコンセンサスを形成しながら集団でWebコンテンツを分類する。

4.2 集団思考と評判システム

digg.com(技術系のニュースサイト)⇒どの記事がdiggのトップページを飾るかをユーザの投票によって決める。

reddit(某ニュースサイト)⇒"karma system"という評判システムによって記事の優先順位付けを行っている。ある記事が昇格されたり降格されたりすると、その記事を投稿したユーザにも報酬が与えられたりペナルティが付けられたりする。これを”(editorial)karma"という値で各ユーザに付与している。人気のある記事を数多く投稿するユーザほど高いkarmaをもつことになる。すなわちkarma systemはユーザが互いを評価しあうpeer ranking systemを提供する。

5. サーチの個人化

5.1 デスクトップ検索⇒Webサーチエンジンでの技術をデスクトップコンテンツへ拡張

5.2 検索履歴の利用

近年の傾向として、過去に一度検索したページを再度取得しなおす”re-find"機能が注目されている。例えばGoogle My Search Historyでは、個人の検索履歴を保管し、後からそれを検索することが可能である。また、検索結果の中で実際にアクセスしたページを記録し、日付ごとの検索履歴を一覧表示したり、カレンダーに日ごとの検索活動量を色分けして表示したりする。またYahoo!MyWeb2.0では、"tagging,saving and sharing"というコンセプトのもと、気に入った検索結果をコメントやタグとともにユーザのPCに保存し、後から検索できるようにしている。(これはおそらく検索順位の変動による影響を受けないと思われる。)

6. 行動支援ツールを目指して

6・1 サーチとサービスの連携

WebサーチエンジンがWebへの入口として定着してきた今日、サーチから様々なサービスへとユーザを導くために、サーチとサービスを連携させることが注目されている。例えば、HousingMaps.comでは、米国及びカナダの24都市で入居可能な住居の情報を検索し、検索結果を地図上に表示するサービスを提供している。これは、Craigslist(オンライン掲示板)検索とGoogle Mapsサービスの連携によって実現されている。今日サーチエンジンやサービスプロバイダが公開しているAPIを組み合わせる(マッシュアップ)ことによって、ユーザ側で独自の連携サービスを作ることができる。

6・2 Mobile Web サーチ

近年、パケット定額制が追い風となり、携帯電話によるインターネットアクセスが飛躍的に増加している。それに伴い、「ちょっと知りたいことを検索する」という文化が携帯でも根付き始めてる。現状では、携帯による携帯用コンテンツの検索が主流である。例えば、携帯向け書かれたWebページや、着メロ、待受画像の検索などが上げられる、携帯向けサーチの特徴として、入力の障害はほとんどないが、出力が限定される問題がある。また、リンク解析など高度な機能を有するPC向けサーチエンジンに比べ検索精度が悪いことも問題として挙げられる。今後のmobile Webサーチの方向性として、以下のことがあげられる。

  • サーチから地図、路線、グルメなどのサービスと連携
  • ローカル検索(エリア検索)
  • Blogとの連動、例えば、携帯で写真を撮ってblogにアップロードする。
  • 暇つぶし検索。エンターテイメント系のコンテンツ検索の充実

7. まとめ

今後のWebサーチの主な方向性として以下の点が上げられる

  • サーチとマイニングの融合:サーチによって得られるWeb情報を集約・分析(マイニング)することにより、ある興味に対する多種多様な観点や意見、傾向や動向などを発見するとともに、得られた知見をサーチに反映させる。
  • 集合知の利用:増殖し続けるWeb情報の分類や評価を、ユーザの視点からボトムアップな合意形成に基づいて行う。
  • 個人の情報ポータル化:個人が扱うありとあらゆるコンテンツを検索する統合サーチ環境の実現。(グーグルデスクトップ等)
  • 想起型サーチの実現:過去の利用状況や利用目的からコンテンツを特定する形態のサーチ
  • サーチからアクションへの誘導:サーチとサービスの連携や、モバイル環境での利用に特化したサーチ。

参考 人工知能学会誌 21巻4号

0 件のコメント: