2007年11月19日月曜日

最新のSEO関連研究 コンテンツスパムの発見法

検索エンジンのコンテンツに関してスパムにならないようにはどうしたら良いか、キーワードが5%が最適とか言っている前に最新の論文を読んだほうが良いだろう。ということでWorld Wide Web Conference2006からそれに該当する論文を読んで要約してみた、これを理解すればどのような行為がスパムになるのかが良くわかるはずである。SEO業者も必見かと思います。

論文はこちら このグラフはこの論文中のものを指しています。 また計算式がみにくいですけどこれも論文中のものを見てもらえれば助かります。

Detecting Spam Web Pages through Content Analysis


  1. Introduction

サイトのクオリティを高める努力をせずに検索エンジンのランキングを外部リンクや人気キーワードのサイトへの埋め込みなどによって不正に上昇させるような行為を検索エンジンスパムという。英語のサイトの13.8%はスパムサイトであるといわれているがこれを看破できないサーチエンジンはリソースの約7分の1を浪費してしまい、更にはサーチエンジンのクオリティの低下でユーザが離れてしまうのでどうにかしなければならない。

これらを防ぐために

  1. Webの大きさを考ると人手を介さず自動でスパムサイトを発見しなければならない

  2. 正統な(スパムでない)サイトをスパムとみなしてはいけない。

  3. クエリーをユーザーが投げる前にはスパムを発見したい(そうすることで無駄なロボット巡回、クエリー処理、インデキシングを省くことができリソースを有効活用できる。)

この論文で我々はスパムを発見する様々な方法、また効率、精度よくスパムサイトを発見するアルゴリズムを作るために、如何に個々の方法を統合する機械学習技術を使ったかを示す。

この論文の構成は次のようになる

§2:実験概要、実世界データセットの紹介

§3:データセット中のスパムの蔓延度合いをドメイン、言語別で比較

§4:スパムの発見する方法を説明

§5:我々の手法の評価

§6:関連研究

§7:結論と将来への展望


2.実験概要とデータセット

データセットMSNサーチエンジンが収集したサイトデータから105,484,446(約1億)のページをランダムで取ってきたもの。

厳密にはMSNサーチが取り込むデータ自体もスパム排除プログラムを潜り抜けたものであるからランダムとは言えないが。しかし実際にユーザが目にするのはそのようなサイトであるし、我々の実験で得られた結果も、真の意味でランダムでとってきたのよりも悪くなるはずなので控えめな見積もりということができるので十分にこの論文の価値はあるといえる。

  1. どれくらいスパムがあるの?

この章では、どれくらいスパムがWeb上に蔓延しているのかと、トップドメイン名、国などで区切った時あるページの集合が他のページの集合に比べてどれくらいスパムが多いのかを調べていく。Figure2はどのトップレベルドメインにスパムが多いかを調べた結果であり、Figure3は言語によるスパムサイトの割合である。この二つの実験からスパムはかなりの割合でWebに蔓延しており、また特定のドメインはスパムだらけである。これらの調査はスパム発見手法に生かしていく。


  1. 内容に基づいたスパムの発見

我々のWebDBの論文[8]で、我々はスパムの発見手法を数多く説明したが、その中には完全にページの内容と独立したものもある。(リンク構造やDNSレコードを使ったもの)また一方で内容が解釈されていないもの(ページの進化状況、(構造的に?)似たようなものをクラスタリングする)もある。

 この論文では、我々は全てコンテンツに基づいたスパム判定を行う。

 我々は1億のデータから最も多数ある(54%)英語のページをランダムで17168ページ取得してそのそれぞれに対して人手でスパムページかそうでないかを仕分けした。そのうち13.8%がスパムページで86.2%がスパムページでなかった。この章の残りで我々が研究したコンテンツに基づくスパム発見手法を詳細に説明していく。


    1. ページ中の単語数

スパムページは人気キーワードをとかく詰め込む傾向があるので、過剰な数の単語がスパムの指標になるのかを調べ、その結果は図4のようになった。確かにページ数が多いほどスパムの割合は高くなるが全ての範囲でスパム率は50%を切っているのでこれだけでスパムかどうかを判定するわけにはいかない。


    1. ページタイトル中の単語の数

スパムの常套手段のもう一つとしてページタイトル中に単語を詰め込むというものがある。そこで我々はページタイトルに含まれる単語数とスパムの関係を調べ、その結果は図5のようになった。図4と図5を比べると図5のページタイトルに含まれる単語数の方がスパムを判断する上で良い指標となるといえる。


    1. 単語の平均の長さ

クエリを複数語を指定して投げる時にスペースを入れない人がいるのでそれを狙って単語をつなげているページがある。例えば”freepicture”,”freemp3”などなど。そこで単語の平均アルファベット数とスパムの関係を調べてみたところ図6のようになった。単語の長さが8文字をすぎるとかなりスパムの割合が高くなることがわかる。


    1. アンカーテキストの量

リンクはアンカーテキストとなっているが、単に他のページにリンクの渡すためだけのカタログページが存在する。そのようなサイトは大量の初リンクがあるのでアンカーテキストの単語が全単語に占める割合とスパムとの関係を調べた。その結果図7のようになった。ややアンカーテキストの割合が高いほどスパムの確率は上昇するがあまり顕著ではなかった。


    1. 見えているコンテンツの割合

マークアップでない単語の総バイトをページの総バイト数で割ったところ図8のようになった。これからスパムページはマークアップ(スクリプトやスタイルシートなども含む)が普通のサイトより少なく人にサイトを見せるための装飾等を省いているといえる。


    1. 圧縮率

冗長なコンテンツがあるページは圧縮器をかけることによりサイズを縮小できる。例えば同じ単語が何度も使われていたりすると圧縮率は高くなる。そこでGZIP[14]という圧縮器を使って圧縮率とスパムの関係を調査して、その結果が図9のようになった。 


    1. ページ中で一般的に良く使われる単語が含まれる割合

スパムページは検索エンジン対策のため文章が不自然になっている可能性があるので、データセットで上位200位までの頻出単語が全文章中でどれくらいの割合で使われているのかを調べ、それとスパムとの相関を図10に示した。この結果スパムページは一般的に使われている単語をあまり使っておらず偏りがあることがわかる。


    1. 一般的に良く使われる単語の割合

データセットで上位500位までの頻出単語のうち何種類がページ中に含まれているかを求めスパムとの相関を調べた。4.7の場合例えばページ中に”a”とだけ書かれた文字があったとするとスコアは1となるが4.8の場合は1/500となる。うまく4.7の欠点を補う意味で調査をした。その結果図11のようになったが全体的に控えめな結果となった。


    1. 独立したN-gramの可能性

スパムページは文法的におかしい傾向が強いためn-gramにより文書の傾向を調べた。理想的には文法的かつ意味的に正確さを追求したいのだが、計算量が多くなるため統計的な手法であるn-gramを用いることにした。

という式でまずあるn-gramの発生率を求める。分母はngram全体の数、例えばngramはオーバーラッピングするので3gram5個単語があるとすれば最初の3つ、真ん中の3つ、最後の3つで合計total number of ngram = 3 となる。分子はこれら3つの重複数で最初、真ん中、最後の全てが異なる場合1となるし、最初と最後が同じで真ん中が異なると最初と最後の値が2となり真ん中が1となる。

この式から文書全体のn-gramの発生率のようなもの(文書中にはk個のn-gramを持った文書の確率は個々のPの確率の積であると書かれているがまったく理解できない)を取り、それを文書の長さによる差がでないように正規化すると

となる、これをコンピュータの誤差が出にくいようにさらに変形して

とする。この式からわかることはngramで共起する回数が少ないほどlogPの値が小さくなる、すなわち負の値が大きくなるためIndepLHの値が大きくなる。また逆にngramで共起回数が多いほどlogPの値が大きくなり、すなわち負の値が小さくなるためIndepLHの値は小さくなるということである。(これ以上は理解不能)

図12はこのIndepLHの値とスパムとの関係である。極端にngramでの共起が少ないときと多いところにスパムが集まっている。共起が多いときは同じ表現を繰り返し何度も使っているスパムであると判断できる、また(グラフのどこからその根拠を得ているのかは不明だが)起こりそうにないngramで構成されている文書はよりスパムである確率が高い、おそらく文法的にありえない文書を使っているからであろう。


4.10 条件付ngramの可能性

と条件付確率を定義するとより計算量が増えるかわりに精度が上がるらしい。(どう、または精度が向上するのかはよくわからないがとにかくより良い手法らしい)そして後は4.9と同じようにして計算してスパムとの関係を調べると図13のようになった。大体図12とライングラフが一致している。(結局あまり大差ないやん)。


5.今までのデータを組み合わせて分類器の生成

今までのデータを用いて分類器を生成して、ページがスパムであるかスパムでないのかを求めた。これを行う技術としては決定木、ルールベース技術、ニューラルネット、サポートベクターマシンを使った。そのうちで最も分類精度が良かったのは決定木のC4.5というアルゴリズムである。C4.5は簡単に説明すると最も分類精度が高い順にルートから木を生成していくというアルゴリズムである。分類例は図14のようになり、再現率と精度はテーブル1のようになった。


5.1 分類の正確さの改善

より分類器の正確さを上げるために我々は最も有名な2つの技術「bagging」と「boosting」を使おうと思う。

Baggingの説明

  1. もとのデータセットからN個のデータセットを作る。その時各データセットはもとのデータセットからそれぞれn個のデータをランダムで選んだものとする。(それゆえデータセット間のデータの重複は許される)

  2. N個のデータセットそれぞれについて分類器を作成する

  3. それぞれの分類器を使ってスパムかスパムでないかを判別する。

  4. 最終的な結果は分類器の多数決によって決める。

これがBaggingの概要であるが今回はN=10,n=15453で実験して行ってみたところ結果は表2のようになり正確さは上昇した。

Boostingの説明

  1. 最初に全てのデータに1/nの重みを割り当てる(今回の場合n=15453)この重みはトレーニングセットの中で一つデータを取り出した時に該当するデータである確率である。

  2. この重みを使って分類器を生成する

  3. 分類した際にスパム・ノンスパムの分類を間違えたデータは重みを増やし、正解したデータは重みを減らす(つまり学習例として適しているデータの重みを増やすってことだとは思う)

  4. 2.3を繰り返す(今回の場合10回)

  5. 10個分類器ができるのでスパム・ノンスパムの判定は重み付投票で決める。

これにより分類してみたところ結果は表3のようになりかなり改善が見られた。

6.RELATED WORK

  1. 機械学習の関連研究

C4.5を使ったEmailの分類[16,28]
これは人が読むものに対するスパムだが我々は検索エンジンのロボットが読むためのスパムを発見するという意味で異なる。

  1. スパムの役割やシステムについて

    • Henzinger[15]はスパムがサーチエンジンにもたらす脅威を認めた

    • Perkins[25]が数多くのスパムテクニックを定義しGyongyiGarciaMolina[13]がよりそれを詳細に分割した。

    • DeStefano[20]Webスパムと宣伝の関係を指摘(調べてみたらあるサイトのリンクポピュラリティを故意に上げよう(あるサイトを宣伝しよう)とした時に現れるリンク構造を発見したみたいな内容であった)

スパム手法は一般的にリンクスパム、内容スパム、クローキングに大別できる

  1. リンクスパムについて

  • Davison[7]は早い時期にリンクスパムについて調査しており、縁故主義のリンクについて考察している

  • Amitay[2]はリンク構造をルールベースの分類器に入れてリンクスパムを発見する手法を提案

  • Baeza-Yate[3]はページランクを上げるために示し合わせたリンク形態の研究を示し、Adali[1]はあるページにリンクを張るためのみにページを生成することが最も効率的なスパムの手段である事を示した。(今では古いと思うが)

  • Zhang[31]らはどうやってページランクを攻撃(スパム)に耐えられるものにするかを示した

  • Gyongyi[11]は信頼の置けるサイトからのリンクを辿ることによるTrustRankというものをスパムでないページの発見のために用いた。

  • Benzur[4]らは不自然にページランクを上昇させているページに対してどうペナルティーを与えるのかについて示した。

  • Wu Davison[29]Gyongyi と Garcia-Molina[12]はリンクファームの発見手法について研究した。

  • [8]で我々はリンクスパムを指数法則からの逸脱をもとに発見する方法を示した。

  • Mishne[21]らはブログのコメントにあるリンクスパムを発見するために単語の使用頻度を用いた確率的な手法を提案した。


4. コンテンツスパム 

  • [8]で我々は長いホスト名、多くのダッシュやドット、数字が入っている、単語に多様性がない、頻繁に広範囲にわたってコンテンツを修正する、ということがスパムであるかどうかの良い指標になることが多いということを示した。

  • [9]で我々は切り取りと貼り付けで作ったようなサイトのスパムを調査して、そのようなページを発見する方法を提案した。

  1. クローキング
    クローキングとはWebサーバに細工をして検索エンジンの巡回ロボットに一般の閲覧者とは異なる内容のWebページを見せる事を言う。(フラッシュ等を多用しているサイトでは検索エンジンとの親和性が低いためそれをカバーするため最適化したHTML構造を巡回ロボットに見せるというパターンが多い)

    • GyongyiMolina[13]は現在のクローキングテクニックを示した。

    • WuDavison[30]は3つの別々のページに共通する単語を計算することに基づいたクローキングの発見方法の有効性を示した。(意味不明)注目すべきはクローキングが有益なものを使うということである。例えば帯域幅やストレージコストを減らすためにサーチエンジンに対してクローキングがマークアップなしでページのコピーを返すような感じである。(サーチエンジンに有用な部分だけを見せるということだと思う)


7.結論と先への展望
Webスパムと検索エンジンのいたちごっこは続いていくであろうが我々の技術がより良い検索のために役立てばうれしいと思う。継続的な研究により効果的なスパムを行うよりもコンテンツ作りを充実させたほうがよりリスクが少ないようになるのが我々の願いである。


2007年11月17日土曜日

ここが変だよGoogle翻訳

GoogleにはGoogle翻訳というサービスがある。http://www.google.co.jp/translate_t?langpair=jaenこれは文法をきちきちと解釈して訳をつくっているのではなく、日本語文書とそれに対応する英語文書があれば、対応関係などを大量に学習して自動的に適切な訳を出してくれる機械学習を用いている。
その性能は非常に高く、別に暇な人が対応表みたいなものをつくったわけでもないのに「千と千尋の神隠し」と入れるとSpirited Awayと返すし、「バイオハザード」と入れるとRezident Evilと、固有名詞までしっかりと学習している。
ところが・・・・「JOJOの奇妙な冒険」と入力すると
WRYYY
とか返してきた。これはJOJOの最大の敵であるDIOの有名な奇声のことなのだが一体何をどう学習すればWRYYYになるのか見当もつきません。Googleなりのギャグととらえるべきでしょうか?
他にも「ニューガンダムは伊達じゃない」とかガンダムの名言でも入れてみるとKiwi is not NYUGANDAMU(ニュージーランド人はガンダムではない)とか返してきた。
今後もGoogleからは目が離せません!

2007年11月7日水曜日

Ajax vs Flash

リッチクライアントを実現するためのコア技術であるAjaxとFlash、どちらがどのような方面で一体優れているのか比較検討してみたい。

ニューヨークで行われたフラッシュ先進会議みたいなものでAjaxの動きがフラッシュ製作者にどのようなインパクトを与えるかという話題があったそうである。

クライアントに対して行えることに関してはFlashはDHTMLよりかなり優位に立っているということがいえる。Ajaxをフラッシュの替わりに用いているサイトの特徴としてはユーザーインターフェースや機能が比較的簡単なものであるということが言える。確かにGooglemapsのような巨大予算を費やした例外もあるが、これはGoogleがビジネス上の思惑でmacromediaやadobeに頼ったシステムを作りたくなかったゆえではないか?という事が伺える。まあしかしフラッシュにもAjaxにも長所、短所がありそれらについて簡単にまとめてみる。

Flash

・プラグインをしなければならず、また決められた範囲の場所にしか表示できない。

・互換性についてはあまり考えなくてもよく作るのが簡単。

・CSSをある程度しかサポートしていない

・javaに似た堅牢なプログラミングモデル

・テキスト表示が弱い、(汚い?)

Ajax

・html、ブラウザとの親和性が高い

・CSSをフルサポート

・動的なコンテンツ生成が容易

個人的にはどちらが良いのかはあまりわかりませんが、javascriptとflashを連携させることなども可能なので両方学習しておいていいとこどりするのが一番いいと思います。

2007年11月6日火曜日

情報可視化インタフェース

数値データから描かれる統計グラフ⇒値の推移を把握するのに適しているが節目と考えられる部位や、背景・影響などを読み取るのは難しい

新聞記事などのテキスト⇒具体的な値の推移把握には不十分だが、背景や影響、節目として解釈すべき箇所を理解する際には有効

ということなのでこれらの情報を相補的に扱うことができればユーザーインターフェースは確実に向上する。

時系列数値情報とテキスト情報を組み合わせて情報を提示する場合、その最も単純な実現方法は、白書等より得られる数値情報を統計グラフとして描画し、新聞記事等のテキスト情報をその発行日を用いてグラフの時間軸に関連付ける方法であろう。

しかし、この方法は欠点があり、それは記事の発効日を利用したとしてもその記事がいつの出来事について書いているのかがわからないということである。今までの変遷をつづったものなのかもしれないし、昨日の出来事を書いたものかもしれない。これをまずテキストの自動解釈技術に基づいていつからいつまでの出来事について書いたものなのかを判別して時間軸と連動させる必要がある。またテキストがグラフのどの変遷箇所に注目して書かれたものなのかを解釈必要がある。

ユーザの探索行為を考えた場合(1)グラフの特徴的な箇所に着目し、それに関する知見を得るためにテキストを参照する。(2)テキスト情報から気になる箇所を見つけそれがグラフのどこに対応しているのかを参照する。っという双方向の情報アクセスが想定できる。そのため、情報提示インタフェースはユーザにテキスト情報の一覧からグラフの対応箇所を見つけるインタラクションを提供する必要がある。

Webで情報可視化インタフェースを考えるとフラッシュかAjaxあたりで実装できそう

2007年6月18日月曜日

Web Trust 研究動向

1.はじめに

フィッシング詐欺やチャリンカー詐欺(現物を確保する前にネットオークションに出品し、注文を受けてから安く調達して利ざやを稼ぐ自転車操業的な手法。また、赤字になるような安い価格で出品を続け、高い評価がたまったところで大量の仮出品を行い、入金されたところで逃亡する詐欺のこともある)、P2Pソフトを介した個人情報漏えい問題など、Webの利用が進むにつれ次々に新しい問題が起こっている。今後Webを健全な社会インフラとして活用するためにはWebの信憑性の扱いが最大の課題となっているといっても過言ではない。そこでWebを安心して使えるようにするためWebの信憑性の問題に様々な分野で取り組んだ研究が近年注目されている。そこで本稿ではこれらをWeb Trustの研究と呼び、具体的な事例をあげて現状を紹介する。

2.Trustとは?

2.1 TrustとPrivacy,Security

相手を信頼するためには相手に関するあらゆる情報を判断材料として入手したいだろう、こうした相手に関する情報の入手につきまとうのがPrivacyである。Privacyは、情報のオーナシップやコントロールに関する権利とされ捉えられ、またその権利を保護することがSecurityである。リスクを減らすには、できるだけ多くの判断情報を集めたいが、これを追求するとPrivacyの考えが脅かされる。一方Privacyを尊重しすぎると、相手を信頼するに至らないという局面が増える。こうした意味で、信頼に基づく社会を実現するには、PrivacyとTrustとのバランスを考慮する必要があり、この点がPrivacyの取り決めを難しくする要因のひとつである。また、Privacyを保護するSecurityが確立していないと、やはりPrivacyは保護されないことになる。Trustに立脚した社会の実現は、PrivacyとSecurityの課題と切り離せない関係にあるといえる。

2.2 Trust研究のマップ

イタリアCNR(National Research Council)のInstitute of Cognitive Sciences and Technologies(ISTC:認知科学技術研究所)では、Trustを総合的に研究するため,T3 Groupという研究組織が活動している。T3はTrust Theory and Technologyの頭文字をとったもので、様々な分野の研究者が集まり、Trustとは何か、Trustは社会や技術にどのような影響を与えるのかなどを幅広く検討している。T3では、Trustを扱う研究分野として以下の5分野をあげている。

  • 経済学(Economics/Organizations)
  • 社会学(Sociology)
  • 心理学(Psychology)
  • コンピュータサイエンス(Computer Science)
  • 社会的認知科学(Socio-cognitive approach)

§1 他分野におけるTrust研究事例

経済学:経済学でのTrustは、主に顧客が企業などの組織に対して感じる信用や安心などの基準であり、変数として表せる因子の一つとみなされている。

社会学:社会学では、Trustを主に個人対個人の信頼関係と捉えている。

心理学:どういう状況でTrustを感じるか、あるいはTrustとTrustに類似した概念をどのように識別するかを中心に議論している。

社会的認知科学:社会的認知科学では、人間が様々な要因からTrustを導き出す過程をモデル化する研究が行われいている。

3.Web Trust研究

3・1 WebにとってのTrustの意義

Webを含むコンピュータサイエンスでは、Trustは大きく分けて二つの異なる側面から議論されている。一つはセキュアなシステムの構築手法、もう一つはネットワーク上でのエージェントに対するTrustを算出する手法である。前者は、高いセキュリティを持つシステムやセキュリティを重視するユーザはTrustworthyであるとするものである。一方後者は実世界での組織や個人の間の関係をコンピュータネットワークに適用し、ネットワーク上のノードやWeb上のオンラインショップ、それらの利用者などをエージェントと捉え、その信憑性を推定しようとするものである。Webには、実世界の距離を超えたコミュニケーションを可能にし、匿名性が高いという2つの大きな特徴があるため、実世界よりも大きなチャンスとリスクがあり、相手を正しく選択する重要性が高い。

3・2 Trust推定のための評判情報管理

利用者の評価情報を元に、エージェントのTrustを予測する一連の仕組みは、評判管理システム(reputation system)と呼ばれている。Reputation systemの基本的なアイディアは、今まで面識のない相手のTrustを「間接的な情報」である評判情報をもとに予測することにある。ここで「間接的な情報」とは、すでにこの相手と面識のあるほかのエージェントによる評価を意味する。

Trustの研究は大きくはcentralized型とdistributed型に分けることができるがこれらについて説明していく

§1 Centralized Reputation Systems

評判情報をサーバ上で中央管理するシステムで、商品レビューサイトなどに代表される情報提示サイトなど、数々のWebサービスにおいてreputation systemが利用されている。最も有名なものがヤフーオークションなどで利用されているユーザ評価方式であり、取引完了後、売り手と買い手のそれぞれが相手に対してプラス(+1)、中立(0)、マイナス(-1)の評価を下すプリミティブなフィードバック方式となっており、あるユーザの評価値は、このユーザが受けた評価値の総和(ないしは平均値)となる。また、オープンソースプログラマのための情報共有コミュニティであるadvogatoにおいてもメンバの評価(スキル習熟度)を管理するreputation systemが提供されていて、ここで採用されているAdvogato's trust metricは、各メンバをnodeとし、メンバ間の参照情報をedgeとする有効グラフを用いてメンバ評価を行う。またEpinionという製品及び店舗のレビューサイトではユーザはレビューとレビュアの双方に評価情報を付与することができる。

§2 Distributed Reputation Systems

中央管理を必要としない分散型reputation systemに関する研究は、主にP2Pファイル共有におけるファイル詐称問題への対応策として研究が進められてきた。例えばMudhakar SrivastsaはP2P環境下でのピア(通信相手)の選択にTrustを導入し、あるファイルを取得する場合にTrust値の高い(信頼できる)ピアを選択することで、故意にウイルス感染させたファイルを配信するような悪質なピアに接続する危険を減少させるシステムを提案している[Srivatsa 05]

また中央管理型とは異なり、分散型reputation systemにおいては、評判情報が各ユーザの手元に点在することになる。このため、あるユーザに関するTrustを調べる際には、他のユーザから該当ユーザに関する評判情報を収集する必要がある。そこで、この評判情報を如何に効率的に収集するか、如何に分散する評判情報を元に必要とするユーザのTrustを計算するかがポイントとなる。Abererらは、ユーザのマイナス評価を分散環境下において共有するアーキテクチャを発表している。[Aberer 01]

また評判情報の一貫性をどう管理するかといった分散環境特有の課題もある。

§3 評判システムの課題

効果的なreputation system実現のためには、いくつか解決すべき課題が存在する。Resnickは、正確なReputationを得るためには、(1)利用者からのフィードバックをどのように誘発するか、(2)信頼性のあるReputationの配信をどう実現するかなどの課題を解決する必要があるとしている。(1)の問題については、ユーザに対してフィードバックへの対価として金銭的インセンティブを与えるアプローチや、ポジティブとネガティブの両方のフィードバックを採用することで、比較的少数のユーザ間関係からでも高い精度でTrust値算出が計算可能な手法を検討するアプローチがある。しかしこのシステムではポジティブ方向に偏りがちなのでより正直な評価を引き出すために匿名性を加えたreputation systemも考えられている。(2)については悪い評判がついたエージェントが、いったん自分のIDを捨てた後、新規参入エージェントのフリをして新たなIDと新たな評判を取得することが問題となっており対応が非常に難しい。また悪意を持ったユーザを統計処理などにより除くといったことも行われている。

3.3 ページの内容による信憑性の推定

FoggによるWebページの信憑性を心理学的な視点から調査した研究があるが、それによると大きく分けて5つのグループがあり、それぞれ

  1. Real-World Feel Scale
    組織の住所や社員の顔写真が掲載されているかといった実世界での実在性を感じさせる基準
  2. Ease of Use Scale
    キーワード検索が可能か、リンクナビゲーションが適切かといった使いやすさによる基準
  3. Expertise Scale
    記事の出展が明記されているなど、情報の専門性、技術的裏づけに関する基準
  4. Trustworthiness Scale
    著名なサイトからリンクされている、よく知られた企業のサイトであるといった社会的な信用に関する基準
  5. Tailoring Scale
    情報を送信すると確認メール返信されるなど、細部の作りこみに関する基準。

3.4 その他のWeb Trustに関する研究

§1検索エンジンのランキング

検索エンジンのランキングの信憑性として、意図した相互リンクなどをどこまで認めるのか、また本来のランキングのあり方を改めて問うてみる、といった動きが見られる。

§2 評価表現抽出

blog等から個人の主観的な意見を抜き出そうということも行われている。ここでは文章中に表れる「良い」評価や「悪い」評価を自然言語処理技術を用いて抽出し、その記述全体としての(おそらく信憑性)の評価を算出するというものである。(「良い」「悪い」の記述からその文に対する信憑性を求めているのか、それともある製品があってそれに対して肯定的な意見が多いのか否定的な意見が多いのかを単に調べているだけなのかは論文内容からはよくわからない)

参考文献 人工知能学会誌 21巻4号

blogマイニング ーインターネット上のトレンド、意見分析を目指してー

1.はじめに

ブログは通常のWebページとは異なり、速報性、リアルタイム性のある新鮮な情報が発信されることから、掲示板同様有用な情報源と考えられるようになってきている。このblogを大量に収集し、収集したblog集合を様々な手法で分析することで一般の人々の「生の声」をうまく抽出することに現在関心が集まっている。

2.blogとは?

blogの情報源としての特徴の第一は、時系列情報を伴った膨大なテキスト集合であるという点であろう。いうまでもなく、内容を書いた日付(時刻)がメタデータとして付与されているテキストはこれまでで希少であり、そのため経年変化などの動向調査を行う素材としては非常に興味深いということができる。また上述したように、blogの書き手が一般の個人であり、その内容から一般の人々が何をし、何を思っているかを抽出できる可能性があることがblogを情報源として魅力的にしている第二の理由といえる。さらにblogの場合、トラックバックなど付加的な機能により、人と人の間のつながりに関する情報を入手しやすいという特徴もあり、後述するコミュニティ抽出などのように個人間のつながりに関する分析に向いているという特徴もある。

3.blogマイニング

       -blogから社会の何が見えてくるのか-

blogを対象にした分析にはどのようなものが考えられるだろうか。現状ではblogマイニングと呼ぶことができる分析技術は以下のようなものである。

  • Authority分析
  • トレンド分析
  • 評判分析
  • コミュニティ抽出
  • blogの書き手の属性推定
  • 実世界の動向(例えば、株価、売り上げ)との相関分析
  • spam filtering
  • 自動要約
  • 情報の重要性、信頼性評価
  • blogのエントリの自動分類、トピック同定
  • マスメディア(例えば、新聞記事)とblogの自動対応付け

4.blog検索 ーblogによるランキング手法

blogのみに的を絞った検索エンジンとしては、例えば、未来検索livedoor,Yahoo!ブログ検索などがあるが、これらは人手による収集、あるいはpingサーバからblogサイトの情報を得て、RSSを利用することでblogを収集する検索システムである。ブログ特有のランキング付けとして、日付順、更新間隔が短いもの順などを利用することが考えられる。

5. blogにおけるトレンド分析ーいつどんな話題が盛り上がっているのか?

ある程度の規模のblogページを利用することが可能な場合、それらのページの中で、あるキーワードの出現頻度がどのように推移するかを計ることで、そのキーワードが「いつ」、「どの程度」注目されていたのかを知ることが可能である。出現頻度のみを注目度の指標にするだけではキーワードごとの総出現頻度の差を受けるといった問題がある。(つまり人気キーワードと人気キーワードではないが最近注目されているキーワードの総出現頻度が同じである時、それらを同等に扱うのは間違いであり、最近注目されているキーワードをもっと優遇すべきということ)そこで筆者らはキーワードの出現間隔が狭くなってきている状態(バースト)を発見することによって、キーワードが注目されていると考えられる期間を検出している。

6.評判分析ー人々の意見を収集、分析する

blogが個人の発信するメディアであることから、現状評判分析がblogマイニングで最も関心をもたれている技術といってよいだろう。評判分析では、blog中の、ある対象に対する個人の肯定的あるいは否定的意見を抽出、表示することが目的となる。blogWatcherでは、ある対象に関する評判情報を検索することができる。実際にキーワードとしてipodと入力すると、評価表現が肯定的な評価か、否定的な評価かなどが自動的に判定されグラフにより傾向を掴むことができる。評判分析手法は、テキスト中の肯定的・否定的意見箇所を抽出する手法、それらの箇所がどの対象に対する意見であるかを同定する手法、それらの箇所がどの対象に対する意見であるかを同定する手法、の大きく2つの要素技術に分けることができる。

7. blog空間におけるコミュニティ抽出

blog空間におけるリンク構造を解析しblogのコミュニティを抽出しようという試みが多数見られる。またコミュニティが時間経過とともにどのように変化していくかを分析する手法なども研究されている。

8. その他のblogマイニング技術

8.1 blogの書き手の属性推定

blogの書き手の属性が推定できると、例えば属性による分類ごとに分析結果を示したり、また、居住地域を特定できれば、その居住地域に関して記述されている内容は、「地元」の人の記述として遠方の人のものより信頼性を与えられる可能性もでてくる。書き手の属性としては、性別、年齢、居住地域などが現在推定の対象となっている。

8.2 実世界の動向との相関分析

blogマイニングの結果、トレンドや評判の推移に関する情報がblogを情報源として得られるようになると、次は、このblog中での動向が実世界での動向とどのように相関するのかを分析したいという関心も当然高まってくる。この典型例が、blogの中での動向が実世界での動向とどのように相関するのかを分析したいという関心も当然高まってくる。この典型例が、blogの中での記述が選挙結果とどのように関連したかを分析するものといえる。同様に、株価の推移がblog中の記述とどのような相関にあるかを分析するという研究もある。またGruhlらは、amazonにおける書籍の売り上げランキングとblog上での言及数の推移の相関を分析している。

9.blogWatcher-インターネットから社会の関心、意見を収集・分析する

blogWatcherでは、システムが「今話題のトピック」と判定した話題を紹介するためのblog(メタブログ)を自動生成している。これは、全単語についてのバーストを計算することでその日にバーストしている単語がわかるため、その単語を元に注目されている話題を発見し,

その話題を、Movable Type(ブログのサーバサイドソフトウェア、投稿された記事をデータベースに保存しあらかじめ決められたテンプレートでその内容を表示するもの)で作られたblogに対し、毎日記事として(自動で?)投稿することで実現されている。メタブログでは特に何も入力しなくてもシステム側が推薦するコンテンツを見ることができるというような使い方の違いが存在する。

第2版で追加された機能である、ニュースとブログの自動対応付けでは、ある新聞記事に関して記述しているblogエントリを自動的に特定する。この機能により、記事にリンクを張っていないエントリでも、元記事を参照できるだけでなく、記事に言及しているblogエントリを検索できるので、新聞記事に関してのblog中での反応を閲覧可能である。また第三版では行動分析により、その行動がどの時間帯(朝、昼、夕方、夜)に行われたものかを自動推定する機能を追加予定である。ここでは「みんなは**をいつ食べている?」といった疑問に答えられることを目指している。

Webサーチ技術の現状と今後の展望

1.はじめに

ほとんどのユーザがWebへの入り口としてWebサーチエンジンを利用しており、Webサーチの重要性はますます高まってきている。本稿では、目覚しい発展を続けるWebサーチ技術について、「ユーザの問題解決や意思決定」という観点から、現状の動向を概観するとともに今後の方向性を探る。

2.文書検索からの脱却

従来型のWebサーチエンジンは精度は向上したが依然、検索語に適合する膨大なWebページのリストを返すのみである。ユーザが求めているのは膨大なWebページのリストではなく、自らの問題解決や意思決定に必要な「答え」である。例えば、Web情報に基づいて、世の中の動向を把握したり、行動計画を立案したり、コミュニケーションすべき相手を探し出したりする。しかし、従来型のWebサーチエンジンでは答えにたどり着くまでユーザ自身努力して膨大な情報を集約し洗練する必要がある。そこで次世代のWebサーチに求められるのはユーザの問題解決や意思決定を直接的に支援することである。そのためには、膨大なWeb情報を集約し洗練することによって一段上位の「知識」を発見し利用することが必須である。また、ユーザごとに異なる状況に応じてサーチを適応化させる技術や、ユーザの行動とサーチを連携させる技術などが重要になる。本稿では、従来型の文書検索から脱却し次世代のWebサーチを指向する様々な取り組みについて述べる。

3.Web情報の集約と分析

本章では、Web情報を集約し、より深く分析することによって、Webページ単位の検索では見えてこなかった「知識」を浮き彫りにしようとする試みについて述べる。

3.1 クラスタリングエンジン:検索結果から学ぶ

多くの検索ユーザは、最初漠然とした情報要求しか持っていないことも多く、何度かサーチしながら自分の情報要求を明確化し絞り込んでいく。こうした検索スタイルを支援すべく、検索結果をクラスタリングすることによって、検索結果に含まれる代表的なトピックを発見するクラスタリングエンジンが近年注目を浴びている。クラスタリングエンジンはWebサーチの検索結果に含まれるWebページ集合を内容の類似性に基づいてグループ化し、各グループの内容を特徴付けるラベル(単語やフレーズ)を生成することを行う。ユーザが理解しやすいラベルを生成するために、クラスタリングアルゴリズムとラベル生成は密接に関係しており、例えばZamirらは共通の単語やフレーズを含むWebページ集合を階層的にグループ化し、クラスタとそのラベルを同時に生成するSuffix Tree Clustering(STC)手法を、ZengらはWebページのタイトルとスニペットを手がかりに、機械学習に基づいてラベル候補となるフレーズを発見しそのフレーズを含むWebページをグループ化するクラスタリング手法を提案している。また商用サービスもすでに公開されている。

3.2 評判情報の抽出

レビュー記事を肯定・否定に分けたり、良い点と悪い点を抽出する研究。意見を要約する研究などが行われている。個人の情報発信メディアとして大きな役割を果たしているblogは、評判情報抽出の情報源としても注目されている。blogからの評判情報抽出で問題となるのは、ある話題について述べられている一連のblogエントリ集合を特定し、評判情報抽出の対象となるテキストデータを取得することである。日常会話形式の砕けた文で書かれているためニュースサイトのようなある程度形式がある文と比べて話題分割が難しい。そこで記事の内容だけでなく記事の間に存在する意味構造を利用して話題分割を行うという手法が考えられている。(具体的なところはよくわからないが)

3.3 大量のWebデータに潜む傾向の分析

IBMのWebFountainプロジェクトでは従来のWebサーチエンジンが軽視してきたWebデータ、すなわち掲示板やblog、ニュースグループといったリンク構造を持たないデータに着目している。こうしたリンク構造を持たないテキストデータのほうが興味深いデータを発見するのに有効だと考えているからである。またWebFountainが従来の検索エンジンと異なる点は、大量の分析結果からトレンドを見つけ、例えば「会社の評判」や業界のトレンドといった質問に答えようとしていることである。

3.4 Webページの”見られ方”の発見

自分のWebページが他のWebページからどのように見られているのかを発見する技術として、[Zettsu 05]の「アスペクトマイニング」というものがある。アスペクトマイニングでは、目的のWebページをリンクしている個々のリンクアンカーの周辺テキストを「参照文脈」として抽出し、それらを類似したもの同士のグループにクラスタリングする。これを応用することでほしい情報とその情報を利用する状況(文脈)の両面から検索結果を絞り込むことが可能になる。

4.集合知の利用

4.1 Folksonomy:タグによる集団分類

様々なユーザがWebコンテンツに対して持つ”コンテンツ”を「タグ」と呼ばれるキーワードを使って付与し、ボトムアップなコンセンサスを形成しながら集団でWebコンテンツを分類する。

4.2 集団思考と評判システム

digg.com(技術系のニュースサイト)⇒どの記事がdiggのトップページを飾るかをユーザの投票によって決める。

reddit(某ニュースサイト)⇒"karma system"という評判システムによって記事の優先順位付けを行っている。ある記事が昇格されたり降格されたりすると、その記事を投稿したユーザにも報酬が与えられたりペナルティが付けられたりする。これを”(editorial)karma"という値で各ユーザに付与している。人気のある記事を数多く投稿するユーザほど高いkarmaをもつことになる。すなわちkarma systemはユーザが互いを評価しあうpeer ranking systemを提供する。

5. サーチの個人化

5.1 デスクトップ検索⇒Webサーチエンジンでの技術をデスクトップコンテンツへ拡張

5.2 検索履歴の利用

近年の傾向として、過去に一度検索したページを再度取得しなおす”re-find"機能が注目されている。例えばGoogle My Search Historyでは、個人の検索履歴を保管し、後からそれを検索することが可能である。また、検索結果の中で実際にアクセスしたページを記録し、日付ごとの検索履歴を一覧表示したり、カレンダーに日ごとの検索活動量を色分けして表示したりする。またYahoo!MyWeb2.0では、"tagging,saving and sharing"というコンセプトのもと、気に入った検索結果をコメントやタグとともにユーザのPCに保存し、後から検索できるようにしている。(これはおそらく検索順位の変動による影響を受けないと思われる。)

6. 行動支援ツールを目指して

6・1 サーチとサービスの連携

WebサーチエンジンがWebへの入口として定着してきた今日、サーチから様々なサービスへとユーザを導くために、サーチとサービスを連携させることが注目されている。例えば、HousingMaps.comでは、米国及びカナダの24都市で入居可能な住居の情報を検索し、検索結果を地図上に表示するサービスを提供している。これは、Craigslist(オンライン掲示板)検索とGoogle Mapsサービスの連携によって実現されている。今日サーチエンジンやサービスプロバイダが公開しているAPIを組み合わせる(マッシュアップ)ことによって、ユーザ側で独自の連携サービスを作ることができる。

6・2 Mobile Web サーチ

近年、パケット定額制が追い風となり、携帯電話によるインターネットアクセスが飛躍的に増加している。それに伴い、「ちょっと知りたいことを検索する」という文化が携帯でも根付き始めてる。現状では、携帯による携帯用コンテンツの検索が主流である。例えば、携帯向け書かれたWebページや、着メロ、待受画像の検索などが上げられる、携帯向けサーチの特徴として、入力の障害はほとんどないが、出力が限定される問題がある。また、リンク解析など高度な機能を有するPC向けサーチエンジンに比べ検索精度が悪いことも問題として挙げられる。今後のmobile Webサーチの方向性として、以下のことがあげられる。

  • サーチから地図、路線、グルメなどのサービスと連携
  • ローカル検索(エリア検索)
  • Blogとの連動、例えば、携帯で写真を撮ってblogにアップロードする。
  • 暇つぶし検索。エンターテイメント系のコンテンツ検索の充実

7. まとめ

今後のWebサーチの主な方向性として以下の点が上げられる

  • サーチとマイニングの融合:サーチによって得られるWeb情報を集約・分析(マイニング)することにより、ある興味に対する多種多様な観点や意見、傾向や動向などを発見するとともに、得られた知見をサーチに反映させる。
  • 集合知の利用:増殖し続けるWeb情報の分類や評価を、ユーザの視点からボトムアップな合意形成に基づいて行う。
  • 個人の情報ポータル化:個人が扱うありとあらゆるコンテンツを検索する統合サーチ環境の実現。(グーグルデスクトップ等)
  • 想起型サーチの実現:過去の利用状況や利用目的からコンテンツを特定する形態のサーチ
  • サーチからアクションへの誘導:サーチとサービスの連携や、モバイル環境での利用に特化したサーチ。

参考 人工知能学会誌 21巻4号

2007年6月15日金曜日

Webアクセスログとその利活用

1.はじめに

SEO/SEM、検索ワードを解析することによるトレンド分析などの観点からWebページ閲覧情報に注目が集まっている。Webページの閲覧情報であるWebアクセスログから人々の行動パターンや傾向を抽出することは重要であり、現在までにリコメンテーションシステムやショッピングサイトにおける購買促進など数多くの研究が行われている。ここでは最近のWebアクセスログの研究事例やアクセスログの動向について述べる。

2.アクセスログに関する研究事例

2.1 ユーザやWebページのクラスタリングに関する研究

アクセスログから類似するユーザの行動パターンを発見し、ユーザのグループ化やユーザのパーソナライゼーションを行う研究は購買促進や新規顧客の獲得など、ビジネスに結びつくため現在までに様々な研究が行われている。また、ユーザが訪れたページの閲覧情報を元に、Webページやページで売られている商品のクラスタリングを行う研究も行われている。[Eirinaki 03]では、パーソナライゼーションについて詳細な説明や各ツールの比較などを行っている。[Murata 04]ではWeb視聴率調査データからユーザとそのユーザが閲覧したWebページのURL中のterm情報からユーザのグループ化を行う手法について述べている。

2.2 検索語のクラスタリングに関する研究

検索エンジンやポータルサイトのアクセスログの解析からユーザが入力した検索ごと閲覧されたWebページの組み合わせを大量に得ることが可能なため、これを用いて検索語のクラスタリングを行うことが可能である。最近ではGoogleサジェスト、gooサジェストなどの新しいサービスが提供され始めた。[Beeferman 00]ではLycosの一日分のアクセスデータ(50万レコード)から、検索語とその直後に閲覧されたWebページの組み合わせを元に2部グラフを作成し、これを用いて検索語のクラスタリングを行う手法を提案している。[大久保 98]では検索ログを用いて、例えば「桜と花見」のようなある一定の期間では関連語となる検索語の発見から、ユーザの情報ニーズを抽出する方法について述べている。ユーザの検索要求が時間とともに変遷する例として、桜の花が咲く前の期間では「桜」は「桜前線や開花」など桜の咲き始める時期との関連が強いのに対して、桜の開花後は桜の名所との関連が強いという結果を示している。またユーザが閲覧したWebページのテキスト情報から形態素解析を用いて名詞を取り出し、これをもとに関連語の抽出を行う手法なども提案されている。

2・3 ユーザの行動パターン抽出に関する研究

Webページを数多く保持しているサイトのアクセスログやWeb視聴率調査データを用いて、ユーザの行動パターンを抽出する試みが行われている。例えばWeb視聴率調査データを用いてユーザの大域的な行動を抽出する研究が行われている[大塚 03、Otsuka04]。これでは「チャイルドシート」と検索した人が一体どのWebコミュニティを徘徊することになるのかという事を調べていて、最初にベンダーコミュニティーを訪れた人はショッピングサイトやオークションサイトのコミュニティーに多く訪れ、最初に行政コミュニティーに訪れた人は安心を求める目的から「自動車事故対策センターを含む」コミュニティーや「JAF(日本自動車連盟)」を含むコミュニティなどを多く訪れているなどの傾向がわかる。

2.4 その他の研究

その他にもアクセスログから学生に教材を推薦するシステム、Webページ間の相関を発見するツールなどが提案されている。

3. Webアクセスログの動向

3.1 Web視聴率データ

様々な企業の提携やサービス終了等で2006年4月現在の日本におけるWeb視聴率調査データは1つのみである。

3.2 Web視聴率調査データ抽出方法

調査方法

  1. 協力世帯のパソコンに「調査用ソフトウェア」をインストール
  2. ユーザがWebサーバにリクエスト(URL入力/リンク/ブックマークなど)
  3. WebサーバからユーザのPCにWebページが転送される
  4. クライアント側の調査用ソフトが視聴データ(URL、時刻など)を記録、集計センタへ送信
  5. 集計センタでそれらをデータベース化し、集計分析用として提供

このように収集されたログからは使用者を特定するID,Webページにアクセスした時刻、アクセスしたWebページのURLなどがわかる。

3.3 Alexa

Amazon.comの子会社であるAlexa Internet社はWebサイトごとにトラフィック情報を公開している。このサイトでは、

  • 指定したサイトの閲覧率(100万人のうちどのくらい人が閲覧したか?)
  • 指定したサイトを閲覧したユーザの平均閲覧ページ数。
  • 指定したサイトの世界的なトラフィックランキング

などがわかる。これはAlexaツールバーをダウンロードした人から情報を集めている。

3.4 The Internet Traffic Archive

Web視聴率データは一般に高価であり、誰でも簡単に利用できるデータではないし、Alexaの統計データの詳細は公表されていないため、WEbアクセスログの研究に用いることは難しい。そこで、一般に公開されているWebアクセスログデータであるThe Internet Traffic Archiveについて説明する。これはNASAなどのトラフィックやページ数が多いWebサーバのアクセスログや、大学のコンピュータを利用している学生や教職員のWebページ閲覧情報が公開されている。

4. 終わりに

今後は広告の効率的な配信やマーケティング戦略などアクセスログに対するより高度な解析手法が望まれる。また行政サービスなどの公的機関でも電子化がすすんでおり、アクセスログを用いて悪意を持ったユーザの事前特定を行う研究など今後はさらにアクセスログの解析技術に対するニーズが高まると予想される。

参考 人工知能学会誌 21巻4号

2007年6月14日木曜日

リアルワールドとしてのWeb

1.はじめに

コミュニケーションの場としての発展や、GIS(地理情報サービス)や携帯電話がWebと接続されるなど日常生活を情報技術によって支援するための基盤整備が進んでいる。ここでは、現実世界とWebは別個のものではなく、融合し、互いに補完しあう関係が形成されている。ほんこうではこのような変化についての現状を報告し、今後進むべき方向性について議論する。

2.サイバースペースとリアルワールド

インターネット常時接続環境の整備、ユーザ数の増加、SNS,blogなどの出現によりリアルワールドにおけるコミュニティがのメンバがサイバースペースに進出するようになると、サイバースペースはリアルワールドを補完するもものとして機能し始めた。また、サイバースペース上のコミュニティがオフラインミーティング(オフ会)によってリアル化するなど両者の境界は曖昧になってきている。また技術面では接続時における時間情報や、デバイス付属のGPS機能によって取得された空間情報を、情報検索あるいはコミュニケーションに利用するといった新たな技術が生まれている。このように、Webのリアルワールド化は、大別すると個人を取り巻く社会関係をWebに対応させる取り組みと、その個人が物理的にどのような状態で存在しているかをWebにマッピングする取り組みの2方向で進められている。

3.実社会とWeb

実社会における人々の活動がWebに反映されるようになったことでWebから大規模な社会ネットワークを抽出することが可能になった。近年これを分析し、分析結果をもとにした情報推薦や、社会関係の推薦といった応用研究が数多く提案されている。ここでは、社会ネットワークに関連する研究を構築・抽出・分析・応用の4種類に分類してみる。

3.1 ネットワークの構築

ブログ間のリンク・トラックバック関係やSNSにおける友人関係等のデータはクローラー等によって容易に取得することができるため、社会ネットワーク分析の基礎データとして多く用いられている。

3.2 ネットワークの抽出

blog・SNSのデータは有用であるが、これらはWeb上に情報を発信している個人のみが対象であるため、実社会の社会構造を反映しているとはいえない。より詳細な社会ネットワークを得るには、情報源をWeb全体に拡張し、ここからネットワーク情報を抽出する必要がある。この研究にはメーリングリストやWebページのリンク関係から個人間のネットワークを抽出する手法を提案するもの[Adamic 03a]、あらかじめ人名のセットを用意し、検索エンジンを用いて任意の2名の人名が共起するWebページの数から関係の強さを判定し、ネットワークを構築するもの(Polyphonet[Matsuo 06])などがある。

3.3 ネットワークの分析

SNSに参加する人やそのネットワークの特性を調べたり、ネットワークで中心となっている人は誰なのかを推測するといったことが行われている。また個人の振る舞いとして電子掲示板での発言、応答を分析することで有力な発言者を特定する研究[松村 03]などもある。

3.4 ネットワークの応用

アクセス権限を誰にどの程度付与するかというアクセスコントロール問題に社会ネットワークの関係を使おうという手法や、ネットオークションにおける取引履歴から社会関係を構築し、相互評価のテキスト情報から有益な情報を取り出すSocial Summarization法[Hijikata 06]などの応用がある。

4. 実世界とWeb

情報技術による実世界の活動支援としてはモバイルコンピューティングやユビキタスパーベイシブコンピューティング(コンピュータを実世界中のあらゆるところに存在させようとする考え方)などの研究分野が存在する。これらは、個人が所持するデバイスや環境に設置されたセンサがネットワークで接続された状況におけるサービス基盤として注目されている。例えば携帯に付属したGPSによりユーザの位置情報を確認し、ユーザに適した情報を提示するといったコンテクストに応じた情報の配信が可能になる。また高度な支援を実現するために、取得された情報を集約して粒度の大きい情報を抽出する研究が進められている。

4.1 位置情報の利用

実世界情報の取得手段として最も普及が進んでいるのは、携帯電話に実装されたGPS機能である。上松らは、GPS機能をもつ携帯電話を利用して、blog記事や写真に位置情報を付加することで、地図上にこれらの情報をマッピングする場logを提案した。場logでは、位置情報を通知することで現在の位置に最も近いコンテンツを得るなどの検索手法も提供している。位置情報を利用したblogの集約サービスはGeoURLやはてなマップ などで実運用がなされている。現状ではすべての記事に位置情報が付加されていることは期待できないが、間瀬らの研究では、blog記事内に複数存在する地名を地図にマッピングし、それらの距離関係から記事が主題としている地域を推定する手法を提案している。

4.2 行動情報の利用

デバイスやセンサによって得られたコンテクスト情報は、ユーザ単位で時系列に集約することで、より抽象度の高い行動情報として利用することが可能である。沼らは、前述の場logならびに学会支援システムから各ユーザの行動履歴を取得し、これをもとにblog記事の下書きを自動生成するActionLogを提案している[Numa 06]。

ホンダでは、車載システムによって収集された走行情報及び所要時間から道路の渋滞状況を推定するインタナビ・フローティングカーシステムが提供されている。このシステムによって得られた交通情報はWebを通じて共有され、位置情報ビューアであるGoogle Earthで閲覧することが可能である。またさらにこういった流れを進めたものに、人間の活動のあらゆる局面を記録し、検索可能にするプロジェクトの代表例としてDARPAによるLifeLogやMicrosoftによるMyLifeBits がある。

4.3 社会関係の利用

携帯電話で写真撮影する際に、携帯電話に内蔵されたBluetooth通信を利用して周囲の人物のリストを自動的にアノテーションすることを可能としたシステム[Davis 05]などがある。(具体的には良くわからないが)

5. データ・アプリケーションの統合

これまで述べてきたように、実社会ないし実世界とWebを接続する試みは緒についたばかりである。今後は、個別の研究あるいはサービスを統合し、より高次の活動支援に向けた研究開発が進められることが期待される。

6. リアルワールドとしてのWeb

6.1 課題

  1. 個人情報の保護と社会ネットワーク分析による知見の獲得や利便性の提供を両立させることは難しい。
  2. 情報の信頼性をどう保証していくか
  3. 現実世界に存在する社会ネットワークと抽出可能な社会ネットワークとの間に存在する質的な差異。
  4. デバイスから得られる情報に含まれる誤差やノイズの処理

6.2 展望

リアルワールドとしてのWebにおいて、ページ単位の検索ではなく、知識の主体である個人単位の検索を実現することは目標の一つである。またサービスが構築することができたとしてもユーザがこれを積極的に利用するかどうかは別の問題であり、サービスデザインについて今後事例を積み重ねて検証を行っていく必要がある。今後は、3章における分類と同様に、分析による集合知の抽出だけでなく、参加者が意識的に集合知を構築するための手法(フォークソノミーなど)、得られた知識の再分析や応用に焦点が移るものと思われる。

参考 人工知能学会誌 21巻4号

2007年6月8日金曜日

Web2.0時代の個人とコラボレーション

Web2.0は、個人の活動の集積として価値あるコンテンツが生成されるという思想が前提となっている。これらの環境の中で、個々のユーザはどのように振る舞い他者との関係性を構築しているのだろうか?本稿では、ユーザの関係性とネットワークという視点から、Web2.0の代表的な例であるブログやSNS,ソーシャルブックマークにおけるユーザのネットワークに関する研究動向を述べる。社会ネットワーク分析や複雑ネットワークという研究分野と関連して多くの研究が行われているが、こういった研究は、Web2.0を理解し今後の展望を考える上で、サービスの提供者にとってもユーザにとっても重要な知見を提供するものである。

社会ネットワーク分析と複雑ネットワーク

数年前から、スケールフリーやスモールワールドなどで知られる複雑ネットワークが着目を集めている。スモールワールドネットワークは典型的には小さなクラスタが少数のリンクでつながれた形をしているもので、 スケールフリーネットワークはノードの次数(いくつのエッジを持っているか)の分布がベキ則(P(K) = kのーr乗) (rは定数)に従うというもので、極端に次数の大きいノードが少数存在するが、ほとんどは次数の小さいノードである。また社会ネットワーク分析では、大きく2つのタイプのネットワークデータを扱う。一つはノード同士の直接的な関係による隣接関係を行列で表した(Adjacent matrix)であり (誰と誰が知り合いかなど)、もう一つは誰と誰の興味が近いか?や誰がどの複数グループに属しているかなどの関係を行列に表した(Affiliation Matrix)である。こうした2種類の関係を用いるとWeb2.0に関わるの様々なユーザをネットワークとして捉えることができる。

Adjacent matrix(知り合い関係)

太郎

花子 

純一

正弘

慶介

太郎

0

1

0

0

0

花子

1

0

1

0

0

純一

0

1

0

1

1

正弘

0

0

1

0

1

慶介

0

0

1

1

0

Affiliation matrix(人と興味)

Web

音楽

スポーツ

TV

ラジオ

太郎

1

1

1

0

0

花子

1

0

0

0

0

純一

1

0

0

0

0

正弘

1

1

1

1

1

慶介

1

1

1

0

1

ユーザのつながりの分析
日本ではmixiの分析が2005年2月時点のデータを用いて行われている。当時の36万ノード、190万リンクについて調査し、知り合い数がr=2.80のベキ分布であること、次数平均(マイミク数の平均)が10.4であり6ホップで96%をカバーする小さな世界であること、クラスタ数Cが0.328であり凝集性の高いネットワークであることなどが報告されている。また知り合い関係をGNアルゴリズムという方法でクラスタ化していくと、比較的t小規模のクラスタ群と大規模のクラスタ群に2分され、その中間領域が欠けている事を興味深い発見として述べている。mixiでは自分の周りのクラスタのサイズが徐々に成長していくが、あるときに急激に成長がスキップするわけである。この一般性や含意についてはまだ不明な点も多いが、SNSの何かの性質を示しているものかもしれない。またFOAFの分析でもknows(知り合い関係)の分布はベキ分布となり、その分散性はWeb2.0的であるといえ、今後はユーザプロファイル管理の仕組みの成長とともに重要性を増してくると考えられる。
ここで紹介した研究はいずれもWeb上での人のネットワークのスケールフリー性を示すものであるが、これが意味するところは何であろうか?ここで重要なのは多くの人から支持される一部の人だけではなく、ロングテールの部分の人同士のコミュニケーションを促進する仕組みがSNSやブログにはあるということである。個々のユーザにとって、一部のスーパーノードの質の高い情報も価値があるが、それにも劣らず自分の周りにいる人の日々の雑多な情報も価値がある。We2.0で議論されるロングテールはスケールフリーネットワークとは本来直接のつながりはないが、実はWebにおけるユーザのネットワークを間に介することで密接に関係している。
情報の伝播モデル:口コミとブログ
ユーザのネットワークがあるとして、その上で情報はどのように伝播していくのだろうか?この分析に関する研究をいくつか紹介する
B.HubermanらはAmazon.comでの本やDVDの商品の推薦がどのように伝播していくかを分析している。その結果次のようなことがわかった
  1. 2人の間でインタラクションが多くなると推薦はきかなくなる。
  2. 推薦を受け入れる確率は、推薦してくれる人の数が増えると急激に増えるがすぐに飽和する。
  3. 次数の高いスーパーノードがあるが、影響力には限界がある。たくさん推薦する人のことはあまり聞かなくなるからである。
  4. 推薦の効果はカテゴリや値段に影響される。

ここで描きだしているのは、ネットワークとしてつながれた個々が互いに影響しあいながら情報が広がっていくモデルである。またRichardsonらは、1人のユーザが他のユーザの購買にどのくらい影響を持つかを数値化して、そのユーザの"network value"を計算する確率モデルを提案している。またブログ上での情報がどのように伝播していくかを研究しているものも数多くある。いずれの研究でも、モデル化の基礎となっているのはユーザが情報を得て、それによって他の人に情報を伝播させる力を持つという状況である。こうした情報の伝播の性質が今後の研究でさらに明らかにされれば、ユーザにとってより心地の良い、効率的な情報環境の構築につながっていくと考えられる。

コミュニティの形成

最近の研究ではLive Journalのコミュニティ機能について分析したものがある。ゆーざは、自分が入るコミュニティをどう決めているのだろうか?それを予測するモデルを学習した結果

・自分の知り合いの中で、そのコミュニティにすでに入っている数が多ければ、ユーザがそのコミュニティに入る確率が高まる。

ということがわかった。これは、ほとんど自明である。面白いのは

・そのコミュニティにすでに入っている知り合い同士が知り合いであると、そのコミュニティに入る確率が高まる。

というものである。自分の知り合いのうち2人があるコミュニティに入っているとすると、その2人が知り合いでない場合より知り合い同士の場合のほうがそのコミュニティに引き込まれやすいわけである。また安田らはmixiの分析の中で入り口の役割を果たす巨大なコミュニティと、そこから先の徐々にマニアックになる系列コミュニティという生態系が形成されることを発見した。またGoogleの研究者らはOrkutというSNSにおけるコミュニティの推薦について調べている。特定のコミュニティに対してどういうコミュニティを進めればユーザは受け入れられるかというものである。

ソーシャルブックマーク分析

ソーシャルブックマーク(SB)では、世界をどのように分類するか、その分類がコミュニケーションを通じてどのように共有されるのかという言語学や人工知能で重要なテーマを含んでいる。世界の分類はある種のちしきであり、タグ付けのような簡単な仕組みによって実現さればSBにより語彙が構築されていく様子を俯瞰できるのは興味深い。

検索エンジン、そして今後のWeb技術

さて、Web2.0の様々な現象は、検索エンジンにより適切な情報が探せるようになったという部分に依拠するところが大きい。検索エンジンで探してもらえるからWikipediaには人が来るのでるし、質の高いブログを書く人がいる。検索エンジンは今後ますますインフラ化するだろう。また今後はエンティティ間の関係をより捉えた技術がより重要であるし、発展するだろうと思われる。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

ロングテールはマーケティングをどう変えるか?

ロングテールはマーケティングをどう変えるか?

ロングテールとは何か?

ロングテールとは従来のように売り上げが集中した市場(売り上げ分布の頭の部分)ではなく、個々の売り上げは小さいが広範囲に分散する市場をターゲットとした、新たなビジネスモデルの提案である。製品を横軸に、売り上げ個数を縦軸にしたグラフを書いたときこのグラフは右に非常に長く続くことになる。この非常に長く続く製品群をターゲットとしたものがロングテールビジネスである。ちりも積もればなんとやらである。例えばAmazonはロングテール部分に当たる売り上げが13万以下の順位の製品から全体のほぼ3分の1の利益を得ていると聞いたことがある。もちろんこれはインターネット上だから実現可能であることであり店舗を持つ実世界では扱いようのないことである。今まで売り上げに貢献しなかったような製品を取り扱えるようになったという点でロングテールは画期的である。ロングテールの代表例としてのもう一つ典型例はグーグルの検索連動広告である。GoogleAdwardsは今まで広告なんて出せなかったような小さな店などに対して広告を出すことの敷居を限りなくさげ、またAdsenseにより一般の個人までもが広告により収入を得られるようになった。これはロングテールのテール部の広告主とテール部の広告掲載主である個人をうまいこと狙ったビジネスモデルであるといえる。

ロングテールの前提を問う

ロングテールを確率統計的モデルとして捕らえたときどのような確率分布に従うかという問題があるが、今までの研究はほとんどリアルワールドで行われている購買行為を対象としているため、それをネットの世界にも適用するのは適切ではない。リアルワールドではすでに扱える製品の種類に限りがあるため既にテール部が切り捨てられているからである。テールの先にどのような需要が隠れているのか、それはどのような確率モデルに従うのかは今解明されつつある。

顧客側のロングテール

ロングテールのビジネスモデルが成り立つには、供給側の条件としては対品種少量生産とその流通管理が低コストで実現することが絶対的に必要である。いうまでもなくそれが実現しやすいのはソフトウェアや音楽、映像のような、完全にディジタル化された製品である。しかしこれはどちらかというと、生産流通面だけに注目した議論であり、マーケティング面の条件についても考える必要がある。それは、顧客別の需要の分布はどうなっているかという問題である。そこでマーケターは近年、パレート図を製品単位だけでなく、顧客単位に作るようになってきた、すなわち、製品を単位とした場合と同様、顧客ごとの売り上げを計算し、顧客を左から右へとその順に並べ、そうして描かれた顧客のパレート図から例えば上位20%の顧客が全売り上げの何パーセントをもたらしているかが読み取れる。これは近年のデータベースシステムの発展により最近になって可能になってきたのである。これによるとやはり製品と同様顧客についても製品と同様のべき乗分布、すなわち一部の優良顧客が売り上げのほとんどを占めているということになる。しかしこのような顧客ほど経験が豊富になりテール部の製品を買うのではないかという仮説があり、これが正しいとするとテール部分の製品を扱うインセンティブは高くなる。マーケティングや消費者行動の研究で、時間や経験によって消費者選考の多様性がどう変化するかはさほど研究されてこなかった。今後、実際のデータを用いてこれらの論点が掘り下げられることを期待したい。

無数の選択肢からの選択問題

ロングテールのビジネスのもとでは、マーケティングリサーチのあり方が大きく変わるかもしれない、極論すれば、需要予測は不要になる可能性がある。なぜなら、ロングテール論が主張するように個々の製品の追加的な生産費用や在庫費用が限りなく小さいなら、それらの製品は発注があり次第すぐに生産するか在庫から出荷すればよく、その需要を事前に把握する必要がないからである。しかしミクロな需要予測に用いられる消費者選択問題は依然として必要になる。消費者選択モデルとは、有限個の選択肢から、どの選択肢が選択されるかを予測する手法である。売れそうな製品をレコメンデーションできれば売り上げは高くなるはずである。推薦モデルとしては協調フィルタリングを用いることが考えられており、すでに実用化も進んでいる。しかし協調フィルタリングには製品別分布のテール部分のように過去の購買者が少ない製品については情報不足し、信頼性のある推奨をするのが難しいということである。無数に近いニッチ製品の推奨をどう行うかは、今後に残された大きな課題である。

最後に

ロングテールのビジネスモデルが広がると、マーケティングやマーケティング・リサーチのあり方は大きく変容を迫られるのは間違いない。本稿は、それにかかわる論点の本の一部しか言及していない。例えば、ブランド、製品開発、価格設定、プロモーション、流通、といったマーケティングの幅広い領域にロングテールのビジネスモデルがどのような影響を与えるかについて、より幅広く、かつ奥深い議論が今後起きるであろうし、そうなることを期待したい。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

Web2.0と集合知

Web2.0と集合知

複数のユーザの意見から作り出されるコンテンツや知識を集合知というが本稿ではWebにおける集合知の現状を概説し、その可能性について述べる。

群集の英知

集団による意思決定は多くの場合において極端な方向に傾くことが指摘されているが、個人の限界を突破するためにはやはり集合知が求められる。集合知が適切に機能している事例に共通する性質として以下の4つを挙げている

  • 多様性
    各参加者がそれぞれに独自の視点を持っていれば、総体として多くの候補解を列挙することができる。探索空間が狭い場合には、その探索空間内に適切な解が存在しない可能性がある
  • 独立性
    各参加者の持つ意見や提案が他の参加者の影響を受けないよう、各参加者の独立性が確保されている必要がある。特に小集団で議論を行う場合には多様性が低いために偏った結論に集約される危険性がある。
  • 分散性
    問題を抽象化せず、各参加者が直接得られる情報に基づいて判断する必要がある。参加者ごとに得られる情報の種類は異なると予想されるが多様性を維持するためにも、各参加者に共通する属性のみで判断すべきでない。
  • 集約性
    上記3点の特性を活かして得られた知識を参加者全体で共有して、比較検討して最終的な結論を導く仕組みが必要である。

このように、集合知の実現には、他の影響を受けない状態でのローカルな知識の生成メカニズムと、それらを集約するメカニズムの両方がひつようである。

WEBナビゲーションと集合知
グーグルのPageRankはハイパーリンク構造を用いてうまい具合に集合知を間接的に利用しているといえる。しかし今日では検索エンジンだけでは解決できない問題、例えばブログにおいては更新直後の情報の発見が重要となるが、新しいものほど被リンクが少ないことや、リンク構造分析の計算コストの問題によって、そういったページの評価が上がりにくいなどがある。

人力検索とソーシャルタギング

このような要求に対応すべく、集合知を活かしたナビゲーション実現システムが次々と生まれている。これらはリンク構造分析による評価に見られるようなコンテンツの書き手同士の相互評価ではなく、読み手による評価を利用するところに特徴がある。参加者が質問し、別の参加者がそれに答える、いわゆる「人力検索」と呼ばれるサービスはその一例である。これは質問者は、自然文で知りたい事柄を提示し、回答者は該当すると思われるサイトのリンクを示しながら回答する。優れた回答には得点をつけるなど、継続へのインセンティブがあるためあらゆる分野の質問に答えられるだけの参加者を獲得し、実用的なサービスとして定着しつつある。またソーシャルブックマークといってブックマークを共有し、ブックマークが多いページを優先して画面に表示しようとすることも実用化されている。また集合知を利用したナビゲーションサービスに特有の機能としてソーシャルタギングというものがある。youtubeなどで見られる自由にユーザが付けられる言語符号のことである。

フォークソノミー

ソーシャルタギングによって得られたタグの集合は、フォークソノミーと呼ばれる。しかしソーシャルタギングによって作られたフォークソノミーはそれぞれのタグの間に関連性がなく、このままではタクソノミーの代替物として他の目的のために再利用することが極めて難しい、そこで、単語間に関係を導入するために、タギングが行われる際に複数のタグを入力可能であることを利用して、タグの共起関係から統計的に関係を計算する手法が使われる。さらに、タグの分布の包含関係から上位ー下位関係を導くなどより精度の高い体系の自動構築は重要な研究トピックの1つになりつつある。多くの課題があるが多くの参加者が主体的にメタデータを付加するような状況は過去に例を見ない。この状況を活用して、参加者にとってより有用なシステムを構築することが求められる。

コミュニティと集合知

体系化された知識をWebに集積する試みの中で、最も成功したものがWikipedia、またLinuxをはじめとするオープンソースソフトウェアの開発は、インターネット上で最も成功した協調型プロジェクトの1つである。これらはボランティアによる運営にも関わらず企業で開発されるプロジェクトにまったく引けを取らないレベルまで達しているといえる。

予測市場

はてなアイデアのように仮想的な市場の仕組を使って、ユーザーから要望や不具合報告を効率的に得ることを目的としたサービスなどがあり、要望が低いものは自然淘汰されていき、要望が強いものが残っていく。これにより優良な意見を発掘しようとするのである。

総表現社会と集合知

ウェブ進化論ではWebの進歩によって誰もが表現の機会を与えられる、「総表現社会」の実現可能性について議論されている。すでに、ブログやSNSを利用した表現活動、コミュニケーション活動は本格的な普及の段階にあり、この傾向は今後も続くものと思われる。表現形式についても多様化が進み、テキストだけではなく、画像、音声、映像を用いた表現を容易に作成、公開することが可能になった。その中で、個々の表現活動が関連し合い、あたかも集団で大規模な創作活動が行われているように見える現象が生まれている。また、このような現象を明確に意識した集合的表現の活動や、それらを支援するシステムが作られている。NOTA,Willustrator,CreativeCommonなど多くの試みがある。

参加のアーキテクチャ

本稿では、Web上に存在する集合知の事例をいくつか取り上げた、集合知には自己組織的に生み出されるものもあれば、参加者間の共同作業によって得られるものもあり、一律に定義することはできない。これらに共通するのは「参加のアーキテクチャ」が適切に設計され、多くの参加者を巻き込んだ結果である、という1点である。参加のアーキテクチャを設計するにあたっては、その目的に応じて参加者の役割やコミュニケーションの方法を決める必要がある。参加者の独立性をどのように確保するかや、権限管理の有無など、検討すべき項目は多い、最終的には、参加者をどの程度信頼するかという、人間そのものに対する洞察も必要となる、信頼はその定義上投機的なものであるため、何らかのシステムによって自動的に解決するものではない、性善説にのみ依拠するのではなく、コミュニティに貢献することが最もコストの低い状態になるようにシステムおよび精度の設計を行うことが重要である。様々な課題はあるが、集合知は適材適所で大きな力を発揮する。最近では、集合知を積極的に利用として問題解決を図るという意味の「クラウドソーシング」という言葉も生まれており、今後様々な応用が出てくることが期待される。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

2007年6月7日木曜日

Web2.0の情報アーキテクチャ

Web2.0の情報アーキテクチャ

Web2.0を支える技術トピック
本稿ではWeb2.0的なサービス、製品を実現するための具体的な技術に焦点を当てていく

ブログとRSS/Atomの普及

企業や組織が作成したページを閲覧するパブリッシング型から、利用者自らが情報を発信していく参加型への移行

検索APIを提供するWebサービス

GoogleやYahoo!は、人間でなくアプリケーションプログラムからも同様に検索サービスを利用できるAPIを公開している。ただしアプリケーションごとに1日に検索できるクエリ数が制限される運用となっている。GoogleはSOAP /WSDL (WEB Services Description Language)ベースの検索APIを、Yahoo!はRESTベースの検索APIをそれぞれ提供する。Amazonでは書籍用のISBNコード に加えて、自社サイトで扱うすべての商品に付与してASINコード(amazon standard identification number)を提供する。

Ajaxの浸透と発展

Rich User Experiencesを最大化するための技術要素としてAjaxが重要となっている。これは以下の技術の組み合わせであると定義されている。

  1. XHTMLおよびCSSを利用した標準に基づく表現
  2. DOM を利用した動的表示とインタラクション
  3. XMLおよびXSLT(XMLによって記述された文書を他のXML文書に変換するための簡易言語。)を利用したデータ交換や操作
  4. XMLHttpRequestを利用した非同期データ取得
  5. それらすべてを結びつけるJavaScript

XMLHttpRequestとはJavaScriptでWebブラウザ~サーバ間の非同期通信の機能を提供するクラスである。またAjaxの浸透によりJavaScriptの重要度が再確認されてきたためJavaScriptライブラリの充実が行われている。

XMLを補完するJSONフォーマット

XMLほどの厳密性がそれほど必要とされない分野で活躍できるという意味でJSON(JavaScript Object Notation)が脚光を浴びつつある。XMLの持つすべての機能をJSONで再現できるわけではないが、JavaScriptを利用したWebアプリケーション実装において必要となるデータはすべてJSON形式で表現することが可能である。これにより冗長なXMLコードを生成する必要がなくなる。

万年β版ソフトウェアとテスト

ソフトウェアをパッケージ販売することよりもWebからダウンロードすることが増えてきている。それによるメリットとしては、更新した場合新たなパッケージを買う必要などなく更新プログラムをダウンロードしてくるだけで済む。またユーザとのWebでのインタラクションなどによりさらに良いサービスが提供できる機会が増えるなどがある。βというフレーズはテストの段階を表すための言葉ではなく、単にサービスの鮮度を表すために利用されることが多い。

軽量プログラミングモデルと疎結合

RSSやRESTベースのシステムを導入する際のキーワードとして疎結合が挙げられる。従来型の企業システムに見られたような密結合した複数システム間の調整は避け、各システムが緩やかに連携する運用を実現する。API使用に沿う限り、システム環境やプログラムの開発言語は問われないためどの言語でも自由な開発ができる。しかし、実装が優先され、詳細な使用の明文化が足りないも多くなり、相互運用性の確保が徐々に難しくなってきている。

マッシュアップと今後のアーキテクチャ

企業がAPIを公開する場合が増えてきたが、それは第三者に新たなサービスの提供を期待して行うものである。このAPIを利用してそれを既存の技術と結びつけ新たなサービスを展開することをマッシュアップと呼んでおり、現在の流行である。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

2007年6月6日水曜日

Web2.0とは何か?

Web2.0とは、新しい発想と新しい技術によって実現される新しいWebのあり方を言うが、その定義は非常にあいまいなのでまずWeb2.0的な要素を紹介する。

  1. 厳密な分類ではなくタグ付け→youtube,flickrなどに代表される。ユーザが自由にタグというものを設定でき、自由に情報を分類できる。
  2. ユーザによる貢献→楽天、アマゾンなどのユーザレビューがサービス価値を高める
  3. ユーザ参加型→ブログ等誰でも手軽に情報を発信できるようになった。
  4. 進歩的な分散ネットワーク→Winny,WinMXのようなP2P型ネットワークによりネットワーク負荷が軽減、マルチメディアの流通を加速
  5. リッチなユーザ経験→AjaxやFlashによりデスクトップアプリケーションに近い操作性を実現
  6. ユーザセルフサービスによるロングテールの取り込み→Google Adsense,Adwords,amazonのAPI公開など、本来のビジネスでは考えられなかった大多数の人が宣伝を行うことが可能となり、また売れ筋以外の商品を取り扱うことが実現してきている。
  7. 信頼に立脚した進歩的なコンテンツ作成→性善説を前提にしたコンテンツ作成、Wikipediaが代表例。

ビジネス、コミュニティ、テクノロジー「プラットフォームとしてのWEB」
テクノロジーによって便利なサービスが登場すると、それを使うユーザのコミュニティが形成される、コミュニティが十分に大きくなると、その上でビジネスが動き出す。ユーザがいなければビジネスは成立しないし、ユーザが使うサービスはテクノロジーなしにはありえない。そしてWeb2.0はこの3つの分野のプラットフォームとして効果的に機能することで、相乗効果を実現している。エンジニア・研究者、経営者・ビジネスマン、コミュニティ活動家という普段はかけ離れた関心を持つ各分野のリーダーたちがWeb2.0というという一つのキーワードに魅力を見出していることが、Web2.0現象の特徴でもある。
またテクノロジープラットフォームとしては、複数サービスを複合して新たなサービスを提供するマッシュアップ、コミュニティ・プラットフォームは、ユーザがシステムの一部として組み込まれる形となり、SNSやユーザの人気によりニュースサイトの見出しを変える機能などがあげられる。ビジネスプラットフォームとしてのWebとしてはロングテールやアフィリエイト広告、検索連動広告等があげられる。
コミュニティ情報基盤としてのWeb2.0
ここまで考察してきたようにWeb2.0の世界は、テクノロジーを組み合わせてサービスを作るのもユーザ、ビジネスニーズを作るのもユーザというユーザ(コミュニティ)参加モデルである。Web2.0はユーザの、ユーザによる、ユーザのための「コミュニティ情報基盤」を作る動きなのだと考えられる。Web2.0の世界では、ユーザの発言や行動履歴は、メタデータやWebサービスの共通形式を通じて集約される、集約されたデータは、検索サービスとして提供されたり、言語処理や統計の技術を使って多様な意味を与えられ、ユーザに提示される。リッチインタフェースの技術を使って可視化されることもある。これに反応したユーザの発言や行動の履歴がまた集約されて、コミュニティ情報基盤は一層強化されていくのである。
情報を「引き出す」を支援する仕組みが鍵になる。
Web2.0の成功例に挙げられるサービスは情報を引き出す仕組みを技術的に支援したものである。情報を引き出すにはいくつかのパターンが考えられる。

  1. ユーザが自己の内面の試行で引き出す
  2. ユーザが他社との対話から引き出す
  3. ユーザが記録から想起で引き出す
  4. 記録から関係情報を機械的に引き出す。

ビジネスとコミュニティの融合クラウドソーシング
不特定多数のインターネット上のユーザの活動を、適切なインセンティブによって組織化し、ビジネスに活かそうとする考え方は、ビジネスの世界でクラウドソーシングとして先行して注目されている。リナックスのプロジェクトのように集合知を利用して製品を作り上げようとするのである。
Web2.0的なアイデアを生み出す源流
Web2.0サービスを提供するベンチャー企業は積極的にその価値観や組織風土をマスメディアや自社のメディアで公開している。そこには従来の企業にはない、組織の創造性を育むユニークなモチベーションやインセンティブを生む試みが多数取り入れられている。

Web2.0企業の試みの例

  • プロトタイプ開発のためのラボ組織
  • 就業時間の20%を自主的な開発に当てなければならないGoogleの20%ルール
  • プロトタイプの短期集中開発を楽しみながら行うはてなの開発合宿
  • エンジニアが技術の情報交換を組織横断で行う草の根イベント
  • 部門を越えて情報交換を行う、社内ブログ、社内Wiki
  • 経験や能力の異なる2人が1つのプログラムを開発するペアプログラミング
  • 個人ブログの内容を重視して採用判断の材料にするブロガー採用

これらの試みは個人の才能の発掘と、才能ある個人同士の相互啓発を狙いとしている。

Web2.0的なサービスが生まれやすい組織に共通する要素

  • 創発的ディベロップメント
    個々の人の能力の総和というより、コミュニケーションによって知恵や才能を相互に引き出し、全体として高いピークパフォーマンスを実現する組織。
  • 芸術的プロダクション
    ユーザとの持続的インタラクションで次第に完成度を高めていくが完成というものは存在しない永久のベータモデル
  • 互恵的オープンネス
    標準プロトコルを通じて、個人間、サイト間で機能や情報を互恵的に共有する態度を持っている。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

2007年6月4日月曜日

SNSの現在の展望

はじめに
Web上で利用者が急増しているのがmixiをはじめとしたソーシャルネットワーキングサービス(SNS)である。SNSでは、参加者がそれぞれに固有のページを持ち、他の参加者と相互にリンクすることで小規模コミュニティを形成する。コミュニケーションはその内部でのみ行われるため、不特定多数に情報が公開されているBBSやブログとは異なる密接なコミュニケーションが可能になる。SNSは参加者の同一性を特定しやすいため、コミュニケーション分析の研究対象として注目を集めている。またSNS上では大規模な社会ネットワーク分析手法を適用することで新たな知見が得られる可能性がある。本稿では、SNSの発祥から現在に至るまでの変遷について述べた上で、研究対象としてのSNSの位置づけについて議論し、今後の課題や展望について述べる。
SNSとは
snsは、日常的なコミュニケーションの支援を目的として、コミュニケーションの主体である個人の存在を明示化し、個人間の情報流通を実現するためのシステムであると定義できる。本稿では、このようなコミュニケーションの形態を個人指向コミュニケーションと呼ぶこととする。
SNSの歴史
個人指向コミュニティサイトがSNSと呼ばれるようになったのは、2003年に米国で開発された[Friendster]が最初であるとされている。Friendsterは急速にユーザを獲得し、開設後3ヶ月で100万人に達したことから注目されるようになった。日本でもmixiが普及し、snsの普及は全世界的に進行している。韓国のSNS[CyWorld]は韓国語圏でのサービスながら1300万のユーザを抱えており20代女性の95%が参加している。最近では類似サービスが続々と登場しており、どのサービスSNSであるのかを明確に区別することが難しくなっている。またトピック限定のSNS、地域限定のSNSなど、ユーザの範囲を限定したSNSも数多い。
SNS研究の現状
SNSでは、個々の参加者の振る舞いだけでなく、参加者間のつながりの総体としての大規模ネットワークを観察することができる。この特徴を利用して、工学やコンピュータ科学のみならず、社会学や心理学、物理学のアプローチを用いた研究が進められている。本章では、これらの研究をコミュニケーション分析、社会ネットワーク分析、および情報・知識共有の3つの観点に基づいて分類し、紹介する。
コミュニケーション分析
これまでの研究成果で、SNSを日記、すなわち知人とのコミュニケーションを主に利用するとの回答が80%に上った。また顔写真、実名を公開している参加者ほど新たな他社とのコミュニケーションを求め、非公開であるほど現実の知人関係でのコミュニケーションを求めている傾向が明確になっている。また参加者の国籍あるいは国民性と振る舞いの特性の関連を調査した研究などもある。
社会ネットワーク分析
社会ネットワーク分析は、社会学の中でも、人と人とを結ぶ関係に着目し、関係構造であるネットワークを分析することでコミュニティ全体の特性を明らかにする学問分野である。インターネットではmixiなどで用意に社会ネットワークを得ることができるために急速に研究が発展している。研究によれば
スケールフリー性(ノードとリンクの関係がベキ乗分布を示す)やスモールワールド性(ネットワーク規模に比して任意の2ノード間の距離が短くなるような性質、すなわち知人同士が特に密接に繋がったような状態)がわかってきている。
情報・知識共有
アクセス権限をどう設定するのかが難しい。どの人にどこまで情報を公開していいのか?コミュニティごとに情報のアクセス権を付与すべきかなど様々な問題が発生する。しかし大規模社会ネットワーク分析手法が整備されつつあり、これらを用いることによって実用的なアクセスコントロールが可能になると期待されている。
研究者のSNS
SNSに関する研究は、多大なデータを必要とすることから、実サービスの運営者と連携して進められることが多いが、研究者自らがコミュニティ支援システムを構築し、運用している例もある。Polyphonet Conferenceでは研究者間のつながりを一般のSNSの手法だけではなく、Web全体を情報源としてネットワークを抽出している。
SNSのオープン化とメタデータ
SNSは個人的なコミュニケーションのツールとしてだけではなく、幅広い利用が考えられる(適した人探しなどが考えられる)。用途によっては知人関係を公開することは問題ではない場合もあり、そのような用途に対してオープンなSNSを構築するための基盤が構築されつつある。代表的な例として、知人関係をメタデータとして記述するための
FOAFがある。
SNSの課題・展望
情報の信憑性
→SNSではデマ等が広がりやすく、また個人による過度な情報公開により犯罪が誘発されるといったことも出ている。今後は長期的な視野にたった
情報リテラシーが求められる。
コミュニケーションツールから情報流通の基盤へ→社会ネットワークとコミュニケーションは分離可能であり、コミュニケーションとは異なる社会ネットワークの利用方法が様々な分野で提案されている。広告やマーケティングの分野では、パーソナライゼーションの一環としてSNSの利用が模索されているほか、情報検索や推薦、組織内の人事評価など対象及び利用目的は多岐にわたる。将来的には前述のような認証基盤上に各種サービスが構築され、ユーザが自由に必要な機能を選択するオープンなSNSが普及するものと思われる。今後は実サービスを運用する企業と研究者の密な連帯によって、SNSの可能性を追求することが望ましい。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

Web 世界の進化

新しいWebの展開
Web世界で様々な技術が揃い、ネットワーク環境も充実してきた現在、多くの人々が手軽にサービスを試し、取捨選択することで、人々が積極的にWeb世界に関わるように変わってきた。こんな環境変化の下で新しいビジネスが生まれ、育っている。
Web2.0とは?
最近よく耳にするWeb2.0、この意味合いは曖昧だが、以下の7項目でO'Reillyは特徴付けている。

  1. プラットフォームとしてのWeb
    これまでのソフトウェア販売のビジネスが成り立たなくなり、Webを通してのサービスの提供とそれを支える豊富なデータを持つことが必須になった。
  2. 集合知の活用
    Webから幅広いユーザの判断や認識を得ようということ。Wikipediaやブログなどが典型
  3. データは次世代の「インテル・インサイド」
    インターネットでより良い情報を提供するためにデータの重要性が増してきており、データの獲得競争が起きているということ。(オープンソース現象と相反するのでこれについては良くわからない)
  4. ソフトウェアのリリースサイクルの終焉
    サービスとしてのソフトウェアでは、ユーザにつかってっもらうサービスが重要で、ユーザの反応に迅速に答えることが大切である。それゆえ永久のβ版というのがはやっている。(まだまだこれからより良いサービスを提供していきますよという意思表示)
  5. 軽便なプログラミングモデル
    単純で汎用性が高いプログラミングが好まれる。既存のサービスと簡単に組み合わせて多くの革新を生むことができるからである。
  6. 単一のデバイスのレベルを超えたソフトウェア
    特定のPCプラットフォームに限定されない、新しいWebプラットフォームで動くアプリケーションが求められるということ。
  7. Web上でのフルスケールアプリケーションの実現
    GoogleのGmail、Googlemapsなど

最後に
web世界の進化はコモディティ化されたネットワーク環境やPC環境がしっかり整い、安心して使える社会インフラが提供されて始めて可能なわけで、このことを忘れてはならない。スパムメールの駆除、著作権問題、個人情報漏洩などまだまだやるべきことは多い




2007年5月31日木曜日

インターネットからの評判情報検索

1.はじめに
インターネットは、誰もが情報を発信できる場であり、そこには様々な人の多様な意見が存在すると考えられる。もしこれらの意見を効率的かつ安価に収集・分類・分析できる方法があれば、次のような目的での幅広い利用が考えられる。
(1)商品購入の際の情報収集
もし意見に関連したWebページのみに検索範囲を絞ることができれば、効率よく意見を収集できる。
(2)市場調査などのマーケティング
インターネット上の意見を安価かつ効率的に収集できれば、アンケート調査に並ぶ意見収集手段になると期待できる。
(3)企業のリスク管理
インターネットには多くのコミュニティがそんざいするが、このような参加者の意見によって形成されているコミュニティでは、企業として迅速な対応が必要になる意見が発せられる場合があるため、それらを自動的に調査できるシステムを実現できれば利用価値は高い。

本稿では、インターネットの意見に関する様々な研究を意見の収集・分類・分析という3つの観点から紹介する
2. 意見の収集・分類・分析に関する研究
意見に着目した研究は大きく分けて、意見を収集する研究、意見を分類する研究、意見を分析する研究の3種類が存在する。収集→分類→分析で一つの流れとなっている。
2・1 意見の収集に関する研究
 
Inquirus2では、メタ検索の際にクエリーを自動補正することにより意見を含むページを収集することができる。また[Chakrabarti 99]のようにfocused crawlerによってあらかじめトピックやカテゴリーに限定したWebページのみのインデックスを作成する方法でも意見を収集することは原理上可能である。[Tateishi 04a]の評判情報検索システムでは、情報抽出技術を用いてキーワードに関する意見が記述されている箇所を抽出する。
 Web文書以外を対象とした研究としては、新聞記事を主観的な文と客観的な文に分類する研究がある。
2・2 意見の分類に関する研究
Web文書を対象とした研究としては意見を肯定・否定に分類する研究がある。その中では記事単位で肯定、否定に分類する研究、文単位で分類する研究、評価を示す表現単位に分類する研究がある。
またWeb文書以外を対象とした研究としては、感情表現の分類に関する研究がある。Web文書以外を対象とした研究としては、感情表現の分類に関する研究がある。[liu 03]では、電子メールの文を6種類の基本的な感情のカテゴリーに分類する。この研究ではOpen Mind Common Senseと呼ばれる知識ベースを用いている。OMCSには”Getting into a car accident can be scary"のような現象と感情の対応を示す例文が多く登録されており、これらを用いて電子メール文の感情を決定する。また電子メール文を対象として質問、回答、依頼などの発話意図に分類する研究なども行われている。
2・3 意見の分析に関する研究
Web文書を対象とした研究として[立石 02]がある。[立石 02]では意見を収集・分類する評判情報検索システムと、テキストマイニングツールであるSurveyAnalyzerを組み合わせて収集・分類したWebの意見から特徴後を抽出する。例えば同種の製品A,B,Cに対してAの製品が他の製品と違う点をB,Cに対する意見と比較して求めることができる。Web以外の文書を対象とした研究では、アンケートの自由回答文や、コールセンターの問い合わせ文から分類・相関ルールを導出する研究が行われている。
3.評判情報検索システム
ここでは評判情報検索システム[Tateishi 04]をその検索方式を中心に詳しく紹介する。まずユーザが初期画面で商品名などのキーワードを入力するとその検索語に関する意見を含むWebページを検索結果としてURLごとに列挙する。検索結果には、意見に該当する文をオリジナルのWebページから切り出して表示する。各意見の横には肯定または否定を示すアイコンを表示し、実際に意見が書かれている箇所と、その肯定、否定のラベルをユーザは眺めながら意見を閲覧できる。このシステムの実現には以下の3つの問題がある。
  1. 特定商品に関する意見を検出する。→単純に意見が記述された文書を見つけるだけでなくユーザが指定した商品名に関する意見を検出できる。
  2. 意見に該当する箇所を抽出する→文書内で意見がどの位置にあるのかを判定する必要がある。
  3. 抽出した意見を肯定・否定に分類する

3.1 アプローチ
このような機能を持つシステムを開発するために、まず、意見を下記のように定義する。

  • 商品と評価表現の2つのentityで構成される。
  • 記述者の判断として2つのentity間の関係が存在する。(良いか悪いか)

この定義により、評判検索の問題は、商品名と評価表現の組を検出する情報抽出の問題として扱うことができる。このように定義した意見を評価表現辞書とパターンマッチングルールを用いて抽出する。パターンマッチングルールは商品と評価表現の関係や、それが記述者の判断であるかを判定するために用いる。これにより、上記の1.2.の機能を実現する。また各評価表現にはあらかじめ肯定または否定のラベルが付与されているためそれを用いて意見を肯定・否定に分類する。これにより3.の機能を実現する。
3.2 検索方式の概要
システムが商品名をユーザから受ける→評価表現辞書を用いて意見候補をWebページから抽出する→意見候補の適正値をパターンマッチングルールを用いて計算する→肯定、否定に分類する。
3.3 評価表現辞書
評価表現辞書は、例えば「Yahoo掲示板」のような商品に関する話題が多く議論されているWebサイトから人手で該当する表現を収集して作成する。ただし例えば飲み物ならば肯定表現が「おいしい」、「飲みやすい」になるなど評価表現の種類はその商品分野に大きく依存するため、辞書は商品分野ごとに作成する。そのため、評判情報検索システムでは、商品分野に応じて辞書を切り替えて使用する。
3.4 意見候補抽出
商品名を含む一文とその前後のN分をパッセージとして、意見候補は商品名と評価表現を含むパッセージとして定義しその部分を抽出する。
3.5 適正値の計算
3.4節の条件で抽出された意見候補すべてが意見として認定されるとは限らない。例えば「dellの調子が悪いためvaioを使っています」ではvaioの評価が悪いということにはならない。そこで構文解析を利用して文が商品に対する批評かどうかを判断する適正値を設定してやる。これである閾値を超えたものを意見として認定するのである。
3.6 意見の分類
本処理では、評価表現辞書に付与された肯定・否定のラベルと否定表現を用いて意見を分類する。例えば奇数回否定表現が出てきた場合は否定とし、偶数回であれば肯定とするなどとしている。
例)vaioは良くない→良いが肯定ラベルで、ないが否定ラベル。否定が1回なのでこれは否定表現
例)vaioは良くなくない→否定が2回出てきているので否定表現
3.7 評価
上記の方式の評価実験結果を示す。実験対象の商品分野は、コンピュータとアルコール飲料の2分野とした、また実験対象Web文書は、それぞれの分野について選択した4商品の検索エンジンの検索結果の上位300ページ、計2400ページである。その実験結果の半分の1200ページを評価表現辞書の作成および、適正値の学習に用いて、残りの1200ページを評価に用いた。この結果意見抽出精度では適性値が高いほど適合率が高くなっており、パターンマッチングルールが有効に働いていたことがわかる。また意見分類精度の適合率(否定か肯定か)は全体で90%であった。不正解の中で最も多かったのが評価表現に付与したラベルの誤りであり、例えば「高い」は肯定のラベルを付与したが「価格が高い」のように否定的に使われることもありこれが精度に影響した。
4.今後の課題
意見をわかりやすい形で可視化する。例えば検索結果全体でどの着眼点に関する意見が多いかや、他の商品と比較してどの着眼点が優れているかなどを一覧できるとより使いやすい。またインターネットの意見の性質や特性(性別、年齢、職業などの偏り等)に合わせたシステムを作ることも必要である。

WWW上のテキスト情報の知的統合

1.はじめに
www上のテキスト情報の知的統合とは、関連するテキストをWWW上から自動的に収集し、それらをまとめ提示することで、ユーザの効率的な情報へのアクセスを可能にする技術である。本稿では、WWW上のテキスト情報の統合技術及び関連する研究やシステムを紹介する。特に、関連する複数のテキスト間でテキスト情報を関連付け、そこからユーザにとって有用な情報を抽出し、わかりやすく提示するための諸技術及び関連システムについて述べる。
2.テキスト情報統合の手順
WWW上に存在する特定トピックやジャンルのテキスト情報を統合するには、まず、関連するテキストをWWW上から網羅的に収集する必要がある。次に、テキスト中からトピックと関連する情報のみを抽出しなければならない。さらに、抽出された情報を何らかの観点から分類、整理し、わかりやすく提示する必要がある。以上をまとめると、テキスト情報の統合手順及び要素技術は、大まかに以下に示す4つの段階が必要となる。
  1. 特定トピックやジャンルのテキストの収集
    あるトピックに関連するテキストをWeb検索エンジンなどを利用して収集する。ここで述べるトピックとは例えば、用語、人物名、イベントなどを指し、テキスト収集の際にはこれらの語句をキーワードとして利用することができる。要素技術としては、情報検索が代表的な方法であるが、このほかにも情報フィルタリング、特定のトピックや分野のテキストのみを収集するフォーカストクローリングなどの技術の利用も考えられる。
  2. Web文書からの関連情報の抽出
    1で収集したテキストからトピックに関連する情報(語句、文、段落)を抽出する。要素技術としては情報抽出、パッセージ(部分テキスト)検索、HTML構造解析技術などが使われる。
  3. 情報の統合
    2.で複数のテキストから抽出された情報を統合する。抽出された複数の情報が等価である場合、それらをすべてユーザに提示するのは冗長であるからまとめる必要がある。要素技術としては、まず関連するテキスト情報を分類するのにテキスト分類技術が有用であり、テキスト間で類似する箇所を同定するほうほうでは、複数テキスト要約技術が研究されている。
  4. 情報の提示
    3.で解析された関係をわかりやすく提示する。表や図で可視化する方法も考えられる。

3.事例紹介
これまでに様々な目的や観点からWWW上のテキスト情報を収集、統合するシステムが開発されている。その例をいくつか示す。
3・1 WWW上のニュース記事の統合
WWW上の複数のニュースサイトから記事を自動的に収集、統合し、カテゴリーなどに分類して提示するサービスがいくつかある。

Google News
WWW上のニュースサイトから収集した情報を統合したニュース検索サイト
システム構築手順

  1. 約4500のニュースサイトから定期的に記事情報を自動収集
  2. 各ページからヘッドライン(タイトル)と写真画像を自動抽出
  3. ほぼ同時期に報道された複数ニュースサイト上の同一トピックの記事をグループ化
  4. トップページにはユーザがページにアクセスした時点で最も注目を集めているニュース(最も      多くの記事を含んだグループ)が表示されるこれは最も多くのニュースサイトで取り上げられてい  るニュースは重要であるという考えに基づいている。また統合されたニュースは「社会」、「国  際」、「政治」、「経済」「スポーツ」、「文化・芸術」、「科学・技術」といったカテゴリに自動分類される。ユーザはデータベース中のニュースを、カテゴリー検索とキーワード検索することが可能。

なおデータベースには過去30日分のデータが蓄積されており、一時間おきに更新されている。

他にも統合ニュースサイトはあるが有名なものについてその特徴を述べよう。

  • MSN Newsbot
    ユーザがMSNにアカウントを作成し、サインインした状態でNewsbotを利用すると、過去の利用状況や他のユーザのパターンに基づいてユーザが興味を持ちそうなニュースを薦めてくれる。
  • Columbia Newsblaster
    同一トピックの複数記事の内容を自動的に一つの要約にまとめてユーザに提示する機能を持っている。
  • NewsInEssence
    このシステムも自動で複数の関連記事から要約を自動作成するが、Newsblasterとの違いは、ユーザが関心のあるトピックを入力すると、複数のニュースサイトからリアルタイムで記事を収集し、要約を作成する展である。ただしこれには数分程度時間がかかる。

3.2 WWW上の論文データの統合
近年、出版社や学会、あるいは研究者個人のWebページでPostscriptやPDFといった形式のフルテキスト論文データを公開するケースが増えている。このような論文データを収集して論文データベースを構築し、検索可能にしたサービスがいくつかある。ここではCiteSeer,Cora,PRESRIの3つのシステムを紹介する。これら3システムは、いずれも引用文献索引データベースであり、また、ある論文が他の論文から引用されている場合、その論文の被引用論文における引用箇所を提示できる点が特徴的である。このような引用箇所には、引用論文がどのような研究を行っているのかを手短に述べるだけでなく、どのような問題点があるのか、また他の研究にどのように利用できるのか、といった情報が記述されている。したがってある論文に関する複数の引用箇所を提示することにより、その論文に関する様々な意見や見解をユーザが比較できる。

CiteSeer
NEC Research Institute のLawrenceらが開発したシステム。WWW上の英語論文を収集して構築、今回紹介する3システムの中では最も大規模な論文データベースを保持している。

                         システム構築の手順

  1. Web検索エンジンを利用して"publications","papers","postscript"といった語を含んだWebページを検索し、これらのページを出発点としてクローリングしてPostscriptやPDF形式の論文を収集する。
  2. 1.で収集した論文データを、PreScriptを用いてテキスト変換した後、テキストのヘッダから、タイトル、著作名などの情報を抽出。また、各論文データから参考文献情報の抽出も行っている。
  3. 2.で、各論文データから抽出された書誌情報の同定を行い、同一論文はグルーピングする。これらの作業により論文集合全体の引用関係が解析されることになる。
  4. 論文をキーワードによる検索、論文間の引用関係を辿った検索、およびカテゴリー検索が可能にする。ある論文が複数の論文から引用されている場合、その論文に関する複数の引用箇所が並べて提示されるため、ユーザはある論文に関する様々な見解、評価などがわかる。

・Cora
テキストの収集にフォーカストクローラを用いている点が他とは異なるが他の手順はほぼCiteSeerと同じである。
PRESRI
www上の日英論文データを収集して構築。引用箇所の情報からどのような理由で論文が引用されているのかを自動的に解析している点が他のシステムとは異なる。また検索結果を提示する際に、論文間の引用関係をグラフィカルに提示できる点も異なる。またPRESRIはWWW上の論文データとそれ以外から取得できる論文データベースを統合することも可能であり、その管理はすべてWebブラウザ上で行えるため。複数論文データベースの統合が容易にできる。

3.3 人物、組織名、地名に関する情報収集・統合
佐藤らはWITプロジェクトにおいて様々な側面からWWW上のテキストデータの統合を試み、システムを構築している。そのうちにWWWを利用した住所検索に関する研究がある。これは与えられた名称から、その名称に対する住所情報をWWWを利用して探し出ものであるが現在閉鎖したようである。システム構築手順としては、Web検索エンジンを用い、入力された名称を含むWebページを収集し、各ページからHTMLタグを利用して住所情報の記述されている領域を抽出し、さらにそこから名称、住所、郵便番号などを抽出する。




2007年5月30日水曜日

WWWからの情報抽出

1.はじめに
1・1 WWWと情報抽出
HTMLやXMLなどの半構造化文書から有用な知識を発見、抽出するためのWebマイニングの研究が注目を集めている。そしてWebマイニングの研究のひとつとして、Webページのコンテンツと構造を再構成し、新たな情報としてユーザに提供するための研究が行われている。これらの情報の再構成の鍵となる技術が、Webページから特定の箇所を自動的に抽出するための情報抽出である。
1・2 Webラッパー
Webページからある特定の部分を抽出するためのぷろぐらむや、抽出するための場所を指示する文法はWebラッパーと呼ばれる。ラッパーで抽出した情報は関係データベースのレコードやXMLデータなど必要な形式に変換され、新たなサービスを提供するために用いられる。
1・3 Webラッパーの自動生成
Webラッパーが抽出の対象とするものはフィールド(例えば新聞記事といった限られたジャンル)やレコード(テーブルタグに囲まれた部分など)を対象としているものが多い。本稿ではラッパーの自動生成法を中心に、Webラッパー構築に関する様々な話題を紹介する。
1・4 Webラッパーの応用
Webラッパーの最も重要な応用の一つが、情報の統合である。分散した複数の情報サービスを統合して、それを見やすくまとめて情報を提供するのである。情報の統合を可能にするには、情報抽出と同時にそれらの持つ意味的構造、
スキーマ(データベースの構造)を抽出する必要がある。その意味で情報の統合は情報抽出の間接的な応用と言える。一方Webラッパーの直接的な応用として半構造化文書から必要な部分のみを抽出することによるデータの圧縮がある。これにより、モバイル端末や携帯電話などの小さなディスプレイへの表示や、HTMLページの要約に役に立つ。

2. ラッパーの自動生成
ラッパーの対象となる半構造化文書群は様々なサイト上に存在し、様々な形式で記述されているため、サイトごと、同種の項目を持つページ群ごとにラッパーを生成しなければならない。WWW上に存在する膨大な量の半構造化文書を考えると手動でラッパーを生成することはコストの大きい仕事であり、また間違う可能性も高いため自動的な生成法が求められる。機械学習を用い、訓練例を入力例を入力として与えることによりラッパー生成を行うもの、タグによる階層構造に着目したもの、機械学習を用いる代わりに、訓練例を与えずに自動的にラッパーを生成するものなどがある。また人間によるWebラッパーの生成支援環境についても研究が盛んに行われている。

3.教師つき学習による情報抽出
本章では、ラベルやデータ間の区切り目などの付加的な情報を含んだ訓練例からの学習によってラッパーを構築する、教師つき学習による情報抽出を紹介する。
3.1 Kushmerickのラッパー帰納
ラッパーとは与えられたHTMLから所望の部分を切り出すためのルールまたはプログラムであるが、Kushmerickが提案したラッパーのうち最も単純なLRラッパーを説明しよう、LRラッパーの一般系は、W: = ((a1,b1),(a2,b2).........(ak,bk)) と表現される。例えばテーブルで
<tr><td>CPU</td><td>2.8GHz</td></tr>
<tr><td>メモリ</td><td>512MB</td></tr>
とあったとするとa1=(<tr><td>,</td>) b1=(<td>,</td></tr>)としてやることで間にあるCPUと2.8GHzを抽出することができる。同様の規則でメモリも抽出することができる。このように、いったんラッパーを構築することができれば、与えられたHTMLページから自動的に必要な情報を抽出できる。しかし、求める情報を正しく切り出すラッパーを構築することは難しい問題である。Kushmerickはこの問題をラッパー帰納問題とよび、定式化した。これは与えられたHTMLファイルPと、切り出しに関する訓練例Lから、正確に訓練例と同じ切り出しをする、すなわちW(P) = LとなるラッパーWを見つける問題である。

3.2 STALKER:DFAの学習
 
2番目の事例はMusleaらによるラッパー帰納問題である。彼らはHTMLページが木構造で表現できることに注目し、その構造からラッパーを構築する方法を提案した。彼らのSTALKERアルゴリズムは、一言で言うと与えられたHTMLページから非常に限定された正規表現のパターンをオートマトン形式で抽出するアルゴリズムである。
3・3 カーネル法
Kashimaらは、木構造からの情報抽出問題を定式化し、その問題にSVM(Support Vector Machine)による分類問題で威力を発揮するカーネル法を適用した。これを元に機械学習を行ったところ、非常に高い精度で正しい切り出し場所を学習していることが報告されている。特に、あいまいなマッチングによる木の埋め込みを許したベクトル表現のほうが通常のベクトル表現よりも高い精度で学習が行われていることが実験データで示されていることが興味深い。
4.教師なし学習による情報抽出
本章では、データを加工せずに学習者に与える教師なし学習の枠組みで提案されている情報抽出の研究事例を紹介する。
4.1IEPAD:文字列の繰り返しの発見
これまでに紹介した学習における切り出しでは、アルゴリズムに与える訓練例は、どこを切り出すかを指定したり、必要な部分だけをあらかじめ取り出したりしたHTMLページの加工品であった。このような方法では、精密な切り出しを期待できる半面、そのような訓練例を準備することはユーザにとってしばしば非常に手間のかかることである。これにたいしてIEPADでは、訓練例に特別な加工は必要なく、手に入れたHTMLをそのままアルゴリズムの入力として利用できる。IEPADは繰り返し登場するHTMLの文字列のパターンで、文字列数が最長のものを探し出してそこを切り出すことにより情報を抽出しようという考え方である。PAT木と呼ばれる特別なデータ構造を使うことでO(n)時間で計算可能である。
4.2 PLRラッパー:木構造と文字列の組み合わせ
Treeラッパーによって情報抽出を行うときにパスに対応する文字列には不必要な文字列がついている場合がある。例えば、毎日新聞の記事では、あるパスに対応する文字列が”[毎日新聞3月1日](2002-03-01-11:6)のように、日付・時間の回りに不要な文字列がついている。これは、情報統合を考える際に不要である。そこで、パスに対応する文字列の中から、さらに細かく文字列を抽出するために、山田らはTreeラッパーとLRラッパーを組み合わせたPLRラッパー(Path-Left-Rightラッパー)を提案している。PLRラッパーは、入力として与えられた半構造化文書から各項目を抜き出すためのルールの集合によって表現される。ルールとは各項目の出現する木構造のパスと、そのパスで特定されるノードに対応する文字列中の項目を囲んでいる左区切り文字列と右区切り文字列と呼ばれる文字列の組から成り立つ。そしてノードの文字列のうち不要な部分は削除される。






2007年5月29日火曜日

百科事典としてのWWW

1.はじめに

Webを百科事典として使うことは最近日常化している。Webには既存の百科事典には載っていない新しい情報や専門情報が存在するし、また、パソコンや携帯端末があればいつでもどこでもアクセス可能である。今回はWebを事典的に利用することを目的とした研究事例について解説する。情報を形式化して利便性を高める試みは、Webが登場する以前から存在する。情報の形式化という視点から、研究事例を以下の2つに大別する。

・情報検索的アプローチ
情報の原型をできるだけとどめて蓄積し、利用する段階で適宜加工する。もしくは、情報の加工や解釈はユーザに委ねる。
・知識工学的アプローチ
情報を蓄積する段階で内容の解析を積極的に行い、目的に応じた形式で表現する。

以下2章と3章で両方のアプローチについて個別に説明する

2.情報検索的アプローチ
2.1 検索エンジン
検索エンジンの仕組み的に誰もが知りたいような情報が上位に来ることになっているし、主要検索エンジンではキーワードを含む文脈の抜粋が検索結果画面に提示されているので読むべきページかどうかを判断しやすい。しかし、ページの内容を理解して必要な情報を選別したり、複数のページを横断的に吟味して何らかの結論を導くことは依然としてユーザの役目である。
2.2 質問応答システム
§1 背景
前節の検索エンジンを質問応答形式にするとシステムは有用性が高くなりユーザの負担は軽減する。しかし現在の技術では「誰?」「どこ?」、「いつ?」というwho,where,whenの対象にはある程度精度よく答えられるが「なぜ」や「どうやって」といったwhy,how型の質問に答えるのは困難であるか対象外である。ということで本稿でも狭義での質問応答に限定して説明していく。今回のテーマは百科事典としてのWebということなので質問応答を「Webという擬似的な事典」を検索する機能の一つと捉えて本稿では扱うことにする。
§2 方法論
質問応答システムは、質問文→質問解析→検索式生成→検索→回答抽出→回答選択→回答というプロセスに一般化できる。これをWebに適用すると後述するが「検索式生成」と「回答選択」の役割や効果が一般的なシステムとは異なってくる。
i.質問解析
質問文からキーワードを抽出し、さらに回答の種類を特定する。例えば「カナダの首都はどこですか?」という質問文であれば「カナダ」「首都」を名詞キーワードとして抽出し、「どこですか」回答の種類として「場所」を特定する。使う技術としては「形態素解析」、「構文解析」、「意味解析」などの自然言語処理が使われる。
ii.検索式生成
抽出されたキーワードと回答の種類に基づいて、検索エンジンに入力する検索式を生成する。以下のような手法を適宜選択するっか組み合わせることが効果的である。

  • 使用する検索エンジンの特徴やくせを考慮して、キーワード列や論理式などの適切な形式で検索式を表現する

  • 検索の網羅性を高めるためにシソーラス(類語辞典)を用いる。これは情報検索における質問の拡張に相当する。

  • 「回答が記述されているパターン」を予測して質問を変換した上で検索式を生成する。

最後の手法について考える。例えば「カナダの首都はどこですか?」という質問の回答は文書内で「カナダの首都であるオタワは」、や「カナダ(カナダの首都)」のように記述されている可能性が高い。そこで検索エンジンがこの「カナダの首都はどこですか?」という質問を「カナダ」、「首都」と置き換えるのではなく、例えば「カナダの首都である.*は」とか「.*(カナダの首都)」(.*は任意の文字列を指す。ここにオタワという答えが入っていることが多い)といった質問に置き換えてやれば回答を得やすくなる。
また、キーワードの出現順序や近接演算を考慮できれば、「カナダ」と「首都」の位置関係に関する制約を検索式で記述することで不要なページを排除する。
iii.検索
2・1節で紹介した検索エンジンと同様に、検索式に関連する文書を取得する。文書を段落のような細かな単位(「パッセージ」と呼ばれることがある)に分割して検索することで、回答候補の探索範囲を制限することが効果的である。また複数の検索式が生成された場合にすべてを検索に利用すると処理の効率を低下させるので、正解率の期待値とコストを勘案して、実際に使用する検索式の数を決定する手法がある。
iiii.回答抽出
回答の候補となる名詞句を抽出する。固有表現認識を応用して、語や表現に対して「組織名」「人名」「地名」などの種別を特定し回答の候補を絞る。
v.回答選択
複数の回答候補に対して優先度を決定し、優先度の高い回答から順番に提示する。この際、キーワードとの近接度合い(カナダの例で言うと「カナダ」と「首都」というキーワードに近い位置にある名詞との近接度合い)を考慮する方法や、複数の文書で繰り返し出現する候補に優先度の重みを多くするといった方法がある(投票方式)。この投票方式は統制のとれていないWebに対して回答の信頼性をあげる意味合いがある。
§3 実状
小規模なもの、名詞句を回答するものは試験的に運用されているが、大規模なWebページ群を対象にした検索エンジンは今のところはない。
3.知能工学的アプローチ
3・1 概要
知識工学的アプローチは、情報の内容解析を行い、データベースのような形式で情報を組織化して蓄積する。玉石混淆のWeb情報から玉だけを取り出してデータベース化できれば処理の効率化や正解率の向上が期待できる。ここでは、Web情報の内容解析や組織化をどのように行うかという視点で選先行事例を分類する。
3・2 人手による情報の組織化
人手で構築されたデータベース型のサイトをシステムに複数登録しておき、ユーザの質問内容に応じて適切なサイトを検索し、結果を提示する方法、人手で作成された用語集サイトを対象にして、説明文を検索する機能。また、人手で構築された複数サイトを統合して新しい情報源を作り出す情報統合がる。Webラッパーやデータベース工学への関連が強い。
3・3 情報の自動的な組織化
池田らは、新聞記事の見出しを5W1H要素に基づいて解析し、必要な要素からの検索を可能にした。また藤井らは擁護や事柄に関する説明情報をWebから集約して事典的なデータベースを自動構築し、多様な検索機能を提供する検索システムCycloneを構築した。

4.事典検索システムCyclone
4.1 概要
Cycloneには、見出し語を集めて事典コンテンツを自動構築する機能と、コンテンツを様々な方法で検索する機能がある。まあ使ってみればわかると思うがWebクローリングももう行っていないみたいであまり役に立ちそうではないが、とにかく分野や関連語を選択するなどして情報を絞り込むことで必要な説明を効率的に取得することができる。関連語を自動抽出しそれにより次々と言葉の意味を調べていけるのは便利である。
4.2 事典コンテンツの構築

§1 新語検出
Cycloneは事典コンテンツの内容を短期間で自動更新することが可能である。更新頻度が高いサイトのページ内容を定期的に形態素解析し、見出し語として登録されていない形態素列を検出する。
§2 検索
既存の検索エンジンを利用しても良いのだが、通信コスト削減のため、独自にページを収集し、検索エンジンを実装した。
§3 抽出
見出し語の説明はページ全体ではなく特定の一部分であることが多いので、段落を説明の単位として抽出する。具体的には、HTMLのタグ構造を利用してページのレイアウトを解析し、見出し語を含む段落や用語解説特有のHTMLタグ構造を持つ段落を抽出する。
§4 組織化
抽出処理の結果見出し語が説明されている可能性が高い段落が収集される。組織化処理は、見出し語が適切に説明されている段落を選択し、更に既存の事典と同じように語義や分野に応じて分類を行う。説明としての適切さは、特定分野への関連度、「(見出し語)とは、」などの説明らしい言語表現を含むかどうか、抽出現のページが用語集らしいレイアウトで記述されているか、抽出元ページの信頼度(PageRankを用いる)で定量的に判断する。
§5 関連後抽出
見出し語の説明に良く使われる言葉を検出し、関連度とする。
§6 要約
多数のサイトから情報を集めるので同じ説明を何度も読まされる可能性がある、これを排除するために、

  1. 一つの見出し語に関する説明群を単文に分割する
  2. 同じ観点に対応する単文を一つのグループにする
  3. 各グループから代表文を選出して、連結する。

ということを行っている。要約によって、クリックやスクロールせずに必要最小限の情報を取得したり、携帯端末での情報取得が可能になる。

4.3 事典コンテンツの検索
 事典コンテンツ検索の基本は、見出し語を入力して説明を表示する方法である。しかし、ユーザの入力が見出し語になかった場合は様々な代替手段を用いて意味のある応答を返し、ユーザを必要な情報へと誘導する。
 まず、前方一致、後方一致、部分一致検索によって文字列が類似する見出し語を検索する。これにより入力誤りや表記のゆれを補完することができる。
 コンテンツの全文検索によって事典コンテンツの逆引きを行う。その結果、「電子メールに感染するソフト」や「印刷機を発明した人」という入力に対して、「マクロウイルス」や「グーテンベルク」などの見出し語を提示する。また、英訳が同じ言葉を同義語として提示したり、関連語抽出によって構成された見出し語同士の関係を可視化して、別の見出し語を探す機能もある。