2007年6月18日月曜日

Web Trust 研究動向

1.はじめに

フィッシング詐欺やチャリンカー詐欺(現物を確保する前にネットオークションに出品し、注文を受けてから安く調達して利ざやを稼ぐ自転車操業的な手法。また、赤字になるような安い価格で出品を続け、高い評価がたまったところで大量の仮出品を行い、入金されたところで逃亡する詐欺のこともある)、P2Pソフトを介した個人情報漏えい問題など、Webの利用が進むにつれ次々に新しい問題が起こっている。今後Webを健全な社会インフラとして活用するためにはWebの信憑性の扱いが最大の課題となっているといっても過言ではない。そこでWebを安心して使えるようにするためWebの信憑性の問題に様々な分野で取り組んだ研究が近年注目されている。そこで本稿ではこれらをWeb Trustの研究と呼び、具体的な事例をあげて現状を紹介する。

2.Trustとは?

2.1 TrustとPrivacy,Security

相手を信頼するためには相手に関するあらゆる情報を判断材料として入手したいだろう、こうした相手に関する情報の入手につきまとうのがPrivacyである。Privacyは、情報のオーナシップやコントロールに関する権利とされ捉えられ、またその権利を保護することがSecurityである。リスクを減らすには、できるだけ多くの判断情報を集めたいが、これを追求するとPrivacyの考えが脅かされる。一方Privacyを尊重しすぎると、相手を信頼するに至らないという局面が増える。こうした意味で、信頼に基づく社会を実現するには、PrivacyとTrustとのバランスを考慮する必要があり、この点がPrivacyの取り決めを難しくする要因のひとつである。また、Privacyを保護するSecurityが確立していないと、やはりPrivacyは保護されないことになる。Trustに立脚した社会の実現は、PrivacyとSecurityの課題と切り離せない関係にあるといえる。

2.2 Trust研究のマップ

イタリアCNR(National Research Council)のInstitute of Cognitive Sciences and Technologies(ISTC:認知科学技術研究所)では、Trustを総合的に研究するため,T3 Groupという研究組織が活動している。T3はTrust Theory and Technologyの頭文字をとったもので、様々な分野の研究者が集まり、Trustとは何か、Trustは社会や技術にどのような影響を与えるのかなどを幅広く検討している。T3では、Trustを扱う研究分野として以下の5分野をあげている。

  • 経済学(Economics/Organizations)
  • 社会学(Sociology)
  • 心理学(Psychology)
  • コンピュータサイエンス(Computer Science)
  • 社会的認知科学(Socio-cognitive approach)

§1 他分野におけるTrust研究事例

経済学:経済学でのTrustは、主に顧客が企業などの組織に対して感じる信用や安心などの基準であり、変数として表せる因子の一つとみなされている。

社会学:社会学では、Trustを主に個人対個人の信頼関係と捉えている。

心理学:どういう状況でTrustを感じるか、あるいはTrustとTrustに類似した概念をどのように識別するかを中心に議論している。

社会的認知科学:社会的認知科学では、人間が様々な要因からTrustを導き出す過程をモデル化する研究が行われいている。

3.Web Trust研究

3・1 WebにとってのTrustの意義

Webを含むコンピュータサイエンスでは、Trustは大きく分けて二つの異なる側面から議論されている。一つはセキュアなシステムの構築手法、もう一つはネットワーク上でのエージェントに対するTrustを算出する手法である。前者は、高いセキュリティを持つシステムやセキュリティを重視するユーザはTrustworthyであるとするものである。一方後者は実世界での組織や個人の間の関係をコンピュータネットワークに適用し、ネットワーク上のノードやWeb上のオンラインショップ、それらの利用者などをエージェントと捉え、その信憑性を推定しようとするものである。Webには、実世界の距離を超えたコミュニケーションを可能にし、匿名性が高いという2つの大きな特徴があるため、実世界よりも大きなチャンスとリスクがあり、相手を正しく選択する重要性が高い。

3・2 Trust推定のための評判情報管理

利用者の評価情報を元に、エージェントのTrustを予測する一連の仕組みは、評判管理システム(reputation system)と呼ばれている。Reputation systemの基本的なアイディアは、今まで面識のない相手のTrustを「間接的な情報」である評判情報をもとに予測することにある。ここで「間接的な情報」とは、すでにこの相手と面識のあるほかのエージェントによる評価を意味する。

Trustの研究は大きくはcentralized型とdistributed型に分けることができるがこれらについて説明していく

§1 Centralized Reputation Systems

評判情報をサーバ上で中央管理するシステムで、商品レビューサイトなどに代表される情報提示サイトなど、数々のWebサービスにおいてreputation systemが利用されている。最も有名なものがヤフーオークションなどで利用されているユーザ評価方式であり、取引完了後、売り手と買い手のそれぞれが相手に対してプラス(+1)、中立(0)、マイナス(-1)の評価を下すプリミティブなフィードバック方式となっており、あるユーザの評価値は、このユーザが受けた評価値の総和(ないしは平均値)となる。また、オープンソースプログラマのための情報共有コミュニティであるadvogatoにおいてもメンバの評価(スキル習熟度)を管理するreputation systemが提供されていて、ここで採用されているAdvogato's trust metricは、各メンバをnodeとし、メンバ間の参照情報をedgeとする有効グラフを用いてメンバ評価を行う。またEpinionという製品及び店舗のレビューサイトではユーザはレビューとレビュアの双方に評価情報を付与することができる。

§2 Distributed Reputation Systems

中央管理を必要としない分散型reputation systemに関する研究は、主にP2Pファイル共有におけるファイル詐称問題への対応策として研究が進められてきた。例えばMudhakar SrivastsaはP2P環境下でのピア(通信相手)の選択にTrustを導入し、あるファイルを取得する場合にTrust値の高い(信頼できる)ピアを選択することで、故意にウイルス感染させたファイルを配信するような悪質なピアに接続する危険を減少させるシステムを提案している[Srivatsa 05]

また中央管理型とは異なり、分散型reputation systemにおいては、評判情報が各ユーザの手元に点在することになる。このため、あるユーザに関するTrustを調べる際には、他のユーザから該当ユーザに関する評判情報を収集する必要がある。そこで、この評判情報を如何に効率的に収集するか、如何に分散する評判情報を元に必要とするユーザのTrustを計算するかがポイントとなる。Abererらは、ユーザのマイナス評価を分散環境下において共有するアーキテクチャを発表している。[Aberer 01]

また評判情報の一貫性をどう管理するかといった分散環境特有の課題もある。

§3 評判システムの課題

効果的なreputation system実現のためには、いくつか解決すべき課題が存在する。Resnickは、正確なReputationを得るためには、(1)利用者からのフィードバックをどのように誘発するか、(2)信頼性のあるReputationの配信をどう実現するかなどの課題を解決する必要があるとしている。(1)の問題については、ユーザに対してフィードバックへの対価として金銭的インセンティブを与えるアプローチや、ポジティブとネガティブの両方のフィードバックを採用することで、比較的少数のユーザ間関係からでも高い精度でTrust値算出が計算可能な手法を検討するアプローチがある。しかしこのシステムではポジティブ方向に偏りがちなのでより正直な評価を引き出すために匿名性を加えたreputation systemも考えられている。(2)については悪い評判がついたエージェントが、いったん自分のIDを捨てた後、新規参入エージェントのフリをして新たなIDと新たな評判を取得することが問題となっており対応が非常に難しい。また悪意を持ったユーザを統計処理などにより除くといったことも行われている。

3.3 ページの内容による信憑性の推定

FoggによるWebページの信憑性を心理学的な視点から調査した研究があるが、それによると大きく分けて5つのグループがあり、それぞれ

  1. Real-World Feel Scale
    組織の住所や社員の顔写真が掲載されているかといった実世界での実在性を感じさせる基準
  2. Ease of Use Scale
    キーワード検索が可能か、リンクナビゲーションが適切かといった使いやすさによる基準
  3. Expertise Scale
    記事の出展が明記されているなど、情報の専門性、技術的裏づけに関する基準
  4. Trustworthiness Scale
    著名なサイトからリンクされている、よく知られた企業のサイトであるといった社会的な信用に関する基準
  5. Tailoring Scale
    情報を送信すると確認メール返信されるなど、細部の作りこみに関する基準。

3.4 その他のWeb Trustに関する研究

§1検索エンジンのランキング

検索エンジンのランキングの信憑性として、意図した相互リンクなどをどこまで認めるのか、また本来のランキングのあり方を改めて問うてみる、といった動きが見られる。

§2 評価表現抽出

blog等から個人の主観的な意見を抜き出そうということも行われている。ここでは文章中に表れる「良い」評価や「悪い」評価を自然言語処理技術を用いて抽出し、その記述全体としての(おそらく信憑性)の評価を算出するというものである。(「良い」「悪い」の記述からその文に対する信憑性を求めているのか、それともある製品があってそれに対して肯定的な意見が多いのか否定的な意見が多いのかを単に調べているだけなのかは論文内容からはよくわからない)

参考文献 人工知能学会誌 21巻4号

blogマイニング ーインターネット上のトレンド、意見分析を目指してー

1.はじめに

ブログは通常のWebページとは異なり、速報性、リアルタイム性のある新鮮な情報が発信されることから、掲示板同様有用な情報源と考えられるようになってきている。このblogを大量に収集し、収集したblog集合を様々な手法で分析することで一般の人々の「生の声」をうまく抽出することに現在関心が集まっている。

2.blogとは?

blogの情報源としての特徴の第一は、時系列情報を伴った膨大なテキスト集合であるという点であろう。いうまでもなく、内容を書いた日付(時刻)がメタデータとして付与されているテキストはこれまでで希少であり、そのため経年変化などの動向調査を行う素材としては非常に興味深いということができる。また上述したように、blogの書き手が一般の個人であり、その内容から一般の人々が何をし、何を思っているかを抽出できる可能性があることがblogを情報源として魅力的にしている第二の理由といえる。さらにblogの場合、トラックバックなど付加的な機能により、人と人の間のつながりに関する情報を入手しやすいという特徴もあり、後述するコミュニティ抽出などのように個人間のつながりに関する分析に向いているという特徴もある。

3.blogマイニング

       -blogから社会の何が見えてくるのか-

blogを対象にした分析にはどのようなものが考えられるだろうか。現状ではblogマイニングと呼ぶことができる分析技術は以下のようなものである。

  • Authority分析
  • トレンド分析
  • 評判分析
  • コミュニティ抽出
  • blogの書き手の属性推定
  • 実世界の動向(例えば、株価、売り上げ)との相関分析
  • spam filtering
  • 自動要約
  • 情報の重要性、信頼性評価
  • blogのエントリの自動分類、トピック同定
  • マスメディア(例えば、新聞記事)とblogの自動対応付け

4.blog検索 ーblogによるランキング手法

blogのみに的を絞った検索エンジンとしては、例えば、未来検索livedoor,Yahoo!ブログ検索などがあるが、これらは人手による収集、あるいはpingサーバからblogサイトの情報を得て、RSSを利用することでblogを収集する検索システムである。ブログ特有のランキング付けとして、日付順、更新間隔が短いもの順などを利用することが考えられる。

5. blogにおけるトレンド分析ーいつどんな話題が盛り上がっているのか?

ある程度の規模のblogページを利用することが可能な場合、それらのページの中で、あるキーワードの出現頻度がどのように推移するかを計ることで、そのキーワードが「いつ」、「どの程度」注目されていたのかを知ることが可能である。出現頻度のみを注目度の指標にするだけではキーワードごとの総出現頻度の差を受けるといった問題がある。(つまり人気キーワードと人気キーワードではないが最近注目されているキーワードの総出現頻度が同じである時、それらを同等に扱うのは間違いであり、最近注目されているキーワードをもっと優遇すべきということ)そこで筆者らはキーワードの出現間隔が狭くなってきている状態(バースト)を発見することによって、キーワードが注目されていると考えられる期間を検出している。

6.評判分析ー人々の意見を収集、分析する

blogが個人の発信するメディアであることから、現状評判分析がblogマイニングで最も関心をもたれている技術といってよいだろう。評判分析では、blog中の、ある対象に対する個人の肯定的あるいは否定的意見を抽出、表示することが目的となる。blogWatcherでは、ある対象に関する評判情報を検索することができる。実際にキーワードとしてipodと入力すると、評価表現が肯定的な評価か、否定的な評価かなどが自動的に判定されグラフにより傾向を掴むことができる。評判分析手法は、テキスト中の肯定的・否定的意見箇所を抽出する手法、それらの箇所がどの対象に対する意見であるかを同定する手法、それらの箇所がどの対象に対する意見であるかを同定する手法、の大きく2つの要素技術に分けることができる。

7. blog空間におけるコミュニティ抽出

blog空間におけるリンク構造を解析しblogのコミュニティを抽出しようという試みが多数見られる。またコミュニティが時間経過とともにどのように変化していくかを分析する手法なども研究されている。

8. その他のblogマイニング技術

8.1 blogの書き手の属性推定

blogの書き手の属性が推定できると、例えば属性による分類ごとに分析結果を示したり、また、居住地域を特定できれば、その居住地域に関して記述されている内容は、「地元」の人の記述として遠方の人のものより信頼性を与えられる可能性もでてくる。書き手の属性としては、性別、年齢、居住地域などが現在推定の対象となっている。

8.2 実世界の動向との相関分析

blogマイニングの結果、トレンドや評判の推移に関する情報がblogを情報源として得られるようになると、次は、このblog中での動向が実世界での動向とどのように相関するのかを分析したいという関心も当然高まってくる。この典型例が、blogの中での動向が実世界での動向とどのように相関するのかを分析したいという関心も当然高まってくる。この典型例が、blogの中での記述が選挙結果とどのように関連したかを分析するものといえる。同様に、株価の推移がblog中の記述とどのような相関にあるかを分析するという研究もある。またGruhlらは、amazonにおける書籍の売り上げランキングとblog上での言及数の推移の相関を分析している。

9.blogWatcher-インターネットから社会の関心、意見を収集・分析する

blogWatcherでは、システムが「今話題のトピック」と判定した話題を紹介するためのblog(メタブログ)を自動生成している。これは、全単語についてのバーストを計算することでその日にバーストしている単語がわかるため、その単語を元に注目されている話題を発見し,

その話題を、Movable Type(ブログのサーバサイドソフトウェア、投稿された記事をデータベースに保存しあらかじめ決められたテンプレートでその内容を表示するもの)で作られたblogに対し、毎日記事として(自動で?)投稿することで実現されている。メタブログでは特に何も入力しなくてもシステム側が推薦するコンテンツを見ることができるというような使い方の違いが存在する。

第2版で追加された機能である、ニュースとブログの自動対応付けでは、ある新聞記事に関して記述しているblogエントリを自動的に特定する。この機能により、記事にリンクを張っていないエントリでも、元記事を参照できるだけでなく、記事に言及しているblogエントリを検索できるので、新聞記事に関してのblog中での反応を閲覧可能である。また第三版では行動分析により、その行動がどの時間帯(朝、昼、夕方、夜)に行われたものかを自動推定する機能を追加予定である。ここでは「みんなは**をいつ食べている?」といった疑問に答えられることを目指している。

Webサーチ技術の現状と今後の展望

1.はじめに

ほとんどのユーザがWebへの入り口としてWebサーチエンジンを利用しており、Webサーチの重要性はますます高まってきている。本稿では、目覚しい発展を続けるWebサーチ技術について、「ユーザの問題解決や意思決定」という観点から、現状の動向を概観するとともに今後の方向性を探る。

2.文書検索からの脱却

従来型のWebサーチエンジンは精度は向上したが依然、検索語に適合する膨大なWebページのリストを返すのみである。ユーザが求めているのは膨大なWebページのリストではなく、自らの問題解決や意思決定に必要な「答え」である。例えば、Web情報に基づいて、世の中の動向を把握したり、行動計画を立案したり、コミュニケーションすべき相手を探し出したりする。しかし、従来型のWebサーチエンジンでは答えにたどり着くまでユーザ自身努力して膨大な情報を集約し洗練する必要がある。そこで次世代のWebサーチに求められるのはユーザの問題解決や意思決定を直接的に支援することである。そのためには、膨大なWeb情報を集約し洗練することによって一段上位の「知識」を発見し利用することが必須である。また、ユーザごとに異なる状況に応じてサーチを適応化させる技術や、ユーザの行動とサーチを連携させる技術などが重要になる。本稿では、従来型の文書検索から脱却し次世代のWebサーチを指向する様々な取り組みについて述べる。

3.Web情報の集約と分析

本章では、Web情報を集約し、より深く分析することによって、Webページ単位の検索では見えてこなかった「知識」を浮き彫りにしようとする試みについて述べる。

3.1 クラスタリングエンジン:検索結果から学ぶ

多くの検索ユーザは、最初漠然とした情報要求しか持っていないことも多く、何度かサーチしながら自分の情報要求を明確化し絞り込んでいく。こうした検索スタイルを支援すべく、検索結果をクラスタリングすることによって、検索結果に含まれる代表的なトピックを発見するクラスタリングエンジンが近年注目を浴びている。クラスタリングエンジンはWebサーチの検索結果に含まれるWebページ集合を内容の類似性に基づいてグループ化し、各グループの内容を特徴付けるラベル(単語やフレーズ)を生成することを行う。ユーザが理解しやすいラベルを生成するために、クラスタリングアルゴリズムとラベル生成は密接に関係しており、例えばZamirらは共通の単語やフレーズを含むWebページ集合を階層的にグループ化し、クラスタとそのラベルを同時に生成するSuffix Tree Clustering(STC)手法を、ZengらはWebページのタイトルとスニペットを手がかりに、機械学習に基づいてラベル候補となるフレーズを発見しそのフレーズを含むWebページをグループ化するクラスタリング手法を提案している。また商用サービスもすでに公開されている。

3.2 評判情報の抽出

レビュー記事を肯定・否定に分けたり、良い点と悪い点を抽出する研究。意見を要約する研究などが行われている。個人の情報発信メディアとして大きな役割を果たしているblogは、評判情報抽出の情報源としても注目されている。blogからの評判情報抽出で問題となるのは、ある話題について述べられている一連のblogエントリ集合を特定し、評判情報抽出の対象となるテキストデータを取得することである。日常会話形式の砕けた文で書かれているためニュースサイトのようなある程度形式がある文と比べて話題分割が難しい。そこで記事の内容だけでなく記事の間に存在する意味構造を利用して話題分割を行うという手法が考えられている。(具体的なところはよくわからないが)

3.3 大量のWebデータに潜む傾向の分析

IBMのWebFountainプロジェクトでは従来のWebサーチエンジンが軽視してきたWebデータ、すなわち掲示板やblog、ニュースグループといったリンク構造を持たないデータに着目している。こうしたリンク構造を持たないテキストデータのほうが興味深いデータを発見するのに有効だと考えているからである。またWebFountainが従来の検索エンジンと異なる点は、大量の分析結果からトレンドを見つけ、例えば「会社の評判」や業界のトレンドといった質問に答えようとしていることである。

3.4 Webページの”見られ方”の発見

自分のWebページが他のWebページからどのように見られているのかを発見する技術として、[Zettsu 05]の「アスペクトマイニング」というものがある。アスペクトマイニングでは、目的のWebページをリンクしている個々のリンクアンカーの周辺テキストを「参照文脈」として抽出し、それらを類似したもの同士のグループにクラスタリングする。これを応用することでほしい情報とその情報を利用する状況(文脈)の両面から検索結果を絞り込むことが可能になる。

4.集合知の利用

4.1 Folksonomy:タグによる集団分類

様々なユーザがWebコンテンツに対して持つ”コンテンツ”を「タグ」と呼ばれるキーワードを使って付与し、ボトムアップなコンセンサスを形成しながら集団でWebコンテンツを分類する。

4.2 集団思考と評判システム

digg.com(技術系のニュースサイト)⇒どの記事がdiggのトップページを飾るかをユーザの投票によって決める。

reddit(某ニュースサイト)⇒"karma system"という評判システムによって記事の優先順位付けを行っている。ある記事が昇格されたり降格されたりすると、その記事を投稿したユーザにも報酬が与えられたりペナルティが付けられたりする。これを”(editorial)karma"という値で各ユーザに付与している。人気のある記事を数多く投稿するユーザほど高いkarmaをもつことになる。すなわちkarma systemはユーザが互いを評価しあうpeer ranking systemを提供する。

5. サーチの個人化

5.1 デスクトップ検索⇒Webサーチエンジンでの技術をデスクトップコンテンツへ拡張

5.2 検索履歴の利用

近年の傾向として、過去に一度検索したページを再度取得しなおす”re-find"機能が注目されている。例えばGoogle My Search Historyでは、個人の検索履歴を保管し、後からそれを検索することが可能である。また、検索結果の中で実際にアクセスしたページを記録し、日付ごとの検索履歴を一覧表示したり、カレンダーに日ごとの検索活動量を色分けして表示したりする。またYahoo!MyWeb2.0では、"tagging,saving and sharing"というコンセプトのもと、気に入った検索結果をコメントやタグとともにユーザのPCに保存し、後から検索できるようにしている。(これはおそらく検索順位の変動による影響を受けないと思われる。)

6. 行動支援ツールを目指して

6・1 サーチとサービスの連携

WebサーチエンジンがWebへの入口として定着してきた今日、サーチから様々なサービスへとユーザを導くために、サーチとサービスを連携させることが注目されている。例えば、HousingMaps.comでは、米国及びカナダの24都市で入居可能な住居の情報を検索し、検索結果を地図上に表示するサービスを提供している。これは、Craigslist(オンライン掲示板)検索とGoogle Mapsサービスの連携によって実現されている。今日サーチエンジンやサービスプロバイダが公開しているAPIを組み合わせる(マッシュアップ)ことによって、ユーザ側で独自の連携サービスを作ることができる。

6・2 Mobile Web サーチ

近年、パケット定額制が追い風となり、携帯電話によるインターネットアクセスが飛躍的に増加している。それに伴い、「ちょっと知りたいことを検索する」という文化が携帯でも根付き始めてる。現状では、携帯による携帯用コンテンツの検索が主流である。例えば、携帯向け書かれたWebページや、着メロ、待受画像の検索などが上げられる、携帯向けサーチの特徴として、入力の障害はほとんどないが、出力が限定される問題がある。また、リンク解析など高度な機能を有するPC向けサーチエンジンに比べ検索精度が悪いことも問題として挙げられる。今後のmobile Webサーチの方向性として、以下のことがあげられる。

  • サーチから地図、路線、グルメなどのサービスと連携
  • ローカル検索(エリア検索)
  • Blogとの連動、例えば、携帯で写真を撮ってblogにアップロードする。
  • 暇つぶし検索。エンターテイメント系のコンテンツ検索の充実

7. まとめ

今後のWebサーチの主な方向性として以下の点が上げられる

  • サーチとマイニングの融合:サーチによって得られるWeb情報を集約・分析(マイニング)することにより、ある興味に対する多種多様な観点や意見、傾向や動向などを発見するとともに、得られた知見をサーチに反映させる。
  • 集合知の利用:増殖し続けるWeb情報の分類や評価を、ユーザの視点からボトムアップな合意形成に基づいて行う。
  • 個人の情報ポータル化:個人が扱うありとあらゆるコンテンツを検索する統合サーチ環境の実現。(グーグルデスクトップ等)
  • 想起型サーチの実現:過去の利用状況や利用目的からコンテンツを特定する形態のサーチ
  • サーチからアクションへの誘導:サーチとサービスの連携や、モバイル環境での利用に特化したサーチ。

参考 人工知能学会誌 21巻4号

2007年6月15日金曜日

Webアクセスログとその利活用

1.はじめに

SEO/SEM、検索ワードを解析することによるトレンド分析などの観点からWebページ閲覧情報に注目が集まっている。Webページの閲覧情報であるWebアクセスログから人々の行動パターンや傾向を抽出することは重要であり、現在までにリコメンテーションシステムやショッピングサイトにおける購買促進など数多くの研究が行われている。ここでは最近のWebアクセスログの研究事例やアクセスログの動向について述べる。

2.アクセスログに関する研究事例

2.1 ユーザやWebページのクラスタリングに関する研究

アクセスログから類似するユーザの行動パターンを発見し、ユーザのグループ化やユーザのパーソナライゼーションを行う研究は購買促進や新規顧客の獲得など、ビジネスに結びつくため現在までに様々な研究が行われている。また、ユーザが訪れたページの閲覧情報を元に、Webページやページで売られている商品のクラスタリングを行う研究も行われている。[Eirinaki 03]では、パーソナライゼーションについて詳細な説明や各ツールの比較などを行っている。[Murata 04]ではWeb視聴率調査データからユーザとそのユーザが閲覧したWebページのURL中のterm情報からユーザのグループ化を行う手法について述べている。

2.2 検索語のクラスタリングに関する研究

検索エンジンやポータルサイトのアクセスログの解析からユーザが入力した検索ごと閲覧されたWebページの組み合わせを大量に得ることが可能なため、これを用いて検索語のクラスタリングを行うことが可能である。最近ではGoogleサジェスト、gooサジェストなどの新しいサービスが提供され始めた。[Beeferman 00]ではLycosの一日分のアクセスデータ(50万レコード)から、検索語とその直後に閲覧されたWebページの組み合わせを元に2部グラフを作成し、これを用いて検索語のクラスタリングを行う手法を提案している。[大久保 98]では検索ログを用いて、例えば「桜と花見」のようなある一定の期間では関連語となる検索語の発見から、ユーザの情報ニーズを抽出する方法について述べている。ユーザの検索要求が時間とともに変遷する例として、桜の花が咲く前の期間では「桜」は「桜前線や開花」など桜の咲き始める時期との関連が強いのに対して、桜の開花後は桜の名所との関連が強いという結果を示している。またユーザが閲覧したWebページのテキスト情報から形態素解析を用いて名詞を取り出し、これをもとに関連語の抽出を行う手法なども提案されている。

2・3 ユーザの行動パターン抽出に関する研究

Webページを数多く保持しているサイトのアクセスログやWeb視聴率調査データを用いて、ユーザの行動パターンを抽出する試みが行われている。例えばWeb視聴率調査データを用いてユーザの大域的な行動を抽出する研究が行われている[大塚 03、Otsuka04]。これでは「チャイルドシート」と検索した人が一体どのWebコミュニティを徘徊することになるのかという事を調べていて、最初にベンダーコミュニティーを訪れた人はショッピングサイトやオークションサイトのコミュニティーに多く訪れ、最初に行政コミュニティーに訪れた人は安心を求める目的から「自動車事故対策センターを含む」コミュニティーや「JAF(日本自動車連盟)」を含むコミュニティなどを多く訪れているなどの傾向がわかる。

2.4 その他の研究

その他にもアクセスログから学生に教材を推薦するシステム、Webページ間の相関を発見するツールなどが提案されている。

3. Webアクセスログの動向

3.1 Web視聴率データ

様々な企業の提携やサービス終了等で2006年4月現在の日本におけるWeb視聴率調査データは1つのみである。

3.2 Web視聴率調査データ抽出方法

調査方法

  1. 協力世帯のパソコンに「調査用ソフトウェア」をインストール
  2. ユーザがWebサーバにリクエスト(URL入力/リンク/ブックマークなど)
  3. WebサーバからユーザのPCにWebページが転送される
  4. クライアント側の調査用ソフトが視聴データ(URL、時刻など)を記録、集計センタへ送信
  5. 集計センタでそれらをデータベース化し、集計分析用として提供

このように収集されたログからは使用者を特定するID,Webページにアクセスした時刻、アクセスしたWebページのURLなどがわかる。

3.3 Alexa

Amazon.comの子会社であるAlexa Internet社はWebサイトごとにトラフィック情報を公開している。このサイトでは、

  • 指定したサイトの閲覧率(100万人のうちどのくらい人が閲覧したか?)
  • 指定したサイトを閲覧したユーザの平均閲覧ページ数。
  • 指定したサイトの世界的なトラフィックランキング

などがわかる。これはAlexaツールバーをダウンロードした人から情報を集めている。

3.4 The Internet Traffic Archive

Web視聴率データは一般に高価であり、誰でも簡単に利用できるデータではないし、Alexaの統計データの詳細は公表されていないため、WEbアクセスログの研究に用いることは難しい。そこで、一般に公開されているWebアクセスログデータであるThe Internet Traffic Archiveについて説明する。これはNASAなどのトラフィックやページ数が多いWebサーバのアクセスログや、大学のコンピュータを利用している学生や教職員のWebページ閲覧情報が公開されている。

4. 終わりに

今後は広告の効率的な配信やマーケティング戦略などアクセスログに対するより高度な解析手法が望まれる。また行政サービスなどの公的機関でも電子化がすすんでおり、アクセスログを用いて悪意を持ったユーザの事前特定を行う研究など今後はさらにアクセスログの解析技術に対するニーズが高まると予想される。

参考 人工知能学会誌 21巻4号

2007年6月14日木曜日

リアルワールドとしてのWeb

1.はじめに

コミュニケーションの場としての発展や、GIS(地理情報サービス)や携帯電話がWebと接続されるなど日常生活を情報技術によって支援するための基盤整備が進んでいる。ここでは、現実世界とWebは別個のものではなく、融合し、互いに補完しあう関係が形成されている。ほんこうではこのような変化についての現状を報告し、今後進むべき方向性について議論する。

2.サイバースペースとリアルワールド

インターネット常時接続環境の整備、ユーザ数の増加、SNS,blogなどの出現によりリアルワールドにおけるコミュニティがのメンバがサイバースペースに進出するようになると、サイバースペースはリアルワールドを補完するもものとして機能し始めた。また、サイバースペース上のコミュニティがオフラインミーティング(オフ会)によってリアル化するなど両者の境界は曖昧になってきている。また技術面では接続時における時間情報や、デバイス付属のGPS機能によって取得された空間情報を、情報検索あるいはコミュニケーションに利用するといった新たな技術が生まれている。このように、Webのリアルワールド化は、大別すると個人を取り巻く社会関係をWebに対応させる取り組みと、その個人が物理的にどのような状態で存在しているかをWebにマッピングする取り組みの2方向で進められている。

3.実社会とWeb

実社会における人々の活動がWebに反映されるようになったことでWebから大規模な社会ネットワークを抽出することが可能になった。近年これを分析し、分析結果をもとにした情報推薦や、社会関係の推薦といった応用研究が数多く提案されている。ここでは、社会ネットワークに関連する研究を構築・抽出・分析・応用の4種類に分類してみる。

3.1 ネットワークの構築

ブログ間のリンク・トラックバック関係やSNSにおける友人関係等のデータはクローラー等によって容易に取得することができるため、社会ネットワーク分析の基礎データとして多く用いられている。

3.2 ネットワークの抽出

blog・SNSのデータは有用であるが、これらはWeb上に情報を発信している個人のみが対象であるため、実社会の社会構造を反映しているとはいえない。より詳細な社会ネットワークを得るには、情報源をWeb全体に拡張し、ここからネットワーク情報を抽出する必要がある。この研究にはメーリングリストやWebページのリンク関係から個人間のネットワークを抽出する手法を提案するもの[Adamic 03a]、あらかじめ人名のセットを用意し、検索エンジンを用いて任意の2名の人名が共起するWebページの数から関係の強さを判定し、ネットワークを構築するもの(Polyphonet[Matsuo 06])などがある。

3.3 ネットワークの分析

SNSに参加する人やそのネットワークの特性を調べたり、ネットワークで中心となっている人は誰なのかを推測するといったことが行われている。また個人の振る舞いとして電子掲示板での発言、応答を分析することで有力な発言者を特定する研究[松村 03]などもある。

3.4 ネットワークの応用

アクセス権限を誰にどの程度付与するかというアクセスコントロール問題に社会ネットワークの関係を使おうという手法や、ネットオークションにおける取引履歴から社会関係を構築し、相互評価のテキスト情報から有益な情報を取り出すSocial Summarization法[Hijikata 06]などの応用がある。

4. 実世界とWeb

情報技術による実世界の活動支援としてはモバイルコンピューティングやユビキタスパーベイシブコンピューティング(コンピュータを実世界中のあらゆるところに存在させようとする考え方)などの研究分野が存在する。これらは、個人が所持するデバイスや環境に設置されたセンサがネットワークで接続された状況におけるサービス基盤として注目されている。例えば携帯に付属したGPSによりユーザの位置情報を確認し、ユーザに適した情報を提示するといったコンテクストに応じた情報の配信が可能になる。また高度な支援を実現するために、取得された情報を集約して粒度の大きい情報を抽出する研究が進められている。

4.1 位置情報の利用

実世界情報の取得手段として最も普及が進んでいるのは、携帯電話に実装されたGPS機能である。上松らは、GPS機能をもつ携帯電話を利用して、blog記事や写真に位置情報を付加することで、地図上にこれらの情報をマッピングする場logを提案した。場logでは、位置情報を通知することで現在の位置に最も近いコンテンツを得るなどの検索手法も提供している。位置情報を利用したblogの集約サービスはGeoURLやはてなマップ などで実運用がなされている。現状ではすべての記事に位置情報が付加されていることは期待できないが、間瀬らの研究では、blog記事内に複数存在する地名を地図にマッピングし、それらの距離関係から記事が主題としている地域を推定する手法を提案している。

4.2 行動情報の利用

デバイスやセンサによって得られたコンテクスト情報は、ユーザ単位で時系列に集約することで、より抽象度の高い行動情報として利用することが可能である。沼らは、前述の場logならびに学会支援システムから各ユーザの行動履歴を取得し、これをもとにblog記事の下書きを自動生成するActionLogを提案している[Numa 06]。

ホンダでは、車載システムによって収集された走行情報及び所要時間から道路の渋滞状況を推定するインタナビ・フローティングカーシステムが提供されている。このシステムによって得られた交通情報はWebを通じて共有され、位置情報ビューアであるGoogle Earthで閲覧することが可能である。またさらにこういった流れを進めたものに、人間の活動のあらゆる局面を記録し、検索可能にするプロジェクトの代表例としてDARPAによるLifeLogやMicrosoftによるMyLifeBits がある。

4.3 社会関係の利用

携帯電話で写真撮影する際に、携帯電話に内蔵されたBluetooth通信を利用して周囲の人物のリストを自動的にアノテーションすることを可能としたシステム[Davis 05]などがある。(具体的には良くわからないが)

5. データ・アプリケーションの統合

これまで述べてきたように、実社会ないし実世界とWebを接続する試みは緒についたばかりである。今後は、個別の研究あるいはサービスを統合し、より高次の活動支援に向けた研究開発が進められることが期待される。

6. リアルワールドとしてのWeb

6.1 課題

  1. 個人情報の保護と社会ネットワーク分析による知見の獲得や利便性の提供を両立させることは難しい。
  2. 情報の信頼性をどう保証していくか
  3. 現実世界に存在する社会ネットワークと抽出可能な社会ネットワークとの間に存在する質的な差異。
  4. デバイスから得られる情報に含まれる誤差やノイズの処理

6.2 展望

リアルワールドとしてのWebにおいて、ページ単位の検索ではなく、知識の主体である個人単位の検索を実現することは目標の一つである。またサービスが構築することができたとしてもユーザがこれを積極的に利用するかどうかは別の問題であり、サービスデザインについて今後事例を積み重ねて検証を行っていく必要がある。今後は、3章における分類と同様に、分析による集合知の抽出だけでなく、参加者が意識的に集合知を構築するための手法(フォークソノミーなど)、得られた知識の再分析や応用に焦点が移るものと思われる。

参考 人工知能学会誌 21巻4号

2007年6月8日金曜日

Web2.0時代の個人とコラボレーション

Web2.0は、個人の活動の集積として価値あるコンテンツが生成されるという思想が前提となっている。これらの環境の中で、個々のユーザはどのように振る舞い他者との関係性を構築しているのだろうか?本稿では、ユーザの関係性とネットワークという視点から、Web2.0の代表的な例であるブログやSNS,ソーシャルブックマークにおけるユーザのネットワークに関する研究動向を述べる。社会ネットワーク分析や複雑ネットワークという研究分野と関連して多くの研究が行われているが、こういった研究は、Web2.0を理解し今後の展望を考える上で、サービスの提供者にとってもユーザにとっても重要な知見を提供するものである。

社会ネットワーク分析と複雑ネットワーク

数年前から、スケールフリーやスモールワールドなどで知られる複雑ネットワークが着目を集めている。スモールワールドネットワークは典型的には小さなクラスタが少数のリンクでつながれた形をしているもので、 スケールフリーネットワークはノードの次数(いくつのエッジを持っているか)の分布がベキ則(P(K) = kのーr乗) (rは定数)に従うというもので、極端に次数の大きいノードが少数存在するが、ほとんどは次数の小さいノードである。また社会ネットワーク分析では、大きく2つのタイプのネットワークデータを扱う。一つはノード同士の直接的な関係による隣接関係を行列で表した(Adjacent matrix)であり (誰と誰が知り合いかなど)、もう一つは誰と誰の興味が近いか?や誰がどの複数グループに属しているかなどの関係を行列に表した(Affiliation Matrix)である。こうした2種類の関係を用いるとWeb2.0に関わるの様々なユーザをネットワークとして捉えることができる。

Adjacent matrix(知り合い関係)

太郎

花子 

純一

正弘

慶介

太郎

0

1

0

0

0

花子

1

0

1

0

0

純一

0

1

0

1

1

正弘

0

0

1

0

1

慶介

0

0

1

1

0

Affiliation matrix(人と興味)

Web

音楽

スポーツ

TV

ラジオ

太郎

1

1

1

0

0

花子

1

0

0

0

0

純一

1

0

0

0

0

正弘

1

1

1

1

1

慶介

1

1

1

0

1

ユーザのつながりの分析
日本ではmixiの分析が2005年2月時点のデータを用いて行われている。当時の36万ノード、190万リンクについて調査し、知り合い数がr=2.80のベキ分布であること、次数平均(マイミク数の平均)が10.4であり6ホップで96%をカバーする小さな世界であること、クラスタ数Cが0.328であり凝集性の高いネットワークであることなどが報告されている。また知り合い関係をGNアルゴリズムという方法でクラスタ化していくと、比較的t小規模のクラスタ群と大規模のクラスタ群に2分され、その中間領域が欠けている事を興味深い発見として述べている。mixiでは自分の周りのクラスタのサイズが徐々に成長していくが、あるときに急激に成長がスキップするわけである。この一般性や含意についてはまだ不明な点も多いが、SNSの何かの性質を示しているものかもしれない。またFOAFの分析でもknows(知り合い関係)の分布はベキ分布となり、その分散性はWeb2.0的であるといえ、今後はユーザプロファイル管理の仕組みの成長とともに重要性を増してくると考えられる。
ここで紹介した研究はいずれもWeb上での人のネットワークのスケールフリー性を示すものであるが、これが意味するところは何であろうか?ここで重要なのは多くの人から支持される一部の人だけではなく、ロングテールの部分の人同士のコミュニケーションを促進する仕組みがSNSやブログにはあるということである。個々のユーザにとって、一部のスーパーノードの質の高い情報も価値があるが、それにも劣らず自分の周りにいる人の日々の雑多な情報も価値がある。We2.0で議論されるロングテールはスケールフリーネットワークとは本来直接のつながりはないが、実はWebにおけるユーザのネットワークを間に介することで密接に関係している。
情報の伝播モデル:口コミとブログ
ユーザのネットワークがあるとして、その上で情報はどのように伝播していくのだろうか?この分析に関する研究をいくつか紹介する
B.HubermanらはAmazon.comでの本やDVDの商品の推薦がどのように伝播していくかを分析している。その結果次のようなことがわかった
  1. 2人の間でインタラクションが多くなると推薦はきかなくなる。
  2. 推薦を受け入れる確率は、推薦してくれる人の数が増えると急激に増えるがすぐに飽和する。
  3. 次数の高いスーパーノードがあるが、影響力には限界がある。たくさん推薦する人のことはあまり聞かなくなるからである。
  4. 推薦の効果はカテゴリや値段に影響される。

ここで描きだしているのは、ネットワークとしてつながれた個々が互いに影響しあいながら情報が広がっていくモデルである。またRichardsonらは、1人のユーザが他のユーザの購買にどのくらい影響を持つかを数値化して、そのユーザの"network value"を計算する確率モデルを提案している。またブログ上での情報がどのように伝播していくかを研究しているものも数多くある。いずれの研究でも、モデル化の基礎となっているのはユーザが情報を得て、それによって他の人に情報を伝播させる力を持つという状況である。こうした情報の伝播の性質が今後の研究でさらに明らかにされれば、ユーザにとってより心地の良い、効率的な情報環境の構築につながっていくと考えられる。

コミュニティの形成

最近の研究ではLive Journalのコミュニティ機能について分析したものがある。ゆーざは、自分が入るコミュニティをどう決めているのだろうか?それを予測するモデルを学習した結果

・自分の知り合いの中で、そのコミュニティにすでに入っている数が多ければ、ユーザがそのコミュニティに入る確率が高まる。

ということがわかった。これは、ほとんど自明である。面白いのは

・そのコミュニティにすでに入っている知り合い同士が知り合いであると、そのコミュニティに入る確率が高まる。

というものである。自分の知り合いのうち2人があるコミュニティに入っているとすると、その2人が知り合いでない場合より知り合い同士の場合のほうがそのコミュニティに引き込まれやすいわけである。また安田らはmixiの分析の中で入り口の役割を果たす巨大なコミュニティと、そこから先の徐々にマニアックになる系列コミュニティという生態系が形成されることを発見した。またGoogleの研究者らはOrkutというSNSにおけるコミュニティの推薦について調べている。特定のコミュニティに対してどういうコミュニティを進めればユーザは受け入れられるかというものである。

ソーシャルブックマーク分析

ソーシャルブックマーク(SB)では、世界をどのように分類するか、その分類がコミュニケーションを通じてどのように共有されるのかという言語学や人工知能で重要なテーマを含んでいる。世界の分類はある種のちしきであり、タグ付けのような簡単な仕組みによって実現さればSBにより語彙が構築されていく様子を俯瞰できるのは興味深い。

検索エンジン、そして今後のWeb技術

さて、Web2.0の様々な現象は、検索エンジンにより適切な情報が探せるようになったという部分に依拠するところが大きい。検索エンジンで探してもらえるからWikipediaには人が来るのでるし、質の高いブログを書く人がいる。検索エンジンは今後ますますインフラ化するだろう。また今後はエンティティ間の関係をより捉えた技術がより重要であるし、発展するだろうと思われる。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

ロングテールはマーケティングをどう変えるか?

ロングテールはマーケティングをどう変えるか?

ロングテールとは何か?

ロングテールとは従来のように売り上げが集中した市場(売り上げ分布の頭の部分)ではなく、個々の売り上げは小さいが広範囲に分散する市場をターゲットとした、新たなビジネスモデルの提案である。製品を横軸に、売り上げ個数を縦軸にしたグラフを書いたときこのグラフは右に非常に長く続くことになる。この非常に長く続く製品群をターゲットとしたものがロングテールビジネスである。ちりも積もればなんとやらである。例えばAmazonはロングテール部分に当たる売り上げが13万以下の順位の製品から全体のほぼ3分の1の利益を得ていると聞いたことがある。もちろんこれはインターネット上だから実現可能であることであり店舗を持つ実世界では扱いようのないことである。今まで売り上げに貢献しなかったような製品を取り扱えるようになったという点でロングテールは画期的である。ロングテールの代表例としてのもう一つ典型例はグーグルの検索連動広告である。GoogleAdwardsは今まで広告なんて出せなかったような小さな店などに対して広告を出すことの敷居を限りなくさげ、またAdsenseにより一般の個人までもが広告により収入を得られるようになった。これはロングテールのテール部の広告主とテール部の広告掲載主である個人をうまいこと狙ったビジネスモデルであるといえる。

ロングテールの前提を問う

ロングテールを確率統計的モデルとして捕らえたときどのような確率分布に従うかという問題があるが、今までの研究はほとんどリアルワールドで行われている購買行為を対象としているため、それをネットの世界にも適用するのは適切ではない。リアルワールドではすでに扱える製品の種類に限りがあるため既にテール部が切り捨てられているからである。テールの先にどのような需要が隠れているのか、それはどのような確率モデルに従うのかは今解明されつつある。

顧客側のロングテール

ロングテールのビジネスモデルが成り立つには、供給側の条件としては対品種少量生産とその流通管理が低コストで実現することが絶対的に必要である。いうまでもなくそれが実現しやすいのはソフトウェアや音楽、映像のような、完全にディジタル化された製品である。しかしこれはどちらかというと、生産流通面だけに注目した議論であり、マーケティング面の条件についても考える必要がある。それは、顧客別の需要の分布はどうなっているかという問題である。そこでマーケターは近年、パレート図を製品単位だけでなく、顧客単位に作るようになってきた、すなわち、製品を単位とした場合と同様、顧客ごとの売り上げを計算し、顧客を左から右へとその順に並べ、そうして描かれた顧客のパレート図から例えば上位20%の顧客が全売り上げの何パーセントをもたらしているかが読み取れる。これは近年のデータベースシステムの発展により最近になって可能になってきたのである。これによるとやはり製品と同様顧客についても製品と同様のべき乗分布、すなわち一部の優良顧客が売り上げのほとんどを占めているということになる。しかしこのような顧客ほど経験が豊富になりテール部の製品を買うのではないかという仮説があり、これが正しいとするとテール部分の製品を扱うインセンティブは高くなる。マーケティングや消費者行動の研究で、時間や経験によって消費者選考の多様性がどう変化するかはさほど研究されてこなかった。今後、実際のデータを用いてこれらの論点が掘り下げられることを期待したい。

無数の選択肢からの選択問題

ロングテールのビジネスのもとでは、マーケティングリサーチのあり方が大きく変わるかもしれない、極論すれば、需要予測は不要になる可能性がある。なぜなら、ロングテール論が主張するように個々の製品の追加的な生産費用や在庫費用が限りなく小さいなら、それらの製品は発注があり次第すぐに生産するか在庫から出荷すればよく、その需要を事前に把握する必要がないからである。しかしミクロな需要予測に用いられる消費者選択問題は依然として必要になる。消費者選択モデルとは、有限個の選択肢から、どの選択肢が選択されるかを予測する手法である。売れそうな製品をレコメンデーションできれば売り上げは高くなるはずである。推薦モデルとしては協調フィルタリングを用いることが考えられており、すでに実用化も進んでいる。しかし協調フィルタリングには製品別分布のテール部分のように過去の購買者が少ない製品については情報不足し、信頼性のある推奨をするのが難しいということである。無数に近いニッチ製品の推奨をどう行うかは、今後に残された大きな課題である。

最後に

ロングテールのビジネスモデルが広がると、マーケティングやマーケティング・リサーチのあり方は大きく変容を迫られるのは間違いない。本稿は、それにかかわる論点の本の一部しか言及していない。例えば、ブランド、製品開発、価格設定、プロモーション、流通、といったマーケティングの幅広い領域にロングテールのビジネスモデルがどのような影響を与えるかについて、より幅広く、かつ奥深い議論が今後起きるであろうし、そうなることを期待したい。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

Web2.0と集合知

Web2.0と集合知

複数のユーザの意見から作り出されるコンテンツや知識を集合知というが本稿ではWebにおける集合知の現状を概説し、その可能性について述べる。

群集の英知

集団による意思決定は多くの場合において極端な方向に傾くことが指摘されているが、個人の限界を突破するためにはやはり集合知が求められる。集合知が適切に機能している事例に共通する性質として以下の4つを挙げている

  • 多様性
    各参加者がそれぞれに独自の視点を持っていれば、総体として多くの候補解を列挙することができる。探索空間が狭い場合には、その探索空間内に適切な解が存在しない可能性がある
  • 独立性
    各参加者の持つ意見や提案が他の参加者の影響を受けないよう、各参加者の独立性が確保されている必要がある。特に小集団で議論を行う場合には多様性が低いために偏った結論に集約される危険性がある。
  • 分散性
    問題を抽象化せず、各参加者が直接得られる情報に基づいて判断する必要がある。参加者ごとに得られる情報の種類は異なると予想されるが多様性を維持するためにも、各参加者に共通する属性のみで判断すべきでない。
  • 集約性
    上記3点の特性を活かして得られた知識を参加者全体で共有して、比較検討して最終的な結論を導く仕組みが必要である。

このように、集合知の実現には、他の影響を受けない状態でのローカルな知識の生成メカニズムと、それらを集約するメカニズムの両方がひつようである。

WEBナビゲーションと集合知
グーグルのPageRankはハイパーリンク構造を用いてうまい具合に集合知を間接的に利用しているといえる。しかし今日では検索エンジンだけでは解決できない問題、例えばブログにおいては更新直後の情報の発見が重要となるが、新しいものほど被リンクが少ないことや、リンク構造分析の計算コストの問題によって、そういったページの評価が上がりにくいなどがある。

人力検索とソーシャルタギング

このような要求に対応すべく、集合知を活かしたナビゲーション実現システムが次々と生まれている。これらはリンク構造分析による評価に見られるようなコンテンツの書き手同士の相互評価ではなく、読み手による評価を利用するところに特徴がある。参加者が質問し、別の参加者がそれに答える、いわゆる「人力検索」と呼ばれるサービスはその一例である。これは質問者は、自然文で知りたい事柄を提示し、回答者は該当すると思われるサイトのリンクを示しながら回答する。優れた回答には得点をつけるなど、継続へのインセンティブがあるためあらゆる分野の質問に答えられるだけの参加者を獲得し、実用的なサービスとして定着しつつある。またソーシャルブックマークといってブックマークを共有し、ブックマークが多いページを優先して画面に表示しようとすることも実用化されている。また集合知を利用したナビゲーションサービスに特有の機能としてソーシャルタギングというものがある。youtubeなどで見られる自由にユーザが付けられる言語符号のことである。

フォークソノミー

ソーシャルタギングによって得られたタグの集合は、フォークソノミーと呼ばれる。しかしソーシャルタギングによって作られたフォークソノミーはそれぞれのタグの間に関連性がなく、このままではタクソノミーの代替物として他の目的のために再利用することが極めて難しい、そこで、単語間に関係を導入するために、タギングが行われる際に複数のタグを入力可能であることを利用して、タグの共起関係から統計的に関係を計算する手法が使われる。さらに、タグの分布の包含関係から上位ー下位関係を導くなどより精度の高い体系の自動構築は重要な研究トピックの1つになりつつある。多くの課題があるが多くの参加者が主体的にメタデータを付加するような状況は過去に例を見ない。この状況を活用して、参加者にとってより有用なシステムを構築することが求められる。

コミュニティと集合知

体系化された知識をWebに集積する試みの中で、最も成功したものがWikipedia、またLinuxをはじめとするオープンソースソフトウェアの開発は、インターネット上で最も成功した協調型プロジェクトの1つである。これらはボランティアによる運営にも関わらず企業で開発されるプロジェクトにまったく引けを取らないレベルまで達しているといえる。

予測市場

はてなアイデアのように仮想的な市場の仕組を使って、ユーザーから要望や不具合報告を効率的に得ることを目的としたサービスなどがあり、要望が低いものは自然淘汰されていき、要望が強いものが残っていく。これにより優良な意見を発掘しようとするのである。

総表現社会と集合知

ウェブ進化論ではWebの進歩によって誰もが表現の機会を与えられる、「総表現社会」の実現可能性について議論されている。すでに、ブログやSNSを利用した表現活動、コミュニケーション活動は本格的な普及の段階にあり、この傾向は今後も続くものと思われる。表現形式についても多様化が進み、テキストだけではなく、画像、音声、映像を用いた表現を容易に作成、公開することが可能になった。その中で、個々の表現活動が関連し合い、あたかも集団で大規模な創作活動が行われているように見える現象が生まれている。また、このような現象を明確に意識した集合的表現の活動や、それらを支援するシステムが作られている。NOTA,Willustrator,CreativeCommonなど多くの試みがある。

参加のアーキテクチャ

本稿では、Web上に存在する集合知の事例をいくつか取り上げた、集合知には自己組織的に生み出されるものもあれば、参加者間の共同作業によって得られるものもあり、一律に定義することはできない。これらに共通するのは「参加のアーキテクチャ」が適切に設計され、多くの参加者を巻き込んだ結果である、という1点である。参加のアーキテクチャを設計するにあたっては、その目的に応じて参加者の役割やコミュニケーションの方法を決める必要がある。参加者の独立性をどのように確保するかや、権限管理の有無など、検討すべき項目は多い、最終的には、参加者をどの程度信頼するかという、人間そのものに対する洞察も必要となる、信頼はその定義上投機的なものであるため、何らかのシステムによって自動的に解決するものではない、性善説にのみ依拠するのではなく、コミュニティに貢献することが最もコストの低い状態になるようにシステムおよび精度の設計を行うことが重要である。様々な課題はあるが、集合知は適材適所で大きな力を発揮する。最近では、集合知を積極的に利用として問題解決を図るという意味の「クラウドソーシング」という言葉も生まれており、今後様々な応用が出てくることが期待される。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

2007年6月7日木曜日

Web2.0の情報アーキテクチャ

Web2.0の情報アーキテクチャ

Web2.0を支える技術トピック
本稿ではWeb2.0的なサービス、製品を実現するための具体的な技術に焦点を当てていく

ブログとRSS/Atomの普及

企業や組織が作成したページを閲覧するパブリッシング型から、利用者自らが情報を発信していく参加型への移行

検索APIを提供するWebサービス

GoogleやYahoo!は、人間でなくアプリケーションプログラムからも同様に検索サービスを利用できるAPIを公開している。ただしアプリケーションごとに1日に検索できるクエリ数が制限される運用となっている。GoogleはSOAP /WSDL (WEB Services Description Language)ベースの検索APIを、Yahoo!はRESTベースの検索APIをそれぞれ提供する。Amazonでは書籍用のISBNコード に加えて、自社サイトで扱うすべての商品に付与してASINコード(amazon standard identification number)を提供する。

Ajaxの浸透と発展

Rich User Experiencesを最大化するための技術要素としてAjaxが重要となっている。これは以下の技術の組み合わせであると定義されている。

  1. XHTMLおよびCSSを利用した標準に基づく表現
  2. DOM を利用した動的表示とインタラクション
  3. XMLおよびXSLT(XMLによって記述された文書を他のXML文書に変換するための簡易言語。)を利用したデータ交換や操作
  4. XMLHttpRequestを利用した非同期データ取得
  5. それらすべてを結びつけるJavaScript

XMLHttpRequestとはJavaScriptでWebブラウザ~サーバ間の非同期通信の機能を提供するクラスである。またAjaxの浸透によりJavaScriptの重要度が再確認されてきたためJavaScriptライブラリの充実が行われている。

XMLを補完するJSONフォーマット

XMLほどの厳密性がそれほど必要とされない分野で活躍できるという意味でJSON(JavaScript Object Notation)が脚光を浴びつつある。XMLの持つすべての機能をJSONで再現できるわけではないが、JavaScriptを利用したWebアプリケーション実装において必要となるデータはすべてJSON形式で表現することが可能である。これにより冗長なXMLコードを生成する必要がなくなる。

万年β版ソフトウェアとテスト

ソフトウェアをパッケージ販売することよりもWebからダウンロードすることが増えてきている。それによるメリットとしては、更新した場合新たなパッケージを買う必要などなく更新プログラムをダウンロードしてくるだけで済む。またユーザとのWebでのインタラクションなどによりさらに良いサービスが提供できる機会が増えるなどがある。βというフレーズはテストの段階を表すための言葉ではなく、単にサービスの鮮度を表すために利用されることが多い。

軽量プログラミングモデルと疎結合

RSSやRESTベースのシステムを導入する際のキーワードとして疎結合が挙げられる。従来型の企業システムに見られたような密結合した複数システム間の調整は避け、各システムが緩やかに連携する運用を実現する。API使用に沿う限り、システム環境やプログラムの開発言語は問われないためどの言語でも自由な開発ができる。しかし、実装が優先され、詳細な使用の明文化が足りないも多くなり、相互運用性の確保が徐々に難しくなってきている。

マッシュアップと今後のアーキテクチャ

企業がAPIを公開する場合が増えてきたが、それは第三者に新たなサービスの提供を期待して行うものである。このAPIを利用してそれを既存の技術と結びつけ新たなサービスを展開することをマッシュアップと呼んでおり、現在の流行である。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

2007年6月6日水曜日

Web2.0とは何か?

Web2.0とは、新しい発想と新しい技術によって実現される新しいWebのあり方を言うが、その定義は非常にあいまいなのでまずWeb2.0的な要素を紹介する。

  1. 厳密な分類ではなくタグ付け→youtube,flickrなどに代表される。ユーザが自由にタグというものを設定でき、自由に情報を分類できる。
  2. ユーザによる貢献→楽天、アマゾンなどのユーザレビューがサービス価値を高める
  3. ユーザ参加型→ブログ等誰でも手軽に情報を発信できるようになった。
  4. 進歩的な分散ネットワーク→Winny,WinMXのようなP2P型ネットワークによりネットワーク負荷が軽減、マルチメディアの流通を加速
  5. リッチなユーザ経験→AjaxやFlashによりデスクトップアプリケーションに近い操作性を実現
  6. ユーザセルフサービスによるロングテールの取り込み→Google Adsense,Adwords,amazonのAPI公開など、本来のビジネスでは考えられなかった大多数の人が宣伝を行うことが可能となり、また売れ筋以外の商品を取り扱うことが実現してきている。
  7. 信頼に立脚した進歩的なコンテンツ作成→性善説を前提にしたコンテンツ作成、Wikipediaが代表例。

ビジネス、コミュニティ、テクノロジー「プラットフォームとしてのWEB」
テクノロジーによって便利なサービスが登場すると、それを使うユーザのコミュニティが形成される、コミュニティが十分に大きくなると、その上でビジネスが動き出す。ユーザがいなければビジネスは成立しないし、ユーザが使うサービスはテクノロジーなしにはありえない。そしてWeb2.0はこの3つの分野のプラットフォームとして効果的に機能することで、相乗効果を実現している。エンジニア・研究者、経営者・ビジネスマン、コミュニティ活動家という普段はかけ離れた関心を持つ各分野のリーダーたちがWeb2.0というという一つのキーワードに魅力を見出していることが、Web2.0現象の特徴でもある。
またテクノロジープラットフォームとしては、複数サービスを複合して新たなサービスを提供するマッシュアップ、コミュニティ・プラットフォームは、ユーザがシステムの一部として組み込まれる形となり、SNSやユーザの人気によりニュースサイトの見出しを変える機能などがあげられる。ビジネスプラットフォームとしてのWebとしてはロングテールやアフィリエイト広告、検索連動広告等があげられる。
コミュニティ情報基盤としてのWeb2.0
ここまで考察してきたようにWeb2.0の世界は、テクノロジーを組み合わせてサービスを作るのもユーザ、ビジネスニーズを作るのもユーザというユーザ(コミュニティ)参加モデルである。Web2.0はユーザの、ユーザによる、ユーザのための「コミュニティ情報基盤」を作る動きなのだと考えられる。Web2.0の世界では、ユーザの発言や行動履歴は、メタデータやWebサービスの共通形式を通じて集約される、集約されたデータは、検索サービスとして提供されたり、言語処理や統計の技術を使って多様な意味を与えられ、ユーザに提示される。リッチインタフェースの技術を使って可視化されることもある。これに反応したユーザの発言や行動の履歴がまた集約されて、コミュニティ情報基盤は一層強化されていくのである。
情報を「引き出す」を支援する仕組みが鍵になる。
Web2.0の成功例に挙げられるサービスは情報を引き出す仕組みを技術的に支援したものである。情報を引き出すにはいくつかのパターンが考えられる。

  1. ユーザが自己の内面の試行で引き出す
  2. ユーザが他社との対話から引き出す
  3. ユーザが記録から想起で引き出す
  4. 記録から関係情報を機械的に引き出す。

ビジネスとコミュニティの融合クラウドソーシング
不特定多数のインターネット上のユーザの活動を、適切なインセンティブによって組織化し、ビジネスに活かそうとする考え方は、ビジネスの世界でクラウドソーシングとして先行して注目されている。リナックスのプロジェクトのように集合知を利用して製品を作り上げようとするのである。
Web2.0的なアイデアを生み出す源流
Web2.0サービスを提供するベンチャー企業は積極的にその価値観や組織風土をマスメディアや自社のメディアで公開している。そこには従来の企業にはない、組織の創造性を育むユニークなモチベーションやインセンティブを生む試みが多数取り入れられている。

Web2.0企業の試みの例

  • プロトタイプ開発のためのラボ組織
  • 就業時間の20%を自主的な開発に当てなければならないGoogleの20%ルール
  • プロトタイプの短期集中開発を楽しみながら行うはてなの開発合宿
  • エンジニアが技術の情報交換を組織横断で行う草の根イベント
  • 部門を越えて情報交換を行う、社内ブログ、社内Wiki
  • 経験や能力の異なる2人が1つのプログラムを開発するペアプログラミング
  • 個人ブログの内容を重視して採用判断の材料にするブロガー採用

これらの試みは個人の才能の発掘と、才能ある個人同士の相互啓発を狙いとしている。

Web2.0的なサービスが生まれやすい組織に共通する要素

  • 創発的ディベロップメント
    個々の人の能力の総和というより、コミュニケーションによって知恵や才能を相互に引き出し、全体として高いピークパフォーマンスを実現する組織。
  • 芸術的プロダクション
    ユーザとの持続的インタラクションで次第に完成度を高めていくが完成というものは存在しない永久のベータモデル
  • 互恵的オープンネス
    標準プロトコルを通じて、個人間、サイト間で機能や情報を互恵的に共有する態度を持っている。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

2007年6月4日月曜日

SNSの現在の展望

はじめに
Web上で利用者が急増しているのがmixiをはじめとしたソーシャルネットワーキングサービス(SNS)である。SNSでは、参加者がそれぞれに固有のページを持ち、他の参加者と相互にリンクすることで小規模コミュニティを形成する。コミュニケーションはその内部でのみ行われるため、不特定多数に情報が公開されているBBSやブログとは異なる密接なコミュニケーションが可能になる。SNSは参加者の同一性を特定しやすいため、コミュニケーション分析の研究対象として注目を集めている。またSNS上では大規模な社会ネットワーク分析手法を適用することで新たな知見が得られる可能性がある。本稿では、SNSの発祥から現在に至るまでの変遷について述べた上で、研究対象としてのSNSの位置づけについて議論し、今後の課題や展望について述べる。
SNSとは
snsは、日常的なコミュニケーションの支援を目的として、コミュニケーションの主体である個人の存在を明示化し、個人間の情報流通を実現するためのシステムであると定義できる。本稿では、このようなコミュニケーションの形態を個人指向コミュニケーションと呼ぶこととする。
SNSの歴史
個人指向コミュニティサイトがSNSと呼ばれるようになったのは、2003年に米国で開発された[Friendster]が最初であるとされている。Friendsterは急速にユーザを獲得し、開設後3ヶ月で100万人に達したことから注目されるようになった。日本でもmixiが普及し、snsの普及は全世界的に進行している。韓国のSNS[CyWorld]は韓国語圏でのサービスながら1300万のユーザを抱えており20代女性の95%が参加している。最近では類似サービスが続々と登場しており、どのサービスSNSであるのかを明確に区別することが難しくなっている。またトピック限定のSNS、地域限定のSNSなど、ユーザの範囲を限定したSNSも数多い。
SNS研究の現状
SNSでは、個々の参加者の振る舞いだけでなく、参加者間のつながりの総体としての大規模ネットワークを観察することができる。この特徴を利用して、工学やコンピュータ科学のみならず、社会学や心理学、物理学のアプローチを用いた研究が進められている。本章では、これらの研究をコミュニケーション分析、社会ネットワーク分析、および情報・知識共有の3つの観点に基づいて分類し、紹介する。
コミュニケーション分析
これまでの研究成果で、SNSを日記、すなわち知人とのコミュニケーションを主に利用するとの回答が80%に上った。また顔写真、実名を公開している参加者ほど新たな他社とのコミュニケーションを求め、非公開であるほど現実の知人関係でのコミュニケーションを求めている傾向が明確になっている。また参加者の国籍あるいは国民性と振る舞いの特性の関連を調査した研究などもある。
社会ネットワーク分析
社会ネットワーク分析は、社会学の中でも、人と人とを結ぶ関係に着目し、関係構造であるネットワークを分析することでコミュニティ全体の特性を明らかにする学問分野である。インターネットではmixiなどで用意に社会ネットワークを得ることができるために急速に研究が発展している。研究によれば
スケールフリー性(ノードとリンクの関係がベキ乗分布を示す)やスモールワールド性(ネットワーク規模に比して任意の2ノード間の距離が短くなるような性質、すなわち知人同士が特に密接に繋がったような状態)がわかってきている。
情報・知識共有
アクセス権限をどう設定するのかが難しい。どの人にどこまで情報を公開していいのか?コミュニティごとに情報のアクセス権を付与すべきかなど様々な問題が発生する。しかし大規模社会ネットワーク分析手法が整備されつつあり、これらを用いることによって実用的なアクセスコントロールが可能になると期待されている。
研究者のSNS
SNSに関する研究は、多大なデータを必要とすることから、実サービスの運営者と連携して進められることが多いが、研究者自らがコミュニティ支援システムを構築し、運用している例もある。Polyphonet Conferenceでは研究者間のつながりを一般のSNSの手法だけではなく、Web全体を情報源としてネットワークを抽出している。
SNSのオープン化とメタデータ
SNSは個人的なコミュニケーションのツールとしてだけではなく、幅広い利用が考えられる(適した人探しなどが考えられる)。用途によっては知人関係を公開することは問題ではない場合もあり、そのような用途に対してオープンなSNSを構築するための基盤が構築されつつある。代表的な例として、知人関係をメタデータとして記述するための
FOAFがある。
SNSの課題・展望
情報の信憑性
→SNSではデマ等が広がりやすく、また個人による過度な情報公開により犯罪が誘発されるといったことも出ている。今後は長期的な視野にたった
情報リテラシーが求められる。
コミュニケーションツールから情報流通の基盤へ→社会ネットワークとコミュニケーションは分離可能であり、コミュニケーションとは異なる社会ネットワークの利用方法が様々な分野で提案されている。広告やマーケティングの分野では、パーソナライゼーションの一環としてSNSの利用が模索されているほか、情報検索や推薦、組織内の人事評価など対象及び利用目的は多岐にわたる。将来的には前述のような認証基盤上に各種サービスが構築され、ユーザが自由に必要な機能を選択するオープンなSNSが普及するものと思われる。今後は実サービスを運用する企業と研究者の密な連帯によって、SNSの可能性を追求することが望ましい。

参考 IPSJ Magazine Vol47 No.11 Nov.2006

Web 世界の進化

新しいWebの展開
Web世界で様々な技術が揃い、ネットワーク環境も充実してきた現在、多くの人々が手軽にサービスを試し、取捨選択することで、人々が積極的にWeb世界に関わるように変わってきた。こんな環境変化の下で新しいビジネスが生まれ、育っている。
Web2.0とは?
最近よく耳にするWeb2.0、この意味合いは曖昧だが、以下の7項目でO'Reillyは特徴付けている。

  1. プラットフォームとしてのWeb
    これまでのソフトウェア販売のビジネスが成り立たなくなり、Webを通してのサービスの提供とそれを支える豊富なデータを持つことが必須になった。
  2. 集合知の活用
    Webから幅広いユーザの判断や認識を得ようということ。Wikipediaやブログなどが典型
  3. データは次世代の「インテル・インサイド」
    インターネットでより良い情報を提供するためにデータの重要性が増してきており、データの獲得競争が起きているということ。(オープンソース現象と相反するのでこれについては良くわからない)
  4. ソフトウェアのリリースサイクルの終焉
    サービスとしてのソフトウェアでは、ユーザにつかってっもらうサービスが重要で、ユーザの反応に迅速に答えることが大切である。それゆえ永久のβ版というのがはやっている。(まだまだこれからより良いサービスを提供していきますよという意思表示)
  5. 軽便なプログラミングモデル
    単純で汎用性が高いプログラミングが好まれる。既存のサービスと簡単に組み合わせて多くの革新を生むことができるからである。
  6. 単一のデバイスのレベルを超えたソフトウェア
    特定のPCプラットフォームに限定されない、新しいWebプラットフォームで動くアプリケーションが求められるということ。
  7. Web上でのフルスケールアプリケーションの実現
    GoogleのGmail、Googlemapsなど

最後に
web世界の進化はコモディティ化されたネットワーク環境やPC環境がしっかり整い、安心して使える社会インフラが提供されて始めて可能なわけで、このことを忘れてはならない。スパムメールの駆除、著作権問題、個人情報漏洩などまだまだやるべきことは多い