2008年7月7日月曜日

Spam Double Funnel

Spam Double Funnel:

サイトにアクセスした時、あるいは広告をクリックした時のデータの流れを探り、そこからスパム活動の傾向を知ろうという研究。米国のサイトを対象とした研究だから分かりにくかった。具体例のサイトとか知らないし。まあともあれこんな内容です。元も論文はこれ→http://www.cs.ucdavis.edu/~hchen/paper/www07.pdf

Abstract

検索エンジンの最適化技術(SEO)を駆使し、Webページの検索結果を上位に上げる事が広く行われている。我々は広く普及したスパム手法である“リダイレクトスパム”に焦点を当てる。リダイレクトスパムはスパムページがトラフィックを第三者のドメインにリダイレクトしていることにより見つけることができる。(リダイレクトスパムは、ユーザがあるスパムページを訪れるとすぐさま広告主である他のページにユーザを飛ばすという手法のスパムであると思ったがどうもこの論文では違うらしい。ググッたところリダイレクトとはプログラムの入力元や出力先を通常とは違うものに変更することとあった。つまりあるページにアクセスあるいはリンクをクリックするとそれが様々なドメインを経由してそのドメインから得た情報をページの一部として表示したり、アクセス情報を記録したりいろいろするらしい。)我々は5層2じょうごモデルをリダイレクトスパムを表現するために用い、層を解析する方法論を提示し、2つの広告キーワードの集合を用いてスパムと思われるドメインを発見する。2つの広告キーワードの一つはスパマーに狙われるキーワードを対象としており、もう一つは広告主に向けて入札額が高いキーワードを対象としている。我々の提案と結果はサーチエンジンがスパムに対して頑健性を増し、サイトの管理人がスパムのドアウェイページを取り除き、広告主がスパムページに広告を載せるような悪い宣伝主を発見するのに有用だろう。


1.Introduction

サーチスパマーとはクオリティの低いページをSEO技術を用いて検索結果上位に引き上げようとする輩を言う。一般的なSEOのテクニックとしてはキーワードの詰め込み、リンクファーム(例えば過度の相互リンク)、Webクローラーとユーザに異なったページを見せる手法(英語でCrawler-browser cloakingという、これはSEOが施されたページをクローラーに見せ、ユーザにはSEOは施されていないが見栄えが良いサイトを見せるという手法。例えばフラッシュで作られたサイトは検索エンジンとの相性が悪いためしばしばこの手法が用いられる。現在でもこの手法が蔓延っているのか分からないが・・・(もう古いテクニックでは?))などがある。最近の手法としては、スパム調査員から逃れるための手法として、click throuth cloakingというものがある。直接URLを入れて入力してきた人に対して偽のコンテンツを見せるというものである。(お気に入りから直接来た人はどうするんだと思ったが、スパムページだとお気に入りに登録する人などいないはずだから良いのだろう)

 

 我々はブラウザーに有名なスパマーによって制御された第3者ドメインを訪れるようにリダイレクトするリダイレクトスパムを扱う。多くのリダイレクトスパムページはシンジケーションを使っており、そこでスパムページの管理者はPay-Per-Clickプログラムに参加し、広告のポータルページを表示する。

 この論文では、我々はシンジケート(アフィリエイト会社やアドセンスのようにPay-per-Clickを行っている仲介業者)が絡んでいるスパムに特に注目して、リダイレクションスパムの活動を総括的に解析する。そして我々は5層2じょうごモデルを提案し、広告をスパムページに表示する流れと広告をクリックした時のトラフィックの流れを表現する。2つの異なった広告の検索用語のベンチマークを構築しStrider Search Ranger system[21]を何万ものスパムリンクを解析するために使い、我々は5層のそれぞれに存在する主要なドメインとドメインの特徴を発見する。

以下2章でSearch Ranger systemを概観し、ダブルファンネルモデルを説明する。3章ではスパマーを対象とした(リダイレクションスパムで良く狙われるターゲットで)検索ベンチマークを作る(スパム対象となる検索語を上から順にピックアップする)。4章ではスパム密度とダブルファンネルを3章で作成したベンチマークを用いて解析する。(どのカテゴリがスパムが多いか、スパム先のサイトはどのサイトが多いかなど)5章では広告主をターゲットとしたベンチマークを作り(入札キーワード額が高い順で検索語をピックアップ)、解析結果を4章の結果と比べる。(広告主が低いクオリティのサイトにリンクをはられて損をしないためにこのような調査も必要?)6章ではリダイレクトのないスパムであるがダブルファンネルモデルと関係するスパムについて討論する。7章では関連研究を述べ、8章では結論を述べる。

  

2.REDIRECTION SPAM

2.1 Definitions:Search Spam and Redirection

リダイレクトスパムは多くのドアウェイページと一つのリダイレクションドメインを結びつけるために大規模なスパマーによって広く使われている。またサーチスパムの中でもRedirectionのスパムはスパムであると決めやすい部類に入るということが書かれている。例えばクローキングや掲示板への大量の書き込みなどを行っている。スパムと適正なSEOとの区別が難しいがドアウェイページはスパムと断定しやすい要素が多くあり扱い易い。

 リダイレクトにはアドセンスのようにセカンドドメインから広告を取ってくる形式のものとセカンドドメインそのものにURLごとページを移動するものの2種類がある。本研究ではその両方を扱う。

2.2 Strider Search Ranger System

Strider Search Ranger Systemは以下のような3つの特徴を持ったスパムを自動で発見するシステムである。

  1. Web Patrol with Search Monkeys[19]

clawler-browser cloakingテクニック(人とクローラーに異なるページを見せるテクニック)を使うスパマーに対してはクライアントサイドも含め全てのスクリプトを実行することによりこれを見破り、click through cloaking テクニック(直接のURL入力に対して異なったページを見せるテクニック、サーチエンジンから来たユーザのみにスパムページを見せる)に対しても、サーチエンジンをクリックしたと見せかけるテクニックによりこれを見破る。

  1. Follow the money through Redirection Tracking

全てのリダイレクトのURLStrider URL Tracer[20]により盗み出す。

  1. Similarity-based Grouping for Identifying Large-scale Spam

人気のあるクエリから高いスパム密度(high spam density)を得たURLを収集し、その収集したページの類似度(表記はないが恐らくhtmlの構造の類似度)を調べる。調べると、類似度の高いものが同じリダイレクトドメインに繋がっていることが多い。そしてこのように検出されたスパマーは大々的にスパムを行っている場合が多い。次にリダイレクトドメインがスパムコンテンツに対して責任があると確認したのち、そのリダイレクトドメインをシードとして“backward propagation of distrust”[13]を使い他の類似度の高いページを洗い出す。


Search Ranger のスパム発見プロセス

ステップ1:

検索語をサーチエンジンに投げ、Search Monkeyがそれぞれの検索語に対して上位N番目の結果を取り出す。そしてそれぞれのURLをスキャンし全てのURLリダイレクションを記録するXMLファイルを生成する。

ステップ2:

スキャン後、SearchRangerはリダイレクション解析を行う。そして有名なスパマーのリダイレクションドメインにリダイレクトしているURLをスパムと見なす。

ステップ3:

Search Rangerが分類されなかったURL(すなわち有名なスパマーのリダイレクションドメインにリダイレクトしていないURL)を、リダイレクトのトラフィックを受け取った第3者ドメインによってグループ化する。

ステップ4:

Search RangerがサンプルURL(どの辺がサンプルなのか不明??)をそれぞれのグループからスパム検証器に送る、そして検証器はスパムとなりえる要素がないかを調べる。(cloakingや掲示板への大量書き込みなどをチェック)

ステップ5

Search Rangerが分類されなかったURLのグループを出力(この時点でスパムとなり得る要素の値やグループの大きさが一緒に送られる)、人間によってスパムかどうか審査される。スパムだとしたら有名なスパムドメインの集合にそのリダイレクションドメインを加える。


2.3 Spam Double-Funnel

典型的な広告シンジケートビジネスは3つの層からできている。ウェブサイトに魅力的なコンテンツを乗せて集客するサイトオーナー、ウェブサイトに乗せる広告を配信する広告主、広告主とサイトオーナーを繋ぐインフラを提供するシンジケーターである。グーグルアドセンスはシンジケーターの例である。疑わしい広告ビジネスにおいて、スパマーはサイトオーナーの役割と見なす、彼らはクオリティの低いコンテンツを用意し、好ましくないSEOテクニックを使い集客する。スパムが発見されるのを防ぐために、多くのスパマーはオペレーションを2つの層に分断する。最初の層がドアウェイページであり、ドアウェイページのURLはスパマーが検索エンジンの上位に組み込むように努力する。ユーザがドアウェイページへ入ると、ブラウザがスパムコンテンツをリダイレクションドメイン(第2層目)から取ってくるように指示する。スパマーとの結びつきを求めない賢明な広告主のため、多くのシンジケーターは彼らのオペレーションを2つかそれ以上の層に分けている。層は複数のリダイレクトによって結びつけられていて、広告主とスパマーの関係を分かりにくくする。(シンジケーターが広告主を騙す)これらのシンジケーターは大抵小さい会社なので、彼らはしばしば十分なトラフィックのプロバイダーと広告主をひきつけるためにトラフィックアグリゲーションを通じて協力する。

 私たちはこのスパムビジネスを図1のようにモデル化した。広告主はシンジケーターにお金を払い、シンジケーターはアグリゲーターにお金を払いトラフィックを集める。アグリゲーターはシンジケーターと広告主をスパムページから隔離するために仲介役となってトラフィックをスパマーから購入する。スパマーは数百から数千のリダイレクトドメインをセットし何百万ものドアウェイページを設置する。ドアウェイページはリダイレクトドメインから広告を取ってくる。またスパマーは掲示板にドアウェイページのURLを書き込む。


  1. SPAMMER-TARGETED KEYWORDS

リダイレクトスパムで共通の特徴を掴むために、リダイレクトスパムでよく狙われるキーワードとカテゴリを調べた。その結果ほとんどが薬と着メロとギャンブルに関するものであった。以下カテゴリ別にキーワードを示す。

Drugs:phentermine,Viagra,cialis,tramadol,xanax,etc.

Adult:porn,adult dating,sex,etc.

Gambling:casino,poker,roulette,texas holdem,etc.

Ringtone:verizon ringtones,free polyphonic ringtones.etc.

Money:car insurance,debt consolidation,mortgage,etc

・・・残り5カテゴリ

各カテゴリから上位100キーワードをとり1000個のスパマーに狙われる検索語をピックアップした。


4.Redirection-spam analysis

1000個のキーワードでクエリを主要3検索エンジンに投げ、それぞれトップ50のサイトを収集し、リダイレクトスパムを摘出したところ11.6%がスパムであった。我々は最初にカテゴリ別のスパム割合を調べ、その次にダブルファンネルモデルの解析を行う。

4.1 Spam Density Analysis

カテゴリ別のスパムの割合は図2のようになった。薬と、着メロでスパムが多かった。

4.2 Double-Funnel Analysis

我々はダブルファンネルモデルの5層を解析し、それぞれの層にどのようなドメインが関係しているのかを調べ、サーチスパムの傾向を捉えた。

4.2.1 Layer #1 Doorway Domain

図3はドアウェイページへのリンクがどれだけ発見されたかのを表している。また図4は図3のドメインの中でどれくらいの割合でスパムリンクが含まれていたかの割合を示す。


Spam Pages on .gov and .edu Domains

.gov.eduのような商業用でないトップレベルドメインは顕著にスパマーに狙われていた。

図5は.gov/.eduドメインの中で最もスパムの多いURLを持ったドメインを示している。これらは3つの種類に分けられる。それらはUniversal redirectors,Unproteted upload area,Home page-like directoriesである。(ハッキングして何かやってるんだろうが技術的な事はわからない)


4.2.2 Layer #2 Redirection Domains

図6はリダイレクトドメインをドアウェイページにリダイレクトしている数によって上から15個並べた図である。そのうち12個はシンジケートベースであり、テキストベースの広告のポータルページを配信している。2個はポルノ広告を、1個は商業のウェブサイトを配信している。またこれらのドメインの所有者は同じである場合が多く、一握りの主要なスパマーグループが複数のリダイレクトドメインを保持していることがわかった。


4.2.3 The Bottom Three Layers

次に我々はads portalサイト(広告だけをやたらと配信したサイト)のスパムページに焦点を置き12635個のスパムページから5172個のads portalサイトが見つかった。3層と5層に対して、我々はターゲットとなる広告主のURLads portalサイトから抽出して解析した。4層では、我々はそれぞれのads portalページから一つをランダムに選んで訪問してみて、リダイレクトのトラフィックを記録した。これはシンジケーターのドメイン名が広告ページのコンテンツに現れていないので必要である。

Layer #3 Aggregators

図7はスパムページで広告がクリックされた時、そのトラフィックを受け取るドメインを受け取る広告の数に応じて上から順に並べたものである。

するとトラフィックを受け取るドメインは64.111.のドメインと64.230のドメインの2つでほとんどを占めていることがわかった。


Layer #5: Advertisers(Page analysis)

広告主のドメインネームはしばしばアンカーテキストかマウスオーバーで見ることができる。そのようなドメイン名をads-portalページから取り出し、登場回数順に15位まで並べたところ図8のようになった。ebay.com,orbitz.com等の有名なサイトも見られた。


Layer #4: シンジケーター(click-through analysis)

クリックの解析において、一握りのシンジケーターがリダイレクトの連鎖に含まれている。

Findwhat.com/looksmart.com/7search.comで全体の59%を占めた。彼らはスパムトラフィックアグリゲータと広告主の主要な仲介役のようである。


5.ADVERTISER-TARGETED KEYWORDS

4章では最もスパムの多いキーワード群をベースに5層の解析を行った。しかし、検索する側のユーザや広告主にとって最も関心が高い事は、検索結果にスパムがどれだけ悪影響を及ぼしているかであろう。スパムの多いキーワードであってもあまりユーザや広告主が重視しないようなキーワードであれば問題がない、そこで最も広告の入札額が高い1000個のキーワードについて同様に実験を行った。


5.1 Benchmark of 1000 Most-Spammed Advertiser-Targeted Keyword

入札額上位5000番までのキーワードに対して主要3検索エンジンにクエリをなげスパムの多かった1000キーワードを選択した。するとドラッグやアダルト、ギャンブルの広告が少なくなり他の様々なカテゴリが上がってきた。


5.2 Spam Density Analysis

全体で95753URLに対して6153個のスパムを発見し、スパム率は5.8%であった。これは前回の実験の半分である。これはスパム率が高いカテゴリが少なかった(ドラッグやアダルトのジャンルのキーワードが少ないのでスパム率が下がるのは当たり前)のと、前回の実験の2週間後に実験を行っており、主要3検索エンジンがスパム除去に乗り出したことが原因として考えられる。(これは微妙だとは思うが)


5.3 Double-Funnel Analysis

我々は5層を解析して、最初のベンチマークと比べた。全ての図で最初のベンチマークで出てきたものと同じものはグレーで表現している。

5.3.1 Layer #1:Doorway Domains

図9はドアウェイページのドメインの上位15個である。スパムが多いキーワードで行った前回の実験(図3参照)との違いは、.infoドメインが増えているという事である。テーブル1から.infoがスパムである確率が.comに比べて異常に高いことが分かる

5.3.2 Layer#2: Redirection Domains

図10は上位15位までのリダイレクションドメインを表している。全てシンジケーションベースとなっていた。ドラッグやアダルトのスパマーがお金に関するサイト(car insurance,mortgage等)のスパマーに入れ替わったのが大きな違いであった。


5.3.3 The Bottom Three Layers

6153のスパムURLのうち2995個の広告のポータルページを抽出した。

Layer #3 Aggregators(Page analysis)

図11は相変わらず66.23064.111のIPがスパム広告のクリックを受信していた。合計で6153のスパムURLのうち6041個がこのIPを経由していた。

Layer#5

図12は上位15位までのスパム先からたどり着く広告主であり、これは図8のものとかなり違っていた。よく知られたショッピングサイトが多くランキングされるようになった。ここから広告主がターゲットとするキーワードは、スパマーがターゲットとするキーワードよりもショッピングのWebサイトにマッチしているという事が言える。

Layer #4 Syndicators

上位3位のシンジケーターはlooksmart.comfindwhat.com,7search.comであり全体の68%を占めていた。これらのシンジケーターは検索スパム産業に広く深く関わっていることが分かった。


6.OTHER COMMON SPAM

6.1 BLOG FARMS

同じサイトのフォーマット(具体的には良く分からない)で同じブログファームに属しているが、ターゲットとなるキーワードが違うページを発見。

6.2 PARASITE ADS-PORTAL FARMS

既存のサイトに寄生してスパムを逃れる手法。http://(既存のサイトのURL)/(寄生URL)

としてページのアドレスを決定することでスパムを逃れる。


7.RELATED WORK

クローキングに関連する研究

クローキングとリダイレクションを,スパムを隠す戦略であると見なした(Garcia-Molina[8]

クローキングとリダイレクションのWeb検索結果での割合を調べ実態を調査した。また分類機を作成する事でクローキングを発見する方法を提案した。

(Wu and Davison[23],[25])

我々のSearch Monkeysは機械が検索ユーザに成りすますことで、新しいクリッククローキング手法(検索結果以外のクリックに対して他のページを見せるクローキング手法)にも対応できる。


お金とスパムの関係の研究

お金はスパマーにとっての最も大きいインセンティブである。

Jansenはクリック詐欺の問題にも関わらず、スポンサードサーチがスパムの総量を減らすことができたことを観察した。[9](意味不明)

Sarukkaiは検索語の値段(キーワード代の目安のことだと思う)の定量化の手法を提案した。[17]

ChellapillaChickeringは検索語の上位5000と、キーワード代の高い順の5000を比べ、キーワード代の高いもののサイトの方がスパムが多いという経済的な側面を発見した[5]


リンク関連の研究

スパムをリンクの観点から減らす研究として、不信頼性に基づいたものがある。

スパムサイトのシードからリンクをたどりスパムの度合いを求めていくAnti-Trust Rank(Krishnan and Raj)[12]、似たようなものとして[13],リンクファームについての研究[24]等がある。その他相互リンクに着目した研究[4],[6]、既存のリンク解析技術をスパムの観点から比べた研究[3]等がある。我々の研究ではリンク解析はスパムURLの掲示板への書き込みを解析する事しか行っておらず、リダイレクションの解析に依存してスパム発見を行っている。


コンテンツ関連の研究

ページ内容をアンカーテキストやメタタグから解析して分類器を作りスパムを判定するもの[11],またURL構造や更新期間などからスパムを解析する手法[7],タイトルで使われている言葉や、目に見える割合(恐らくJavascriptなどのプログラムの部分を除いている)に着目したもの[16]HTML構造の類似性からページ製作者を特定するもの[18],ブログとそれに対するコメントの言語モデルを比較するもの[14](恐らくコメントがスパムなのかそうでないのかを比較する)などがある。


1


0 件のコメント: