迷惑メールから学ぶ、Yahoo!のスパム自動判定アルゴリズム

公開日:2008/11/19
執筆者:ゲスト投稿
投稿者名
石川 雅樹
自己紹介
株式会社スリーウィン代表取締役社長。ゲームプログラマーとして4年間、システムエンジニアとして3年間を過ごし、2008年4月に独立。2008年6月末に会社設立。ウェブコンサルティング、メディアサイト運営など。
サイト
株式会社スリーウィン(http://www.threewin-net.co.jp/)
公式ブログ「ウェブ力学」(http://m-ishikawa.com/blog/)

”スパム”と言った場合、WebマスターであればSEOスパムを連想すると思いますが、世間にはもうひとつのスパムがあります。それはスパムメール、つまり迷惑メールです。

迷惑メールにうんざりしている人は多いと思いますが、ここ数年、フィルタリング機能の性能向上によって、以前に比べれば減少傾向にあります。

今日は、この迷惑メールのフィルタリング機能とSEOスパムのフィルタリング機能の関係について考えてみたいと思います。

Yahoo!のスパム自動判定アルゴリズム

ここ最近、Yahoo!が本格的にスパム対策に乗り出し始めたようです。Yahoo!検索スパム担当ヒュケナ氏なる人物の登場が、そのことを物語っています。

さて、2008/11/11にYahoo!スタッフブログにて、ヒュケナ氏からの発言がありました。以下に一部を引用します。

サイトエクスプローラーの被リンクスパム報告機能から報告いただいたURLは、Yahoo! JAPANおよびYahoo!が独自に収集しているスパムURLデータとともに、YSTの機械学習モジュールに取り込まれ、最終的なスパム判定がなされるとともに、検索結果順序の決定の要素のひとつとして利用されています。目視チェックは、このような自動判定のアルゴリズムの精度の確認と向上および、実際報告されたサイトやウェブページのスパムとしての傾向をあらためて確認するためです。

最も気になるのは、”自動判定のアルゴリズム”という言葉です。スパム判定を目視ではなくアルゴリズムによる自動判定で行っているとしたら、ウェブマスターは気が気ではありません。

では、その自動判定のアルゴリズムとはどのようなものなのでしょうか?

ヒュケナ氏の発言から、”YSTは機械学習モジュールを持っていること”、そして、”スパムページのサンプルを集めていること”がわかります。「機械学習」とは、過去のデータをもとにして、未知のデータを予測するという人工知能や統計学に近い手法です。

実はこの機械学習プログラム、迷惑メールのフィルタリング機能に用いられることの多いアルゴリズムと同様のものなのです。

迷惑メールフィルターのアルゴリズム

迷惑メールをどうやってフィルタリングしているかを考えてみましょう。

まず最初に、人間が目視によってスパムメールと有効メールを分類します。そして、それぞれのメールをコンピュータに分析させます。分析の対象は、件名や本文に含まれる単語、ファイル形式、添付ファイルの有無など様々です。その分析結果から、あるメールがスパムである確率を算出するアルゴリズムを作りだすのです。

例えば、”完全無料”という単語が、目視で分類した10通のうち、スパムに分類したメールには9通、非スパムに分類したメールには1通だけ出てくるとすれば、”完全無料”という単語が含まれるメールのスパム確率は90%、といった具合に算出されます。

スパム確率が算出できたら、このスパム確率90%のメールがスパムであるかどうかを判定する必要があります。この基準が低ければ低いほど安全で、高いほど危険、ということになります。

しかし、みなさんもご存知のようにこのスパムフィルターは完璧ではありません。有効メールをスパムを判定したり、スパムメールをフィルタリング出来なかったりします。特に、間違えてスパムと判定されてしまうケースがやっかいです。

Yahoo!のスパムフィルターが、迷惑のフィルターと同様、もしくはそれに近いアルゴリズムで作られているとしたら、一見スパムでないウェブページもスパムと判定されてしまう可能性があるということです。

スパム判定されないサイト作り

現在は、自動判定アルゴリズムの精度はそれほど高くなく、スパムの判定基準もかなり高めに設定されていると予想されます。

しかし、スパムページのサンプル数を増やし、アルゴリズムの精度が高まるにつれて、スパム判定基準を低く設定してくる可能性が考えられます。

ある日、突然スパムと判定されて慌てないように、検索エンジンの提供するガイドラインを熟読し、これまで以上にスパム判定されないサイト作りが求められているのではないかと思います。

この記事が良かったと思ったらSphinn Japanへ投稿/投票お願いします。

この記事へのコメント

2 Comments »
    Comment by sugane
    2008/11/19@3:58 PM

     そう、確かにスパム判定って、自動判定の場合は確率の問題なんですよね。ぼくも、いつもメールしてる相手なのに、なぜかその日だけ迷惑フォルダに入ってた、なんて経験はありますから。メールならまだいいですけど、ウェブサイトこれやられたらたまらないです。気をつけて、気をつけすぎるってことはないですよね。

    Comment by 石川@スリーウィン
    2008/11/19@4:19 PM

    >気をつけて、気をつけすぎるってことはないですよね。
    さらに、スパム判定されたときのリカバリーのために最低限自分がどんなSEOをやっているかをきちんと把握しておく必要がありますね。

Leave a comment