迷惑メールから学ぶ、Yahoo!のスパム自動判定アルゴリズム

: 公開日：2008/11/19; 執筆者：ゲスト投稿

投稿者名: 石川　雅樹
自己紹介: 株式会社スリーウィン代表取締役社長。ゲームプログラマーとして４年間、システムエンジニアとして３年間を過ごし、2008年4月に独立。2008年6月末に会社設立。ウェブコンサルティング、メディアサイト運営など。
サイト: 株式会社スリーウィン(http://www.threewin-net.co.jp/)
公式ブログ「ウェブ力学」(http://m-ishikawa.com/blog/)

”スパム”と言った場合、WebマスターであればSEOスパムを連想すると思いますが、世間にはもうひとつのスパムがあります。それはスパムメール、つまり迷惑メールです。

迷惑メールにうんざりしている人は多いと思いますが、ここ数年、フィルタリング機能の性能向上によって、以前に比べれば減少傾向にあります。

今日は、この迷惑メールのフィルタリング機能とSEOスパムのフィルタリング機能の関係について考えてみたいと思います。

Yahoo!のスパム自動判定アルゴリズム

ここ最近、Yahoo!が本格的にスパム対策に乗り出し始めたようです。Yahoo!検索スパム担当ヒュケナ氏なる人物の登場が、そのことを物語っています。

さて、2008/11/11にYahoo!スタッフブログにて、ヒュケナ氏からの発言がありました。以下に一部を引用します。

サイトエクスプローラーの被リンクスパム報告機能から報告いただいたURLは、Yahoo! JAPANおよびYahoo!が独自に収集しているスパムURLデータとともに、YSTの機械学習モジュールに取り込まれ、最終的なスパム判定がなされるとともに、検索結果順序の決定の要素のひとつとして利用されています。目視チェックは、このような自動判定のアルゴリズムの精度の確認と向上および、実際報告されたサイトやウェブページのスパムとしての傾向をあらためて確認するためです。

最も気になるのは、”自動判定のアルゴリズム”という言葉です。スパム判定を目視ではなくアルゴリズムによる自動判定で行っているとしたら、ウェブマスターは気が気ではありません。

では、その自動判定のアルゴリズムとはどのようなものなのでしょうか？

ヒュケナ氏の発言から、”YSTは機械学習モジュールを持っていること”、そして、”スパムページのサンプルを集めていること”がわかります。「機械学習」とは、過去のデータをもとにして、未知のデータを予測するという人工知能や統計学に近い手法です。

実はこの機械学習プログラム、迷惑メールのフィルタリング機能に用いられることの多いアルゴリズムと同様のものなのです。