人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

100% SPAMを判別する手法を考えてみたのですが、どうでしょうか? 一日、200通のSPAMを受け取っているのでいい加減嫌になってきました。POP File等も試しましたが、大事な友人のメールもSPAM扱いされてしまい、しばらく返事が出せませんでした。
以下の手順でSPAMを判別しようと考えています。

まず、独自ドメインかフリーのドメインでダミーのメールアカウントを大量に生成します。そのダミーメールアカウントをネット上に放流(ホームページに記載、news groupに投稿等)します。あとは、SPAMが到着したらそれらはSPAMと判断し、SPAMメールそのもの又は本文のハッシュ値等を公開します。
あとは各クライアントが、公開されたSPAM情報を元にフィルタリングを行います。

SPAMを受信するメールサーバとSPAM情報を公開するサーバが必要になりますが、自宅に常時接続のサーバがあるので自分でやろうと考えています。

どうでしょう? うまくいきませんか? うまくいく、いかない、理由も添えてコメント下さい。うまくいきそうなら、作ってみたいです。と、書いている間にもSPAMが届く…(T_T)

●質問者: nekomilk
●カテゴリ:コンピュータ 科学・統計資料
✍キーワード:(T_T) GROUP NEWS POP spam
○ 状態 :終了
└ 回答数 : 5/5件

▽最新の回答へ

1 ● taka-hr
●16ポイント

http://www.misojiro.t.u-tokyo.ac.jp/~tutimura/SameMail/

SameMail - Anti-Spam tool

ランダム文字列やWebバグ用のIDが混じっていることがあるので、

メール本文のハッシュ値だけでは判別できません。

URLはgoogle で調べて出てきたURLですが、

似ているメールをどれだけ効率よく、かつ自動的に判別できるかが

ポイントになると思います。

◎質問者からの返答

なるほど。毎日受け取っているSPAMを見てると、ほとんどが定型文ですが、中にはランダムな文字列が入っているので、100%とはいえなくなってしまいますね。

類似度を求めると、誤判断が出てきてしまうので、ここは同一本文のみに限定してやってみようと思います。

それだけでも、かなりのSPAMがフィルタできると考えています。

原理的には他の方も考えているようなので、間違っていないかな。


2 ● sandaler
●16ポイント

http://www.hatena.ne.jp/1101006225#

人力検索はてな - 100% SPAMを判別する手法を考えてみたのですが、どうでしょうか? 一日、200通のSPAMを受け取っているのでいい加減嫌になってきました。POP File等も試しましたが、大事な友..

簡単に言いかえると、SPAM専用のメールボックスを作って、そこに届いたメールは全てSPAMと判断する。

そのSPAMと同じ発信元や同じ内容のメールは全てSPAMと判断するということでしょうか。

そうだとするならば防げるものもあるでしょうが、防げないものもたくさんあるでしょう。

理由はいくつかありますが、一番単純な理由は、SPAM専用メールボックスよりも先にあなたのメールボックスにSPAMが届くかもしれないからです。

◎質問者からの返答

ずばり、そうでしょう。やはり100%は無理ですね。

ただ、全体的にみて防げないものよりも、防げるものの方が多いと考えています。

SPAMと判断するには、誰かが最初のSPAMを受け取らないといけないので、誰かは犠牲になりますね。

1日200通よりは格段に減ると思います。


3 ● virus
●16ポイント

http://popfile.sourceforge.jp/index.php

POPFile: JP POPFileDocumentationProject

うまく行かないとは思いませんが、それでどれくらいのものが捕捉出来るか、ですね。

最近の「スパムキット」(見たことはないので推定)では、個別にメールアドレスや宛先名を本文に埋め込んでくれたり、%RANDAM_STR みたいな形で変数を埋め込むと、そこにランダムな文字とか文章を挿入してくれるみたいですから、本文のハッシュ値だけでは特定アドレス宛に来たスパムしか識別出来ない可能性もあります。

また送信元や宛先にしても、ウィルス同様に詐称するものが増えてますのでこれらの情報もあてに出来ません。

POP File等にしても、理論的には少し違いますが、ある意味では似たような考え方をより一般化した手法でフィルタ定数を自動生成・更新してるわけですね。それでもあの程度・・・と言うことは、貴方の手法一つだけでPOP File等を越える事は難しいと思います。

◎質問者からの返答

うーん。難しいそうですね…。

ヘッダは確かに詐称されますので、考慮には入れていません。

本文のみを対象にしようと考えています。

今、SPAMを見てみましたが確かに個別のIDが入っているものが多いですね。

リンク先URLに入っているものが多いので、そういうものは除外するとか…。

うーん。なんだかなぁ。難しいですね。

あ、けどまたひとつアイデアが…。

複数アカウントに同時刻付近に受信したメールで何かできないかなぁ。


4 ● skura
●16ポイント

http://www.imatrix.co.jp/

【アイマトリックス株式会社】迷惑メール対策なら"マトリックススキャン APEX+"

ここで扱っている製品はハッシュ値を収集しSPAMとして判断しています。

?この製品がメールを数分中継を遅延させます。

?中継を遅延させている間に全世界から集まったハッシュからSPAMか判断します。

?SPAMと判断されればヘッダーなどに細工します。

◎質問者からの返答

おぉ。あるんですねぇ。

同一性チェックはどうしてるんだろう…?


5 ● skura
●16ポイント

http://www.imatrix.co.jp/products/index.html

追伸

ハッシュを使うメリットとして、SPAMはメールが届く経路などで完全に一致した物は存在しませんよね(ヘッダーも含めると)

ハッシュを使うと類似性が分かるそうで数%の違いは同じと見なし処理をするそうです。

ということで、ハッシュを使ったSPAM判断は実用化されています。

http://www.cloudmark.com/

Cloudmark - Anti Spam and Spam Blocker Solutions

Cloudmark SafetyBarは個人向けにかなりの精度でSPAM判断する製品です。

SPAM DBを用意しているようで情報を収集しながらSPAM判断してますね。

ハッシュかどうか分かりませんが、DB化する物としてお勧めです。

◎質問者からの返答

少しでも違うとハッシュ値は全く違うものになってしまうので類似度はわからないと思っていました。

cloudmark Safetybarをインストールしてみましたが、ユーザー同士でSPAMを判断して共通のDBをメンテしていくイメージですね。

今は、複数のダミーメールアカウントが同時刻付近に受信した情報から何かできないか考えています。これはimatrixがメールを遅延させてやっているやつですね。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ