以下の手順でSPAMを判別しようと考えています。
まず、独自ドメインかフリーのドメインでダミーのメールアカウントを大量に生成します。そのダミーメールアカウントをネット上に放流(ホームページに記載、news groupに投稿等)します。あとは、SPAMが到着したらそれらはSPAMと判断し、SPAMメールそのもの又は本文のハッシュ値等を公開します。
あとは各クライアントが、公開されたSPAM情報を元にフィルタリングを行います。
SPAMを受信するメールサーバとSPAM情報を公開するサーバが必要になりますが、自宅に常時接続のサーバがあるので自分でやろうと考えています。
どうでしょう? うまくいきませんか? うまくいく、いかない、理由も添えてコメント下さい。うまくいきそうなら、作ってみたいです。と、書いている間にもSPAMが届く…(T_T)
http://www.misojiro.t.u-tokyo.ac.jp/~tutimura/SameMail/
SameMail - Anti-Spam tool
ランダム文字列やWebバグ用のIDが混じっていることがあるので、
メール本文のハッシュ値だけでは判別できません。
URLはgoogle で調べて出てきたURLですが、
似ているメールをどれだけ効率よく、かつ自動的に判別できるかが
ポイントになると思います。
http://www.hatena.ne.jp/1101006225#
人力検索はてな - 100% SPAMを判別する手法を考えてみたのですが、どうでしょうか? 一日、200通のSPAMを受け取っているのでいい加減嫌になってきました。POP File等も試しましたが、大事な友..
簡単に言いかえると、SPAM専用のメールボックスを作って、そこに届いたメールは全てSPAMと判断する。
そのSPAMと同じ発信元や同じ内容のメールは全てSPAMと判断するということでしょうか。
そうだとするならば防げるものもあるでしょうが、防げないものもたくさんあるでしょう。
理由はいくつかありますが、一番単純な理由は、SPAM専用メールボックスよりも先にあなたのメールボックスにSPAMが届くかもしれないからです。
ずばり、そうでしょう。やはり100%は無理ですね。
ただ、全体的にみて防げないものよりも、防げるものの方が多いと考えています。
SPAMと判断するには、誰かが最初のSPAMを受け取らないといけないので、誰かは犠牲になりますね。
1日200通よりは格段に減ると思います。
http://popfile.sourceforge.jp/index.php
POPFile: JP POPFileDocumentationProject
うまく行かないとは思いませんが、それでどれくらいのものが捕捉出来るか、ですね。
最近の「スパムキット」(見たことはないので推定)では、個別にメールアドレスや宛先名を本文に埋め込んでくれたり、%RANDAM_STR みたいな形で変数を埋め込むと、そこにランダムな文字とか文章を挿入してくれるみたいですから、本文のハッシュ値だけでは特定アドレス宛に来たスパムしか識別出来ない可能性もあります。
また送信元や宛先にしても、ウィルス同様に詐称するものが増えてますのでこれらの情報もあてに出来ません。
POP File等にしても、理論的には少し違いますが、ある意味では似たような考え方をより一般化した手法でフィルタ定数を自動生成・更新してるわけですね。それでもあの程度・・・と言うことは、貴方の手法一つだけでPOP File等を越える事は難しいと思います。
うーん。難しいそうですね…。
ヘッダは確かに詐称されますので、考慮には入れていません。
本文のみを対象にしようと考えています。
今、SPAMを見てみましたが確かに個別のIDが入っているものが多いですね。
リンク先URLに入っているものが多いので、そういうものは除外するとか…。
うーん。なんだかなぁ。難しいですね。
あ、けどまたひとつアイデアが…。
複数アカウントに同時刻付近に受信したメールで何かできないかなぁ。
【アイマトリックス株式会社】迷惑メール対策なら"マトリックススキャン APEX+"
ここで扱っている製品はハッシュ値を収集しSPAMとして判断しています。
①この製品がメールを数分中継を遅延させます。
②中継を遅延させている間に全世界から集まったハッシュからSPAMか判断します。
③SPAMと判断されればヘッダーなどに細工します。
おぉ。あるんですねぇ。
同一性チェックはどうしてるんだろう…?
追伸
ハッシュを使うメリットとして、SPAMはメールが届く経路などで完全に一致した物は存在しませんよね(ヘッダーも含めると)
ハッシュを使うと類似性が分かるそうで数%の違いは同じと見なし処理をするそうです。
ということで、ハッシュを使ったSPAM判断は実用化されています。
Cloudmark - Anti Spam and Spam Blocker Solutions
Cloudmark SafetyBarは個人向けにかなりの精度でSPAM判断する製品です。
SPAM DBを用意しているようで情報を収集しながらSPAM判断してますね。
ハッシュかどうか分かりませんが、DB化する物としてお勧めです。
少しでも違うとハッシュ値は全く違うものになってしまうので類似度はわからないと思っていました。
cloudmark Safetybarをインストールしてみましたが、ユーザー同士でSPAMを判断して共通のDBをメンテしていくイメージですね。
今は、複数のダミーメールアカウントが同時刻付近に受信した情報から何かできないか考えています。これはimatrixがメールを遅延させてやっているやつですね。
なるほど。毎日受け取っているSPAMを見てると、ほとんどが定型文ですが、中にはランダムな文字列が入っているので、100%とはいえなくなってしまいますね。
類似度を求めると、誤判断が出てきてしまうので、ここは同一本文のみに限定してやってみようと思います。
それだけでも、かなりのSPAMがフィルタできると考えています。
原理的には他の方も考えているようなので、間違っていないかな。