うわっ、ちょっと書かないでいたら、一ヶ月たってしまった(汗)。
SendmailのMILTERを使ったPerlスクリプトはとりあえずは動いているようなので、 もう少し汎用的な形にまとめよう。
あと、Netskyが大流行りで、亜種がアルファベットを一周するくらい 出ちゃったので、パターンの抽出が大変だった。
...なので、ここいらへんも使えそうなパターンの統計をとるスクリプト を作ってたり。 BASE64の中からよさげな文字列を拾って来て、その文字列毎に 入力ファイルでの出現状況(=違う文字列でもファイルへの現れ方が同じなら、 同一亜種の特定に使用できる、とか)を分類して一覧を出力などしたり。
意識してやっていなくても、こういうことをやってると、結局SPAMでの ベイジアンフィルタみたいになってきますね(ウィルスの場合はパターンが はっきり決まってるので、SPAMの判定よりはるかに楽ですが)。