Spamszűrés 2.0
Megvilágosodtam, leginkább az e-mailben érkező spamekből van elegem, ezért (és mivel újra kellett telepítenem a gépem) bevillant egy megvalósítási lehetőség.
Az volt az alapgondolat, hogy fogjuk meg a beérkező leveleket és feladó, subject, tartalom (esetleg fejlécek) alapján ellenőrizzük le egy központi helyen a szövegek MD5 hash-jét (értelemszerűen a lévél tartalmát én se örülnék ha idegen gépre továbbítanák - találtam egy spamoo nevezetű oldalt, de ez nálam ott halott ötlet, hogy meg kell adnom a POP3 adatokat). Ezekhez az MD5 kódokhoz lehetne a felhasználók “szavazatait” kötni: spam vagy nem spam.
Az emberkék pedig beállíthatnák, hogy X% spam szavazat felett tegye az övékét is a spam folderbe, de lehetőséget kell biztosítani, hogy nagyon egyszerűen tudják a spam - no spam szavazatokat leadni.
Ezt egyébként átültetném a web form spam kommentekre (erre egyébként van valami megoldás de úgy tudom oda is a teljes “tartalom” kerül elküldésre és ott ellenőrzik bizonyos minták alapján, hogy spam-e) és a trackbackekre is.
Ez az ötlet azt feltételezi, hogy sok helyre ugyanazt a tartalmat küldik, nincs változó tartalom emailcímenként a levelekben. Erre szerintem lehetne építeni.
Sőt igazából az is megoldható, hogy a régebbi leveleket, adatbázisunkat kitakarítsuk ezzel a módszerrel.
Lát valaki ebben fantáziát? Hátrányai?
Bártházi András
# 2006. december 29., péntek - 11:26 · válasz erre
Nem, nem lehet rá építeni. :) Mások már kitalálták, a spammerek pedig azt találták ki, hogy akkor mindenhova változó tartalmat küldenek. Ez mind a hozzászólás spameknél, mind pedig az e-mailes spameknél jól látszik az utóbbi időben (napi több ezret kapok, van mit nézegetni). A stratégia jelenleg az, hogy egy konkrét tartalmú spamből egy adott mennyiséget küldenek csak ki, és utána változtatnak rajta valamit. Erre teljesen hatástalan az md5, vagy bármi más.
Benjamin
# 2006. december 29., péntek - 11:34 · válasz erre
Sztem dede :) mivel a spamjeim kozott rendre talalok egyezoseget, pl: USA Certified pharmacy 13 db spamem van ha az elsot benyomnam spamnek a tobbit nem is latnam.
Mi az adott mennyiseg? 1-5-10-1000-10000? ez a nem mindegy, a batching kuldes nekik (marmint a spammerekenek) is kifizetodobb mint egyesevel mindenkinek unique tartalmat kuldeni.
Csabii
# 2006. december 29., péntek - 11:39 · válasz erre
Ezért van csak egy kép, aztán meg 0,5-1K véletlen szöveg a mostanában divatos spamekben :(
Nekem favágó módszerem van: spamszűrőm megtanult kicsit angolul, így szinte minden angol nyelvű levelem spamfolderbe megy. Egyelőre pont megfelel :)))
vlajos
# 2006. december 30., szombat - 11:06 · válasz erre
http://razor.sourceforge.net/
http://wiki.apache.org/spamassassin/HashSharingSystem
Szoval az 5let nem rossz.
Hasznaljak is mar par eve. :-)
Persze a SPAM-erek is tudnak errol.
1-2 random karaktert meg nem olyan nagy kunszt beszurni
valahova az emailben.
Ilyesmire is lenne megoldas.
,,Plagiarism Detection” algoritmusok MD5 helyett pl.
http://theory.stanford.edu/~aiken/publications/papers/sigmod03.pdf
De ennek a hatekonysagarol nem sokat tudok.
connor
# 2006. december 30., szombat - 14:42 · válasz erre
Na igen a nyelvi szűrés nem rossz dolog. Szerencsére van egy szerver amin a felhasználók igen fertőzöttek, és napi szinten beesik 3000 spam, ezen tudok kísérletezni, és a spamassassinban a nyelvi szűrés igen sokat megfog. Persze ez sem teljesen jó megoldás, hiszen van aki lengyelül levelezik, ott biz’ figyelni kell.
További hasznos megoldások: küldő gép ip címénél a dinamikus tartományok szűrése, unknow sender szűrése, grey list, black/white -list, webkarantén és bayes. Képek esetén talán még lehene md5 hash-t használni.