Spamszűrés 2.0

Megvilágosodtam, leginkább az e-mailben érkező spamekből van elegem, ezért (és mivel újra kellett telepítenem a gépem) bevillant egy megvalósítási lehetőség.

Az volt az alapgondolat, hogy fogjuk meg a beérkező leveleket és feladó, subject, tartalom (esetleg fejlécek) alapján ellenőrizzük le egy központi helyen a szövegek MD5 hash-jét (értelemszerűen a lévél tartalmát én se örülnék ha idegen gépre továbbítanák - találtam egy spamoo nevezetű oldalt, de ez nálam ott halott ötlet, hogy meg kell adnom a POP3 adatokat). Ezekhez az MD5 kódokhoz lehetne a felhasználók “szavazatait” kötni: spam vagy nem spam.

Az emberkék pedig beállíthatnák, hogy X% spam szavazat felett tegye az övékét is a spam folderbe, de lehetőséget kell biztosítani, hogy nagyon egyszerűen tudják a spam - no spam szavazatokat leadni.

Ezt egyébként átültetném a web form spam kommentekre (erre egyébként van valami megoldás de úgy tudom oda is a teljes “tartalom” kerül elküldésre és ott ellenőrzik bizonyos minták alapján, hogy spam-e) és a trackbackekre is.

Ez az ötlet azt feltételezi, hogy sok helyre ugyanazt a tartalmat küldik, nincs változó tartalom emailcímenként a levelekben. Erre szerintem lehetne építeni.

Sőt igazából az is megoldható, hogy a régebbi leveleket, adatbázisunkat kitakarítsuk ezzel a módszerrel.

Lát valaki ebben fantáziát? Hátrányai?

5 megjegyzés »

  1. Bártházi András

    # 2006. december 29., péntek - 11:26 · válasz erre

    Nem, nem lehet rá építeni. :) Mások már kitalálták, a spammerek pedig azt találták ki, hogy akkor mindenhova változó tartalmat küldenek. Ez mind a hozzászólás spameknél, mind pedig az e-mailes spameknél jól látszik az utóbbi időben (napi több ezret kapok, van mit nézegetni). A stratégia jelenleg az, hogy egy konkrét tartalmú spamből egy adott mennyiséget küldenek csak ki, és utána változtatnak rajta valamit. Erre teljesen hatástalan az md5, vagy bármi más.

  2. Benjamin

    # 2006. december 29., péntek - 11:34 · válasz erre

    Sztem dede :) mivel a spamjeim kozott rendre talalok egyezoseget, pl: USA Certified pharmacy 13 db spamem van ha az elsot benyomnam spamnek a tobbit nem is latnam.

    Mi az adott mennyiseg? 1-5-10-1000-10000? ez a nem mindegy, a batching kuldes nekik (marmint a spammerekenek) is kifizetodobb mint egyesevel mindenkinek unique tartalmat kuldeni.

  3. Csabii

    # 2006. december 29., péntek - 11:39 · válasz erre

    Ezért van csak egy kép, aztán meg 0,5-1K véletlen szöveg a mostanában divatos spamekben :(

    Nekem favágó módszerem van: spamszűrőm megtanult kicsit angolul, így szinte minden angol nyelvű levelem spamfolderbe megy. Egyelőre pont megfelel :)))

  4. vlajos

    # 2006. december 30., szombat - 11:06 · válasz erre

    http://razor.sourceforge.net/
    http://wiki.apache.org/spamassassin/HashSharingSystem

    Szoval az 5let nem rossz.
    Hasznaljak is mar par eve. :-)

    Persze a SPAM-erek is tudnak errol.
    1-2 random karaktert meg nem olyan nagy kunszt beszurni
    valahova az emailben.

    Ilyesmire is lenne megoldas.
    ,,Plagiarism Detection” algoritmusok MD5 helyett pl.
    http://theory.stanford.edu/~aiken/publications/papers/sigmod03.pdf
    De ennek a hatekonysagarol nem sokat tudok.

  5. connor

    # 2006. december 30., szombat - 14:42 · válasz erre

    Na igen a nyelvi szűrés nem rossz dolog. Szerencsére van egy szerver amin a felhasználók igen fertőzöttek, és napi szinten beesik 3000 spam, ezen tudok kísérletezni, és a spamassassinban a nyelvi szűrés igen sokat megfog. Persze ez sem teljesen jó megoldás, hiszen van aki lengyelül levelezik, ott biz’ figyelni kell.

    További hasznos megoldások: küldő gép ip címénél a dinamikus tartományok szűrése, unknow sender szűrése, grey list, black/white -list, webkarantén és bayes. Képek esetén talán még lehene md5 hash-t használni.

RSS hírcsatorna a bejegyzéshez kapcsolódó véleményekről. · Visszakövetés

Mondd el a véleményedet!