Bayesian roskapostisuodattimet laskevat sen todennäköisyyden, että sanoma on roskapostia sen sisällön perusteella. Toisin kuin yksinkertaiset sisältöperusteiset suodattimet, Bayesian roskapostisuodatus oppii roskapostilta ja hyvältä postilta, mikä johtaa erittäin kestävään, sopeutumiseen ja tehokkaaseen roskapostin vastaiseen lähestymistapaan, joka parhaimmillaan ei paljasta mitään vääriä positiivisia tietoja.
Kuinka tunnistan roskapostit?
Ajattele roskapostin havaitsemista. Nopea silmäys on usein tarpeeksi. Tiedät, mitä roskapostia näyttää, ja tiedät, mitä hyvää postia näyttää.
Epätavallisen roskapostin todennäköisyys on noin … nolla.
Sisältöperusteisten suodattimien pisteytys ei sopeudu
Eikö olisi hienoa, jos automaattiset roskapostisuodattimet toimivat niin?
Sisällön perusteella luotujen roskapostisuodattimien pisteytys yrittää juuri sitä. He etsivät sanoja ja muita roskaposteille ominaisia ominaisuuksia. Jokai- selle ominaiselle elementille on annettu pisteet, ja koko viestin roskapostitulos lasketaan yksittäisistä pisteistä. Jotkut pisteytyssuodattimet etsivät myös laillisen postin ominaisuuksia, vähentäen viestin loppupistemäärää.
Pisteytyssuodattimet toimivat, mutta niillä on myös useita haittoja:
- Ominaisuuksien luettelo on rakennettu suodattimien insinööreiltä saatavasta roskapostista (ja hyvästä postista). Jotta saat hyvän käsityksen tyypillisestä roskapostista, joku saattaisi saada, posti on kerättävä satoihin sähköpostiosoitteisiin. Tämä heikentää suodattimien tehokkuutta, erityisesti koska hyvän postin ominaisuudet ovat erilaiset jokaiselle henkilölle , mutta tätä ei oteta huomioon.
- Etsitettävät ominaisuudet ovat enemmän tai vähemmän kiveen kirjoitettu . Jos roskapostittajat pyrkivät sopeutumaan (ja tekevät roskapostin näyttävän hyvältä postilta suodattimiin), suodatusominaisuuksia on hienosäädettävä manuaalisesti - vieläkin suurempia ponnisteluja.
- Kullekin sanalle osoitetut pisteet perustuvat luultavasti hyvään arvioon, mutta se on edelleen mielivaltainen. Ja kuten ominaisuuksien luettelo, se ei sovi yhteen roskapostin muuttuvassa maailmassa eikä yksittäisten käyttäjien tarpeiden kanssa.
Bayesian roskapostisuodattimet Tweak itse, paranevat ja parantavat
Bayesin roskapostisuodattimet ovat eräänlainen pisteytyspohjainen suodatin. Niiden lähestymistapa poistaa ongelmat yksinkertaisesti pisteytys roskapostisuodattimet kuitenkin, ja se tekee niin radikaalisti. Koska pisteytyssuodattimien heikkous on käsin rakennettu ominaisuusluettelo ja niiden tulokset, tämä luettelo on poistettu.
Sen sijaan Bayesian roskapostisuodattimet rakentavat luettelon itse. Ihannetapauksessa aloitat (suuri) joukko sähköpostiviestejä, jotka olet luokitellut roskapostiksi ja toinen joukko hyvää postia. Suodattimet tarkastelevat sekä analysoitaessa laillista postia että roskapostia laskien eri ominaisuuksien todennäköisyyttä, jotka näkyvät roskapostissa ja hyvässä postissa.
Miten bayesiläinen roskapostisuodatin tarkistaa sähköpostin
Bayes-roskapostisuodattimen ominaisuudet voivat olla:
- sanat sanan ruumiissa, tietenkin, ja
- sen otsikot (esim. lähettäjät ja viestipolut), mutta myös
- muita näkökohtia, kuten HTML / CSS-koodia (kuten värejä ja muuta muotoilua) tai jopa
- sanaparit, lauseet ja
- metatiedot (esimerkiksi tietyn lauseen ilmaantuminen).
Jos sana, esimerkiksi "Cartesian", ei koskaan näy roskapostissa, mutta usein laillisessa sähköpostissa, jonka olet saanut, todennäköisyys, että "Cartesian" tarkoittaa roskapostia, on lähellä nollaa. "Väriaine" puolestaan esiintyy yksinomaan ja usein roskapostissa. "Väriaineella" on erittäin suuri todennäköisyys löytää roskapostia, ei paljon alle 1 (100%).
Kun uusi viesti saapuu, se analysoidaan Bayes-roskapostisuodattimella, ja koko sanoman roskapostisuodatustodennäköisyys lasketaan yksittäisten ominaisuuksien mukaan.
Oletetaan, että viesti sisältää sekä "karteesiläistä" että "väriainetta". Näistä sanoista yksin ei ole vielä selvää, onko meillä roskapostia vai legitiimiä postia. Muut ominaisuudet (toivottavasti ja todennäköisimmin) osoittavat todennäköisyyden, jonka avulla suodatin voi luokitella viestin joko roskapostiksi tai hyväksi postiksi.
Bayesian roskapostisuodattimet voivat oppia automaattisesti
Nyt, kun meillä on luokittelu, sanomaa voidaan käyttää suodattimen itsensä kehittämiseen edelleen. Tällöin joko "Cartesian" osoittavan hyvää postia osoittavaa todennäköisyyttä alennetaan (jos "Cartesian" ja "väriaineen" sisältävä viesti havaitaan roskapostiksi), tai roskapostia osoittavan "väriaineen" todennäköisyyttä on harkittava uudelleen.
Tämän automaattisen adaptiivisen tekniikan avulla Bayes-suodattimet voivat oppia sekä omasta että käyttäjän päätöksistä (jos hän käsin korjaa suodattimien väärän päätöksen). Bayes-suodatuksen sopeutumiskyky varmistaa myös, että ne ovat tehokkaimpia yksittäiselle sähköpostiosoitteelle. Vaikka useimpien ihmisten roskapostista voi olla samanlaisia ominaisuuksia, laillinen sähköposti on luonteenomaista erilainen kaikille.
Kuinka roskapostittajat voivat saada vanhat Bayes-suodattimet?
Laillisen postin ominaisuudet ovat yhtä tärkeitä Bayesin roskapostisuodatusprosessille kuin roskapostia. Jos suodattimet on koulutettu nimenomaan jokaiselle käyttäjälle, roskapostittajilla on entistä vaikeampi aika työskennellä kaikkien (tai jopa useimpien) roskapostisuodattimien ympärillä ja suodattimet voivat sopeutua lähes kaikkiin roskapostittajiin.
Roskapostittajat tekevät sen vain hyvin koulutetuista Bayes-suotimista, jos he tekevät roskapostiviestit näyttävät täysin tavallisilta sähköpostiviestiltä.
Roskapostittajat eivät yleensä lähetä tällaisia tavallisia sähköpostiviestejä. Oletetaan, että tämä johtuu siitä, että nämä sähköpostit eivät toimi roskapostina.Joten, he eivät pysty tekemään sitä, kun tavalliset ja tylsät sähköpostit ovat ainoa tapa tehdä se aikaisemmin roskapostisuodattimilla.
Jos roskapostittajat vaihtavat useimmiten tavallisiin sähköpostiviesteihin, me kuitenkin saamme paljon roskapostia postilaatikoissamme uudelleen, ja sähköposti saattaa olla yhtä turhauttavaa kuin se oli ennen Bayesian päivää (tai vielä pahempaa). Se on myös tuhonnut markkinoiden useimmille roskapostityypeille, ja näin ollen se ei kestää kauan.
Vahvat indikaattorit voivat olla Bayesian roskapostisuodattimen akillesjänki
Yksi poikkeus voidaan havaita roskapostittajille, jotka voivat työskennellä Bayesian suodattimien avulla tavanomaisen sisällön tavoin. Bayes-tilastotietojen luonne on se, että yksi sana tai ominaisuus, joka esiintyy hyvin usein hyvänä postina, voi olla niin merkittävä, että minkä tahansa viestin katsominen roskapostilta katsottaisiin suodattimen kinkiksi.
Jos roskapostittajat löytävät tavan määritellä varmuuskopioidut hyvän sanoman sanat - käyttämällä esimerkiksi HTML-paluustodistuksia, jotta näet, mitkä avaat viestisi - esimerkiksi he voivat sisällyttää jonkin heistä roskapostiviestiin ja tavoittaa sinut jopa hyvin tunnettujen viestien kautta. koulutettu Bayesian suodatin.
John Graham-Cumming on yrittänyt tätä antamalla kaksi Bayesian suodatinta toimimaan toisiaan vastaan, "huono", joka sopeutuu siihen, mihin viesteihin löydetään "hyvä" suodatin. Hän sanoo, että se toimii, vaikka prosessi on aikaa vievää ja monimutkaista. Emme usko, että näemme paljon tästä tapahtuvasta, ainakin ei suuressa mittakaavassa, eikä räätälöity yksityishenkilöiden sähköpostiominaisuuksiin. Roskapostittajat voivat (yrittää) selvittää joitain avainsanoja organisaatioille (jotain "Almaden" joillekin IBM: n ihmisille?).
Yleensä roskaposti on aina (merkittävästi) erilainen kuin säännöllinen posti tai se ei kuitenkaan ole roskapostia.
Bottom Line: Bayesian suodatuksen vahvuus voi olla sen heikkous
Bayesian roskapostisuodattimet ovatsisältöperusteisia suodattimia että:
- olemmeerityisesti koulutettu tunnistamaan yksittäisen sähköpostin käyttäjän roskapostia ja hyvää postia, mikä tekee niistä erittäin tehokkaita ja vaikeita sopeutua roskapostittajiin.
- voi jatkuvasti ja ilman paljon työtä tai manuaalista analyysiasopeuttaa roskapostin uusimpiin temppuja.
- ottaa yksittäisen käyttäjän hyvä viesti huomioon ja olla hyvinmatala väärä positiivinen määrä.
- Valitettavasti, jos tämä aiheuttaa sokean luottamuksen Bayesian roskapostisuodattimille, se tekeesatunnainen virhe vielä vakavampi. Päinvastainen vaikutusvääriä negatiivisia (roskapostia, joka näyttää täsmälleen tavalliselta postilta) voi häiritä ja torjua käyttäjiä.