Gli spammer generano automaticamente nuovi commenti prendendo i commenti esistenti e eseguendoli attraverso un programma di thesaurus che sostituisce le parole con sinonimi o parti del discorso correlate. Il risultato è una frase che ha senso, ma ha scelte di parole che nessun madrelingua farebbe mai:
Dove altro posso trovare ...
chiaramente non è qualcosa che un madrelingua scriverebbe, ma
Dove altro potrebbe trovare ...
è, e può essere trasformato da un semplice sostituzione di pronomi e sinonimi nel testo spam.
In questo modo, anche se le forze anti-spam dispongono di un enorme database di commenti spam noti, gli spammer possono generarne infiniti nuovi che siano plausibilmente inglesi.
Ho a lungo sospettato che fosse così, ma di recente ho avuto delle prove. A volte ricevo messaggi di spam nei commenti contenenti l'intero script di sostituzione; sarà qualcosa del tipo:
Non riesco [a credere / capire / comprendere] il [grande / superiore / sorprendente] [contenuto / informazione / dati] ...
Poiché gli spammer erano probabilmente non anglofoni all'inizio, non si sono accorti che stavano inviando lo script anziché l'output.
Se esamini un corpus sufficientemente ampio di spam, puoi facilmente capire quali algoritmi stanno utilizzando. Sarebbe una sfida interessante nel reverse engineering scrivere un programma che deduca gli algoritmi utilizzati dal corpus.
Lo chiedo perché quando l'ho visto per la prima volta, ho pensato che forse fossero autentici ma inarticolati .
Una volta ti hanno ingannato. Probabilmente non succederà più!
Il commentatore TildalWave sottolinea:
nessuno dei messaggi di spam di esempio pubblicati da OP in realtà approva alcun prodotto o promuove in altro modo qualsiasi altra causa .
Bene, lascia che ti faccia un esempio: ecco un commento arrivato pochi minuti fa sul mio blog:
nome utente: recensione del tostapane compatto cuisine
user url: toasterovenpicks.com user email: jeffryshuler@2-mail.comuser IP: 37.59.34.218 Contenuto del commento: un indizio in particolare per gli sposi essenziali per il loro tutto assolutamente nuovo, in realtà un cognome bruciato che ha una modalità, che rende quasi ragazza grata riconoscendo il loro cognome rinfrescante quindi distintamente stampato.
Il prodotto è promosso nei metadati dell'utente, non nel contenuto del commento. Il contenuto è solo un tentativo di superare il filtro antispam. (Sospetto che in questo caso il testo non sia una mutazione di un testo esistente, ma piuttosto generato da un processo Markov su un corpus di documenti sulla pianificazione del matrimonio.)
Ovviamente le forze anti-spam sono a questo anche uno, motivo per cui questo era nel mio filtro antispam. Il mio filtro antispam (akismet) in media lascia passare uno spam ogni 705 inviati. Ancora una volta, questo è ciò che cercano gli spammer; sanno che il 99,9% del loro lavoro non sarà mai visto da nessuno. Stanno cercando di esplorare in modo casuale lo spazio dei falsi negativi nei filtri antispam, uno spazio che sta diventando piuttosto piccolo.