Perché il blog spam è sempre scritto così male?

Eric Lippert

2013-06-14 01:31:36 UTC

view on stackexchange narkive permalink

Gli spammer generano automaticamente nuovi commenti prendendo i commenti esistenti e eseguendoli attraverso un programma di thesaurus che sostituisce le parole con sinonimi o parti del discorso correlate. Il risultato è una frase che ha senso, ma ha scelte di parole che nessun madrelingua farebbe mai:

Dove altro posso trovare ...

chiaramente non è qualcosa che un madrelingua scriverebbe, ma

Dove altro potrebbe trovare ...

è, e può essere trasformato da un semplice sostituzione di pronomi e sinonimi nel testo spam.

In questo modo, anche se le forze anti-spam dispongono di un enorme database di commenti spam noti, gli spammer possono generarne infiniti nuovi che siano plausibilmente inglesi.

Ho a lungo sospettato che fosse così, ma di recente ho avuto delle prove. A volte ricevo messaggi di spam nei commenti contenenti l'intero script di sostituzione; sarà qualcosa del tipo:

Non riesco [a credere / capire / comprendere] il [grande / superiore / sorprendente] [contenuto / informazione / dati] ...

Poiché gli spammer erano probabilmente non anglofoni all'inizio, non si sono accorti che stavano inviando lo script anziché l'output.

Se esamini un corpus sufficientemente ampio di spam, puoi facilmente capire quali algoritmi stanno utilizzando. Sarebbe una sfida interessante nel reverse engineering scrivere un programma che deduca gli algoritmi utilizzati dal corpus.

Lo chiedo perché quando l'ho visto per la prima volta, ho pensato che forse fossero autentici ma inarticolati .

Una volta ti hanno ingannato. Probabilmente non succederà più!

Il commentatore TildalWave sottolinea:

nessuno dei messaggi di spam di esempio pubblicati da OP in realtà approva alcun prodotto o promuove in altro modo qualsiasi altra causa .

Bene, lascia che ti faccia un esempio: ecco un commento arrivato pochi minuti fa sul mio blog:

  nome utente: recensione del tostapane compatto cuisine
user url: toasterovenpicks.com user email: jeffryshuler@2-mail.comuser IP: 37.59.34.218 Contenuto del commento: un indizio in particolare per gli sposi essenziali per il loro tutto assolutamente nuovo, in realtà un cognome bruciato che ha una modalità, che rende quasi ragazza grata riconoscendo il loro cognome rinfrescante quindi distintamente stampato.

Il prodotto è promosso nei metadati dell'utente, non nel contenuto del commento. Il contenuto è solo un tentativo di superare il filtro antispam. (Sospetto che in questo caso il testo non sia una mutazione di un testo esistente, ma piuttosto generato da un processo Markov su un corpus di documenti sulla pianificazione del matrimonio.)

Ovviamente le forze anti-spam sono a questo anche uno, motivo per cui questo era nel mio filtro antispam. Il mio filtro antispam (akismet) in media lascia passare uno spam ogni 705 inviati. Ancora una volta, questo è ciò che cercano gli spammer; sanno che il 99,9% del loro lavoro non sarà mai visto da nessuno. Stanno cercando di esplorare in modo casuale lo spazio dei falsi negativi nei filtri antispam, uno spazio che sta diventando piuttosto piccolo.

Beh, non mi hanno ingannato nemmeno una volta, ma di certo ho dato troppa considerazione.

@TildalWave: Le frasi diventano sgrammaticate quando le sostituzioni locali infrangono le regole sensibili al contesto. Sostituire "è" con "sono", "sono", "erano", "era", "stato" o "essere" produce quasi sempre una frase sgrammaticata o dal suono bizzarro. E anche le regole "normali" per inflessioni e accordi in inglese sono piuttosto bizzarre e facili da sbagliare.

@TildalWave: Per quanto riguarda ciò che è così difficile, non è così difficile. Ricorda, gli spammer stanno cercando di consegnare cosa, un messaggio su mille? Dieci mila? Se hanno un modo economico per ingannare un filtro una volta su mille, il ritorno sull'investimento è proprio lì.

@TidalWave, questa è una vecchia storia: link spam. Il payload si trova in un URL incorporato nel nome utente dello spammer o qualcosa del genere.

@TildalWave: In primo luogo, sembra che tu lo stia prendendo molto sul serio. È una domanda di StackExchange. Alleggerisci e se questa risposta non ti piace, scrivine una migliore. Quello che "accetti" non mi preoccupa particolarmente; le mie risposte non vengono fornite con un accordo sul livello di servizio. In secondo luogo, ovviamente l'OP omette i dettagli. I PO omettono sempre i dettagli. Dato che l'OP ha un blog WordPress, come me, ho visto circa 100000 spam proprio come il suo. Terzo, molti siti web eliminano i metadati degli utenti. Quarto, non pensare agli spammer come * intelligenti *. Lanciano un miliardo di spam al giorno e sperano che qualche bastone.

@TidalWave (ed Eric) Sicuramente * ottengo * il tipo di collegamento al prodotto. Anche se non sono proprio quello che mi interessava. Di quelli scritti male, quelli con un carico utile costituiscono una grande minoranza. Di solito si tratta di un nome host irrisolvibile e di un indirizzo e-mail generato casualmente. Tutto sommato, la maggior parte dello spam è della varietà dei link di promozione, compresi i due che ho pubblicato. Ma molti non hanno affatto un collegamento.

Bella risposta. Grazie per le informazioni dal tuo blog. Rende una lettura interessante. Sono contento di non doversi preoccupare che i miei siti vengano ancora colpiti così duramente.

I nomi host irrisolvibili sono quelli che erano attivi e fornivano alcuni contenuti non richiesti a un certo punto, ma ora sono andati giù (alcuni di questi salgono e poi di nuovo giù molto rapidamente). Per quanto riguarda i messaggi senza collegamenti, è piuttosto banale rimuovere i collegamenti da un messaggio, alcune persone non bloccano i commenti di spam ma si limitano a rimuovere i collegamenti da essi, questo si traduce in molti commenti dall'aspetto semi autentico che non hanno una ragione ovvia per essere spam, lo sono ancora.

All'improvviso ho la più strana voglia di comprare un tostapane ...

@TildalWave, il link spam potrebbe non contenere testo anche in remoto correlato ai loro prodotti. Alcuni stanno semplicemente cercando di stabilire un'associazione tra un sito popolare e le loro link farm. Capiscono che questa associazione può aiutare ad aumentare il loro Page Rank di Google. Esiste un intero "web artificiale" di siti che non servono persone reali, ma gli spider dei motori di ricerca non possono dire la differenza. In sostanza, stanno minando la reputazione dei blog che inviano spam.

Hai detto che a volte ricevi spam nei commenti contenente l'intero script di sostituzione. Ecco [un esempio completo di tale script] (https://gist.github.com/shanselman/5422230).

Ricevere l'intero script di sostituzione è semplicemente troppo divertente. +1!

AbsoluteƵERØ

2013-06-14 05:24:15 UTC

view on stackexchange narkive permalink

La lingua potrebbe avere un po 'a che fare con un sig come stava parlando TidalWave.

Un po' innocuo spamdexing.

Ho visto alcuni dei primi esempi sul mio blog. Anche se sembra innocuo, in realtà stanno spamdexing (un po 'di " black hat seo") cercando di associare il proprio account utente (e i link ai siti web per estensione) con le parole chiave nel blog (come diceva Xander, è marketing). Quando fai clic sul link, conta come un successo positivo dal blog. Se un blog ha abbastanza risultati positivi per una ricerca chiave, il suo collegamento riceverà un aumento di +1 dai motori di ricerca per quanto riguarda la relatività per le parole chiave. La maggior parte dei motori di ricerca si è accorta di questo e cerca di impedirlo con la corrispondenza della pertinenza nelle loro formule.

Lo svantaggio è che se un utente arriva sul tuo sito per qualcosa di fuori tema a causa di questo spam e lascia ( rimbalzi) i motori di ricerca penalizzeranno il tuo posizionamento complessivo (per mancanza di sostanza) così come il tuo posizionamento per la pagina con contenuti fuori tema. Sebbene non ci sia molto a che fare con la sicurezza IT nello spamdexing (a meno che non utilizzino un sito infetto come proprio URL), ha un impatto negativo sulle prestazioni [sociali] del sito se un numero sufficiente di spammer lo fa e abbatte il tuo sito classifiche.

Per quanto riguarda il secondo esempio, contiene un hook per un'operazione di spam a due post (che si trova comunemente nei forum). Il primo poster creerà un account e pubblicherà una domanda che sembra una preoccupazione legittima.

... Dove altro posso ottenere quel tipo di informazioni scritte in un mezzo così ideale? ...

Poco dopo (entro 20 minuti circa, anche un paio di giorni) un altro poster (dello stesso paese di solito, se non dello stesso intervallo IP) creerà un nuovo account e pubblicherà la risposta, che contiene il collegamento pertinente alla domanda del poster originale. Poiché la maggior parte dei moderatori del forum non cancellerà quella che sembra una vera discussione, il loro spam ingannerà di nuovo qualcuno ... è comunque spamdexing. Un esempio di stile di marketing più elaborato potrebbe essere:

Ho trovato un'ottima risorsa per [parole chiave qui] su [ http://www.example.com/escore. Dovresti dare un'occhiata poiché hanno molte informazioni relative a [più parole chiave]. Dovrebbe aiutarti.

Alcuni degli altri trucchi che faranno è avere un'immagine della firma che è una GIF trasparente di solo 1 pixel per 1 pixel e avvolta in un <a> tag. Questo crea un collegamento a qualche altro sito web ovunque il poster abbia digitato il loro contenuto senza senso. Solo perché non puoi vederlo, non significa che non sia lì.

Le minacce spam non così innocue hanno un impatto sulla sicurezza del server

Alcuni dei peggiori gli esempi di spam contengono effettivamente un collegamento a un sito infetto oppure installano un keylogger javascript. (Ho visto l ' SVG hack utilizzato nelle righe della firma per iniettare script dannosi.) Il keylogger è quello a cui devi prestare attenzione perché può acquisire il nome utente e la password del blog / amministratore del sito o un altro utente con privilegi elevati quando tenta di accedere (o qualsiasi utente che crea un account) sulla stessa pagina per eliminare lo spam. Lo scenario migliore è che se l'utente ha accesso sufficiente per vedere altri utenti, l'attaccante scaricherà l'elenco di indirizzi di posta elettronica degli utenti e invierà messaggi di posta elettronica di spam a un elenco mirato al mercato (marketing).

I nuovi utenti innocenti possono subire il furto delle loro credenziali e poiché la maggior parte delle persone utilizza le stesse password e lo stesso indirizzo e-mail ovunque, ora i loro account altrove possono essere compromessi. (Facebook, LinkedIn, ecc.)

Scenario peggiore, poiché la maggior parte degli sviluppatori web dei sistemi CMS non si aspetta che qualcuno con "skillz" entri nel backend tramite uno di questi metodi (attendibile), Non stai facendo cose come controllare tutti i moduli di amministrazione per XSS o MySQL Injections (ho notato che alcuni dei miei sviluppatori tagliano gli angoli con questo metodo). Da XSS a SQL injection dipende quindi dalla sicurezza del box, dalle limitazioni sugli account utente (non eseguire Apache come root) e dall'accesso in lettura / scrittura. Dal momento che sarebbero nel CMS, puoi presumere che l'utente possa probabilmente scrivere qualsiasi cosa nella casella che desidera. Elimina il database, infetta il sito con una backdoor ... ora è un problema di sicurezza IT.

Dan Gayle

2013-06-14 08:57:09 UTC

view on stackexchange narkive permalink

L'azienda per cui lavoravo era solita fare "spinning", che come una delle risposte sopra menzionate sta facendo programmaticamente ricerche nel thesaurus e sostituzioni sul testo. Tuttavia, lo faremmo in più livelli complessi.

In realtà abbiamo impiegato veri scrittori americani per scrivere la copia originale.
Quegli scrittori originali avrebbero segnato il proprio documento utilizzando una sintassi speciale che abbiamo creato, contrassegnando parole, raggruppamenti di parole, frasi e intere frasi, inclusi i sinonimi che ritenevano appropriati per ogni caso. Ciò significava sinonimi per intere frasi che potevano essere scambiate senza cambiare significato. Lo farebbero in un software di modifica del testo che abbiamo creato che fornisse loro suggerimenti per il completamento automatico.
Ogni volta che uno scrittore contrassegnava il suo documento, memorizzavamo tutti i suoi sinonimi e frasi in un dizionario e usali per aggiungere suggerimenti all'autore per il loro prossimo compito.
Premi GO sulla macchina e crea centinaia / migliaia di variazioni.
Distribuisci blocchi di variazioni al nostro team SEO nelle Filippine, il cui unico compito era trovare blog, forum e altri siti Web ad alto PR troppo stupidi per bloccarci.

È interessante notare che non abbiamo mai automatizzato la parte di pubblicazione effettiva, poiché era la cosa più facile da individuare per le macchine. Un vero umano stava postando quella spazzatura.

Ah, i bei vecchi tempi in cui si rovinava Internet per tutti.

Freddo. Beh, assolutamente non fico. Ma grazie per averlo condiviso.

Perché lo avete fatto? fare soldi ? come puoi guadagnare con lo spam? La Cina ti paga per rovinare Internet a tutti?

@RitwikG: Il modo in cui ci guadagni è: i proprietari di CrappyToasterOvens.com ti chiamano e dicono ** Vogliamo essere il numero 1 su Google quando qualcuno cerca "regalo di nozze per tostapane". Realizzalo. ** Quindi questo è il tuo lavoro. Come hai intenzione di farlo? Google cerca * pagine popolari che rimandano ad altri siti web con parole chiave *, quindi pensi che sia OK, inserirò un milione di commenti su un milione di blog con le parole "regalo di nozze tostapane" e un link al sito, e * alcuni * di loro saranno blog popolari.

Mi sembra che se lo facessi per un numero sufficiente di documenti, potresti iniziare a eseguire un'elaborazione predittiva per determinare i probabili candidati per la sintassi. In sostanza, la knowledge base non manterrebbe solo le raccolte dei vari elementi sinonimi, ma anche il modo in cui alcuni elementi sarebbero spesso disposti (in altre parole, costruendo una sorta di albero di analisi predittivo attraverso l'apprendimento automatico). Usarlo per la generazione probabilmente non darebbe risultati ottimali, ma penso che potrebbe essere utile per suggerire markup per i documenti scritti.

@EricLippert +1 per riferimento al tostapane;)

Alberto Santini

2013-06-14 04:00:21 UTC

view on stackexchange narkive permalink

Non so se nel tuo caso il testo che hai segnalato fosse l'intero commento (quale sarebbe quindi il suo scopo, sia come commento autentico o come spam / truffa?).

In caso non lo era - e quando lo spam deve funzionare come preludio a interazioni future - allora scriverlo in un inglese povero potrebbe essere fatto apposta , come un "controllo" per una vittima che è abbastanza stupida non per riconoscere immediatamente la truffa e quindi vale la pena investire del tempo.

Fonte: Perché i truffatori nigeriani dicono di essere nigeriani? di Cormac Herley, Microsoft Research.

+1 per aver menzionato il documento Herley. Tutte le spiegazioni di cui sopra presumono enormi quantità di spammer che spesso non possono essere tutte vere.

ahmed

2013-06-14 07:00:44 UTC

view on stackexchange narkive permalink

Forse questo non risponderà alla domanda dell'OP, ma quegli spam non hanno lo scopo di far comprare qualcosa a nessuno.

Il punto è creare il numero massimo di commenti con collegamenti a pagine o siti particolari che gli spammer desiderano per migliorare il loro PageRank. Quei siti sono i luoghi in cui si svolgerà il vero lavoro di sedurre i potenziali acquirenti (o hackerare i computer delle potenziali vittime, o entrambi).

Ecco perché quasi tutti gli spam hanno almeno un collegamento. E quando non lo fa, è generalmente un commento appositamente predisposto ("Un articolo brillante", "Grazie per aver condiviso questo" ...) dove l'obiettivo è quello di ottenere l'approvazione del commento e di concedere al bot l'accesso diretto senza passare la coda di moderazione. Perché in alcuni CMS e forum, quando un utente raggiunge un numero minimo di messaggi approvati, verrà "contrassegnato" come attendibile e non dovrà essere approvato ogni volta.

Quindi lo spam non è destinato agli esseri umani ma per le macchine (motori di ricerca) e gli spammer devono fare tutto il possibile per influenzare i motori di ricerca. Quindi, non perdono tempo sul contenuto, dal momento che nessun essere umano lo leggerà e si concentrerà su meccanismi che rendono molti messaggi più veloci e più semplici.

In una parola, non sei il bersaglio , sei solo un danno collaterale.

AJ Henderson

2013-06-13 23:09:06 UTC

view on stackexchange narkive permalink

Probabilmente è una combinazione dei due. Se usano un linguaggio che non ha correttamente senso grammaticale, c'è più probabilità che qualcuno lo interpreti erroneamente come feedback effettivo su un post poiché proverà a riempire gli spazi vuoti in un modo che abbia senso. In definitiva, la maggior parte di questo tipo di spam sta cercando di diffondere link in tutto il Web per cercare di influenzare le classifiche di ricerca.

Per fare in modo che i link rimangano aggiornati, hanno bisogno che i loro commenti appaiano autentici per renderli più difficili da tirare fuori facilmente da commenti genuini. Fanno risposte dal suono generico che "potrebbero" plausibilmente essere valide nella speranza che vengano lasciati attivi.

In altre situazioni, questo è il risultato del tentativo di inserire parole chiave nel commento in modo da aumentare l'associazione del link con quelle parole chiave.

AllInOne

2013-06-14 02:37:20 UTC

view on stackexchange narkive permalink

Oltre alle ottime risposte pubblicate sopra, la tua domanda presenta un forte pregiudizio di campionamento.

Riconosci solo i post del blog di spam di scarsa qualità come spam del blog. Non riconosci mai lo spam del blog davvero ben congegnato come spam del blog. Quindi sembra che tutto lo spam dei blog sia mal creato.

AmIRight?

Se passo il tempo a scrivere post ponderati, grammaticalmente corretti, pertinenti, utili, ecc. Ai blog a cui mi capita di aggiungere link puramente per secondi fini, questo è spam?

@emory No, questo è marketing. :-)

@Xander quindi è un problema di definizione non bias di campionamento. Se i post del mio blog self-service sono di scarsa qualità, sono spam del blog; se sono ben realizzati, stanno commercializzando. Lo spam sui blog è di scarsa qualità per definizione.

In realtà no. Se avessi un blog di successo, forse potresti dirlo, ma così com'è, è abbastanza facile distinguere lo spam da quello non spam (se li conosco, no, beh probabilmente è spam).

La tua risposta mi ricorda questo fumetto xkcd (profano): http://xkcd.com/810/

@emory Sì, sono d'accordo.

iHaveacomputer

2013-06-14 05:18:44 UTC

view on stackexchange narkive permalink

Molto spesso gli spammer di blog utilizzano strumenti di rotazione dei contenuti. Sostituiscono le parole con sinonimi, che dovrebbero funzionare in teoria, ma in realtà fanno sembrare il commento come scritto da un bambino di 4 anni; o qualcuno che non ha l'inglese come prima lingua.

La maggior parte dei filatori di contenuti condivide una sintassi comune (esempio dalla risposta di Eric Lippert):

  Non posso [credere / capire / comprendere] il [grande / superiore / sorprendente ] [contenuto / informazione / dati] ...

Questo significa che il filatore di contenuto sceglierà una parola casuale da ogni parentesi per costruire la frase. In questo modo puoi ottenere un'ampia varietà di commenti simili, senza avere duplicati esatti, rendendo un po 'più difficile per i plugin anti spam identificare contenuti simili se usano un checksum come md5 per confrontare i commenti con lo spam precedente.

servarevitas3

2013-06-14 20:37:20 UTC

view on stackexchange narkive permalink

Potrebbero abbandonare modelli come questo: https://gist.github.com/shanselman/5422230, che è stato recentemente postato accidentalmente sul sito di Scott Hanselman: http: // www.hanselman.com/blog/ExposedABlogCommentSpammersSourceTemplate.aspx

Come altri hanno già detto, tutto ciò che deve essere fatto è scrivere uno script per estrarre una parola a caso dagli elenchi tra parentesi.

MarmiK

2013-06-14 08:52:54 UTC

view on stackexchange narkive permalink

Si può dire semplicemente che devi essere a conoscenza del SEO (Search Engine Optimization) IT ha 2 tipi di tecniche principali: 1) Black Hat e 2) White Hat

White Hat fa il vero o lavoro autentico.

ma da dove arriva il cappello nero inizia il tuo problema, quello che fanno è che hanno creato il numero di nome utente, password o elenco di blog aperti ... continuano a pubblicare contenuti sulla base del loro fabbisogno (parole chiave) in modo che dia loro clic interni sul loro sito ..

Come dice la prima risposta, usano un software intelligente che capisce parzialmente la lingua e creano un paragrafo sulla base di determinate parole chiave.

Quindi, avrà un senso, ma non avrà affatto senso ... :)

Spero che questo abbia senso nel contesto della tua domanda ..