Prima di tutto, c'è una distinzione molto importante tra essere in grado di rilevare un attore "simile a Snowden" e essere in grado di prevenirne uno. Per quanto ho visto, Beehive non pretende di prevenirne uno, ma sembra piuttosto promettere la capacità di darti avvisi che si stanno verificando attività sospette nella tua rete. Certo, non così buono, ma ancora considerato un "Santo Graal" in alcune comunità di ricerca.
Detto questo, sono estremamente dubbioso che Beehive sia in grado di soddisfare queste aspettative. L'apprendimento automatico può fare abbastanza bene per estrarre modelli complessi da grandi pile di dati con identità affidabili. Ad esempio, la differenziazione tra immagini di cani e gatti è estremamente affidabile; possiamo farlo tutti il 99 +% delle volte, ma se dovessi dire qual è l'algoritmo esatto per prendere 100x100 pixel e determinare gatto vs cane, non ho idea di come lo farei. Ma posso fornirti 100.000 di tali immagini e lasciare che i metodi ML stabiliscano una regola che differenzia in modo affidabile tra i due in base ai valori di 100x100 pixel. Se faccio le cose per bene, le regole create da ML dovrebbero funzionare anche su nuove immagini di cani e gatti, presumendo che non ci siano cambiamenti enormi nei nuovi dati (cioè, se ho usato solo laboratori e gatti soriani nei dati di addestramento, allora prova a ottenere per identificare un terrier ... buona fortuna). Questa è la forza di ML.
Determinare il "comportamento sospetto" è una questione molto più difficile. Non abbiamo 100.000 campioni di cattivo comportamento confermato e non abbiamo nemmeno 100.000 campioni di buon comportamento confermato! Peggio ancora, quello che era un buon metodo ML che funzionava ieri non funziona oggi; a differenza dei cani e dei gatti nelle foto, gli avversari si sforzano di ingannarti. La maggior parte delle persone che conosco che lavorano su ML per la sicurezza informatica hanno accettato che l'idea di un rilevamento puramente automatizzato è al di fuori della nostra portata al momento, ma forse possiamo creare strumenti per automatizzare attività ripetitive molto specifiche che un analista della sicurezza deve svolgere più e più volte rendendoli così più efficienti.
Detto questo, gli autori di Beehive sembrano aver saltato quella lezione e affermano di aver risolto questo problema. Sono molto sospettoso delle prestazioni, soprattutto considerando che i metodi che suggeriscono sono i primi che un ricercatore di ML potrebbe pensare di provare e sono stati regolarmente rifiutati come non utili. Ad esempio, suggeriscono di utilizzare PCA per identificare i valori anomali nei log. Questo, e le sue variazioni, sono stati provati centinaia di volte e il risultato è sempre che l'analista della sicurezza disattiva il "rilevamento automatico" perché ottiene così tanti falsi positivi che costa molto più tempo di salva.
Ovviamente, in tutti questi metodi, il diavolo sono i dettagli e i dettagli di questi tipi di metodi non vengono mai realmente esposti nel lavoro pubblicato ("abbiamo usato PCA per cercare valori anomali nei log del server" è un dichiarazione estremamente vaga). È sempre possibile che abbiano un modo super intelligente di pre-elaborare i dati prima di applicare i loro metodi che non sono stati pubblicati sulla carta. Ma sarei disposto a scommettere sul mio braccio destro che nessun utente di Beehive sarà in grado di distinguere in modo affidabile tra il comportamento "simile a Snowden" e l'uso reale non antagonista di una rete in tempo reale.