Come sapere se un file di testo è stato modificato o manomesso?

Drew Gibson

2016-01-09 19:15:19 UTC

view on stackexchange narkive permalink

È possibile sapere se un file di testo, ad es. in formato XML, è stato modificato o manomesso nel tempo?

Segue il contesto della mia domanda:

Sono uno scienziato nell'industria che utilizza una tecnologia chiamata 'spettrometria di massa (MS) '. La SM è una tecnica analitica utilizzata, ad es. in analisi forense per determinare se un particolare composto è presente in un campione (ad es. droga d'abuso nel sangue o nelle urine).

Mass spec. i file di dati sono solitamente archiviati in formato file flat secondo le specifiche binarie private del fornitore dello strumento: il loro software può elaborarlo, ma nient'altro può farlo. Tuttavia, esistono standard aperti per i dati MS e la maggior parte dei fornitori supporta l'esportazione in almeno una specifica aperta. Questi standard aperti oggigiorno sono principalmente basati su XML (ad es. mzML) e consentono l'elaborazione con applicazioni open source e consentono anche l'archiviazione a lungo termine (> 10 anni) dei dati in un formato che non richiedono di mantenere un computer archiviato e il sistema operativo (o VM) e il software di elaborazione per lunghi periodi.

Il formato binario del fornitore fornisce almeno una certa sicurezza contro la manomissione dei dati, tuttavia i formati XML non lo fanno. Da qui il problema: i formati aperti sono molto utili per fornire l'accesso ai dati su periodi di archiviazione, ma la sicurezza è un problema.

È possibile calcolare gli hash dei file e conservarli in un database protetto (con backup degli originali). Quindi, se sospetti una manomissione, puoi semplicemente ricalcolare gli hash e confrontarli, quindi sostituirli con i backup se necessario.

Chi sei preoccupato di manometterli? Qual è il tuo modello di minaccia?

* Il formato binario del fornitore fornisce almeno una certa sicurezza contro la manomissione dei dati * - Sono abbastanza certo che non lo faccia. Solo perché * tu * non puoi leggerlo e modificarlo quando lo apri con un editor di testo non significa che nessun altro possa decodificare il formato e costruire un editor per esso.

@philipp ha ragione: nella migliore delle ipotesi, questa è "sicurezza dall'oscurità" e non è affatto una protezione contro chiunque abbia una conoscenza rudimentale, un editor esadecimale e un minimo di pazienza.

@JonathanGray: supponendo che i file originali non siano così grandi, in che modo la tua soluzione hash è migliore della semplice archiviazione di un backup dei dati?

@iAdjunct Presumo che l'OP sia preoccupato per i risultati dei test falsificati. Quando hai a che fare con i test antidroga, è una preoccupazione legittima: immagina cosa succederebbe se qualcuno distorcesse i dati di un concorrente per un lavoro ben pagato, facendo sembrare che sia un drogato!

Uhm, leggilo prima e dopo. Se è diverso, è stato modificato. In caso contrario, è lo stesso.

Hai fatto un errore di battitura: il formato binario del fornitore fornisce ** zero ** sicurezza contro la manomissione dei dati

@NeilSmithline Perché gli hash potrebbero essere inviati per la verifica invece di interi file.

Come dice il nostro [help / on-topic], "La sicurezza è un argomento molto contestuale: le minacce che sono ritenute importanti nel tuo ambiente possono essere irrilevanti in quello di qualcun altro e viceversa. [...] Per ottenere le risposte più utili tu dovrebbe dirci: quali risorse stai cercando di proteggere; chi usa la risorsa che stai cercando di proteggere e chi pensi che potrebbe volerne abusare (e perché); quali misure hai già preso per proteggere quella risorsa; quali rischi che ritieni di dover ancora mitigare ". Ti incoraggio a modificare la domanda per aggiungere queste informazioni, in modo da poterti fornire le migliori risposte di qualità.

@philipp fa un ottimo punto. La prima cosa che mi è venuta in mente è stata "dato l'XML di testo semplice e il binario, non mi ci vorrà molto per decodificare il formato di file proprietario". A meno che non stiano effettivamente crittografando, dovrebbe essere semplice. Al massimo, aggiungeranno un'intestazione di identificazione a ciascun valore (https://en.wikipedia.org/wiki/Type-length-value) Temo che dovresti contattare ogni fornitore individualmente e, anche in questo caso, non mi aspetto che rivelino i dettagli della loro "salsa segreta"; al massimo mi aspetterei vaghe rassicurazioni di sicurezza, senza dettagli).

Potresti voler guardare un prodotto software specificamente progettato per l'archiviazione e la gestione dei dati di laboratorio, come un LIMS, ELN (quaderno di laboratorio elettronico) o SDMS (sistema di gestione dei documenti scientifici) - questi sono spesso utilizzati all'interno di sistemi di qualità che devono soddisfare le normative standard come GMP, quindi i fornitori dovrebbero essere esperti in ciò che tali standard si aspettano e su come soddisfarli.

Grazie per tutti i commenti utili. Il problema è la conformità ai requisiti di sicurezza dei dati delle agenzie di regolamentazione. Quelle agenzie potrebbero voler rivedere qualsiasi aspetto dello sviluppo di un composto farmaceutico e l'integrità dei dati è in cima alla loro agenda, ed è giusto che sia così.

Se questo è per il settore farmaceutico, sospetto fortemente che dovresti assumere alcune competenze professionali sulla conformità normativa - presumo che il tuo datore di lavoro non sia in realtà un'azienda farmaceutica, altrimenti lo avresti già in casa?

Questa è una soluzione commerciale, ma probabilmente soddisfa tutte le tue esigenze: prova di integrità e tempo, verificabilità, soluzione a lungo termine ... [www.guardtime.com] (http://www.guardtime.com)