MTBF, o "fallimenti" nel senso 6σ
Sebbene queste siano cose completamente diverse, condividono alcune proprietà comuni che si applicano al tuo problema.
La Media Il tempo tra i guasti è una misura comunemente usata per valutare l'affidabilità delle cose. Se, ad esempio, acquisti qualcosa come un'auto o un disco rigido, quella particolare cosa potrebbe funzionare senza problemi fino al giorno in cui morirai. Ma in media, alla fine incontrerà un fallimento, dopo un tempo medio X. Questo è l'MTBF.
Six Sigma (6σ) è fondamentalmente lo stesso tipo di cose, tranne che per la maggior parte non trattate con le cose ma con i processi, e analizzi (e ottimizzi) non il tempo operativo, ma il numero di "opportunità", che possono essere ... qualunque, e gli insuccessi, che possono, ancora, essere ... qualunque. Può trattarsi di produrre qualcosa, consegnare in tempo o semplicemente rispondere a un telefono correttamente.
In un esempio più concreto, se ad es. il tuo calzaturificio produce un milione di scarpe da ginnastica al mese, stai cercando di ottenere che non più di 3 di esse (idealmente zero) escano con il colore sbagliato o senza lacci e non possono essere vendute.
Come fa che si applica qui?
L'MTBF ha un'implicazione ben nota, va giù proporzionalmente al numero di unità utilizzate che aumenta . Ciò significa che sebbene sia molto improbabile che il tuo cellulare esploda in tasca durante due o tre anni di utilizzo tipico, è praticamente garantito che accada a qualcuno se dieci milioni di persone ne possiedono uno (quello era il motivo per esempio della famigerata campagna di richiamo di Samsung / incubo di pubbliche relazioni circa un anno fa - non è come se fossi davvero in pericolo se ne possedessi uno).
Allo stesso modo, guardandolo dall'angolo 6σ, se il tuo fabbrica di scarpe produce non solo un milione di scarpe da ginnastica, ma un miliardo, quindi avrai 3.000 paia di scarpe difettose, non 3.
Alcuni anni fa, l'uso di RAID-5 è stato scoraggiato. In che modo fornisce una maggiore sicurezza dei dati, non è vero? Accade così che gli hard disk abbiano una possibilità molto, molto piccola di danneggiare un settore, quindi è irrecuperabile. Non succede mai ... beh, quasi .
Ma se i tuoi dischi sono abbastanza grandi (come i dischi moderni), con molti settori, e ne hai molti raggruppati insieme, sei fondamentalmente garantito che accada durante un'operazione di risincronizzazione, cioè nel momento preciso in cui non è necessario che ciò accada perché sei già inattivo un disco. Inoltre, hai la possibilità che un secondo disco si guasti catastroficamente a metà della risincronizzazione. Il che non succede mai ... beh, quasi . Più dischi sono presenti, più è probabile che accada.
Lo stesso vale per reimplementare la stessa funzionalità in un software molte volte. Ogni implementazione ( ogni funzione, non solo quelle che duplicano la funzionalità) è una "opportunità", o l'equivalente di un disco rigido. Più funzioni, tramite la funzionalità di duplicazione, significano più opportunità di fallimento. Inoltre, più codice da rivedere.
Sebbene i tuoi programmatori lavorino per lo più senza errori (beh, si spera), c'è sempre una piccola possibilità che facciano una falsa supposizione o un vero e proprio errore. Maggiore è il numero di opportunità offerte, maggiore è la probabilità che accada.