In che modo i servizi con tempi di attività elevati applicano le patch senza riavviare?

secureninja

2018-10-24 11:24:40 UTC

view on stackexchange narkive permalink

In che modo vengono installati gli aggiornamenti di sicurezza critici su sistemi che non puoi permetterti di riavviare, ma l'aggiornamento richiede un riavvio. Ad esempio, servizi / attività che devono essere eseguiti 24 ore su 24, 7 giorni su 7 senza tempi di inattività, ad es. Amazon.com o Google.

Cosa ti fa pensare che Google non possa permettersi di riavviare i propri server?Non devono riavviarli tutti in una volta, sai.

Oggi, qualsiasi uptime di disponibilità hardware superiore al 95% è considerato costoso e obsoleto.La maggior parte dei servizi Web distribuisce semplicemente i propri servizi in cluster per consentire una disponibilità quasi del 100%, meno costosa rispetto ai requisiti del sistema operativo e della controparte hardware.

@DmitryGrigoryev Esatto, non _tutti_ devono essere riavviati, e questo è il nucleo della domanda qui.I sistemi ridondanti sono un approccio comune per i sistemi High Availability o "zero downtime" (per rubare una descrizione da OP).

_Ridondanza_ e _bilanciamento del carico_ sono concetti chiave qui

Suggerisco di leggere https://landing.google.com/sre/books/ (gratuitamente) se sei particolarmente interessato a come Google fa l'ingegneria dell'affidabilità.Mentre gran parte di questo riguarda componenti concettuali e culturali attorno al lavoro di ingegneria dell'affidabilità del sito, ci sono anche un bel po 'di informazioni tecnologiche lì dentro.

Dato che ogni singolo disco rigido fallirà dopo circa dieci anni, i grandi giocatori dovrebbero cambiare disco difettoso * tutto il tempo *.Allo stesso modo per altri componenti hardware.Quindi, già da questo aspetto, è chiaro che la ridondanza massiccia gioca un ruolo importante.

Disponibilità = ridondanza.A seconda del tuo caso d'uso potresti avere dischi ridondanti, linee elettriche ridondanti, raffreddamento ridondante, ricambi freddi, ricambi caldi e / o una squadra di emergenza nel caso in cui il tuo primo team ks sia stato spazzato via a causa di un attacco fisico su larga scala (ad es. L'aereo vola nel tuo edificio).

Google e Amazon fanno anche versioni canarie: rilasciano un aggiornamento in un mercato meno importante (Asia) prima per dimostrare che non ci sono bug e dopo un po 'di tempo (24 ore) rilasceranno su altri mercati.I mercati meno importanti agiscono effettivamente come un canarino nella loro miniera d'oro