ING Bank e Delta Airlines: due casi che dimostrano che l’hosting non è una commodity

condividi su:

28 settembre 2016

0 commenti

Il crescente numero di hosting provider ha erroneamente costruito nella testa dei non addetti ai lavori l’idea che l’hosting sia una commodity: niente di più errato. L’elevata standardizzazione dei servizi tipici delle commodity non può quindi essere per sua stessa natura la soluzione in grado di rispondere alle esigenze – altamente specifiche – di quelle aziende la cui riuscita dipende completamente o in parte da sistemi business critical.

Come abbiamo più volte evidenziato sul nostro blog, la scelta dell’hosting si rivela fondamentale per il successo di un business, sia che l’azienda in questione venda prodotti, servizi o operi nell’ambito della new economy. Come si riconosce quindi un hosting provider in grado di fornire un servizio che sia veramente di qualità? Sicuramente non solo dal costo del servizio, ma anche da altri fattori come il tipo di assistenza fornita, sia tecnica che commerciale, e l’orientamento al progetto.

Anche un solo piccolo errore nella fase di progettazione dell’infrastruttura e la mancata gestione delle emergenze può costare molto caro alle imprese, come testimoniano i due recenti casi di ING Bank e Delta Airlines.

Il caso ING Bank

Può sembrare strano, ma anche le grandi multinazionali possono incappare in qualche errore nella scelta della propria hosting company. È il caso del gruppo bancario olandese ING, che a settembre si è trovata a dover gestire una grossa emergenza legata alla propria infrastruttura.

Nel più grosso data center del gruppo, situato a Bucarest in Romania, era in corso un’esercitazione programmata per testare il sistema antincendio, quando qualcosa di imprevisto si è verificato: a causa delle fuoriuscita (troppo rapida) dei gas inerti utilizzati dall’impianto, le funzionalità di decine di server sono state compromesse.
Ma come è successo? L’utilizzo dei gas inerti per abbassare la temperatura all’interno dei data center in caso di incendio, in particolare quelli di grosse dimensioni, è una pratica largamente diffusa. Questa metodologia, che prevede la conservazione dei gas in cilindri forati, permette di limitare i danni ai componenti elettronici dei server presenti in sala. Secondo alcuni studi condotti da Brendan Gregg nel 2008, i forti rumori sembrerebbero essere i principali responsabili di molti hardware failure all’interno dei data center.

Ed è proprio un forte rumore – superiore ai 130Db – quello che durante l’esercitazione venne registrato dai sistemi. “È come se un jet supersonico fosse passato all’interno del data center” ha detto uno dei responsabili della struttura. Ma ciò che sembrerebbe aver danneggiato in modo irreparabile i server non sembra essere stato il rumore quanto la vibrazione che si è verificata con lo spostamento d’aria. Non c’è ancora molta chiarezza rispetto al fatto che le forti vibrazioni siano in grado di causare failure nell’hardware, tuttavia sono numerose le aziende che dopo lo studio di Gregg hanno cercato di approfondire l’argomento: secondo un white paper di Siemens datato 2015 “l’eccessivo rumore è in grado di impattare in modo negativo sulle prestazioni dei driver degli HDD” anche se tuttavia “non è possibile stabilire con precisione quale sia la misura minima (misurata in decibel) in grado di causare questo problema”.

Per ING l’esercitazione “finita male” si è conclusa con un down dei sistemi complessivo di 10 ore che, nella giornata di sabato, ha reso impossibile a centinaia di migliaia di utenti rumeni utilizzare il proprio bancomat e i servizi di home banking, con una pioggia di lamentele a mezzo social (e non solo). La situazione è rientrata nella normalità solo il giorno successivo, ma ha comportato non solo le scuse nei confronti dei propri clienti ma anche un ripristino dei server tramite disaster recovery in un nuovo data center situato a chilometri di distanza da quello danneggiato, con ingenti perdite in termini di denaro.
E credibilità.

Quando volare alto costa caro: Delta Airlines e il downtime da 150 milioni di dollari

Circa un mese prima della “disavventura” di ING, un altro colosso, questa volta operante nel settore dei trasporti, pagava lo scotto di una gestione poco attenta della propria infrastruttura.
L’8 agosto (suo malgrado) Delta Airlines diventa in poche ore il vettore aereo di cui tutti parlano negli Stati Uniti e non per la sua puntualità o efficenza. Un improvviso guasto ai sistemi informatici costrinsero il vettore a cancellare circa 2000 voli in tre giorni. Ritardi di diverse ore, disservizi, clienti sul piede di guerra e dichiarazioni alquanto vaghe da parte del CEO Edward H. Bastian, il downtime fu causato da un guasto all’impianto elettrico che lasciò sostanzialmente al “buio” l’infrastruttura.

Come nel caso di ING Bank, lo sgomento più grande dell’opinione pubblica deriva dal fatto che uno dei più importanti vettori aerei mondiali non sia stata in grado di fronteggiare con le giuste procedure un guasto elettrico. Perchè procedure di failover e piani di disaster recovery non sono riusciti a minimizzare in tempo reale il blackout lasciando allo staff tecnico l’ingrato compito di ripristinare in altro modo l’operatività dei sistemi?

A distanza di un mese dall’evento, anche se le domande sul perché alcuni sistemi di emergenza non abbiano funzionato, i portavoce di Delta hanno annunciato ad una convention dedicata al settore dei trasporti i danni arrecati dal downtime: 150 milioni di dollari. Un conto davvero salato, rispetto all’approntamento di un piano di disaster recovery ben studiato.

I costi dei disservizi legati al data center non si pagano solo nel momento in cui si verifica il down dei server e non si pagano solo in termini di denaro: oltre alle spese economiche di ripristino fisico dei componenti hardware, anche la fiducia nel brand e nell’azienda da parte dei consumatori viene profondamente compromessa. Nel caso di Delta il disservizio si è anche tradotto nell’impossibilità di garantire il livello minimo del servizio, costringendo la compagnia a risarcire tutti i consumatori che hanno visto i loro voli cancellati o subire enormi ritardi.

Secondo alcune stime, in linea di massima il verificarsi di un disservizio all’interno di un data center può costare alle aziende (a seconda del tipo di business) dai 470 mila ai 2,4 milioni di dollari in termini di perdite finanziarie [Fonte: IBM 2016 Cost of Data Breach Study].

Questi due casi sono la dimostrazione concreta di come una scorretta o incompleta applicazione dei piani di business continuity possa danneggiare profondamente l’azienda. Prevenire per quanto possibile le emergenze, ad esempio attraverso il presidio continuo e proattivo dell’infrastruttura e la giusta pianificazione della strategia di ripristino dei sistemi informativi, è alla base della soluzione neen.

Le soluzioni neen per la business continuity sono progettate su misura, in base alle esigenze del cliente e al livello di business critical. La filosofia neen si basa sulla creazione di una o più infrastrutture multiregion, in modalità attiva/passiva o attiva/attiva, in grado di garantire l’abbattimento dei costi e una più tempestiva gestione delle emergenze. L’infrastruttura può essere replicata su un secondo Cloud pubblico o propietario o su un secondo data center nel caso in cui l’infrastruttura principale manifesti un failure grave la cui risoluzione vada oltre un tempo di operatività non ammissibile.

Non aspettare il verificarsi del prossimo imprevisto: per maggiori informazioni sulle strategie di disaster recovery e business contnuity proposte da neen manda una mail a sales@neen.it o chiamaci al 02.45485432

Jessica Ventura Social Media Manager