Erfahrungsbericht Datensicherung

von Ahmad Safwan (Kommentare: 0)

Systematischer IT-Betrieb – ein Erfahrungsbericht

Es folgt ein Erfahrungsbericht zu einem Vorfall bei einem mittelständischen Dienstleistungsunternehmen, der deutlich machen soll, wie wichtig geregelte und kontrollierte Bedingungen beim Betrieb der eigenen IT sind.

tl_files/MR/Bilder/Newsletter/1.jpg

Das Unternehmen beschäftigte sieben Mitarbeiter, alle ausgestattet mit einem modernen PC-Arbeitsplatz mit zwei Monitoren sowie Zugang zu einem Server mit einer zentral installierten Branchen-Software. Eine Virenschutz-Software auf dem Server und den PCs, eine Firewall am Internetzugang und auch eine Datensicherung waren vorhanden. Das Kapital des Unternehmens, die zentrale Datenbank, war bestmöglich abgesichert; so die Hoffnung des Unternehmers.

Der Unternehmer rief uns an. Es war 16:30 Uhr, und er befand sich in einer Serverumstellung: Neue Gerätschaften und Arbeiten waren bestellt, die Migration* vermeintlich in vollem Gange.

Die Datenübertragung war bei unserem Unternehmer fehlgeschlagen, und zwar wiederholt. Eine Fehlermeldung besagte, dass eine von zwei RAID-Festplatten** seit ca. 9 Monaten defekt war, nachdem sie davor 3 Monate lang verschiedene Fehlermeldungen hinsichtlich defekter Sektoren gesendet hatte. Die zweite Festplatte sendete bereits seit mehr als 2 Monaten vergleichbare Fehlermeldungen. Auf einige Sektoren (also Speicherbereiche) der Festplatte konnte nicht mehr zugegriffen werden, weshalb die Übertragung der darin befindlichen Daten fehlschlug.

Da Schreib-/Lesevorgänge sowie Ein-/Ausschaltprozesse das Risiko eines Festplattenausfalls erhöht hätten, wurden die Bemühungen sofort eingestellt. Es wurde stattdessen ein anderer Weg gesucht, die gewünschten Daten auf den neuen Server zu übertragen: eine Wiederherstellung der Datensicherung. Hier war der Unternehmer mit einem zweistufigen Konzept aufgestellt:

1.   Sämtliche Daten des Servers wurden täglich auf eine USB-Festplatte gesichert.

2.   Die geschäftskritische Datenbank der Branchen-Software wurde zusätzlich täglich per Online Backup in ein deutsches Rechenzentrum übertragen.

Bei der Prüfung der Datensicherungen stellte sich allerdings folgendes heraus:

1.   Die letzte erfolgreiche Datensicherung des Gesamtsystems lag 6 Monate zurück.

2.   Die letzte erfolgreiche Datensicherung der geschäftskritischen Datenbank lag 2 Monate zurück.

An diesem Tag um 16:30 Uhr standen das sechs Jahre junge Unternehmen und die sieben Beschäftigten vor dem Aus.

tl_files/MR/Bilder/Newsletter/2.jpg

So können vergleichbare Risiken entdeckt und verringert werden:

1. Festplattenüberprüfung:
 
Der Festplattenzustand sollte regelmäßig überprüft werden, Alarmschwellen sollten eingerichtet und -meldungen abgesetzt sowie eine organisierte Intervention geplant werden.
Inhalt dieser Prüfungen sollten Erreichbarkeit des Speichers, Größe und Größenveränderung des Speichers sowie Erreichbarkeit und Zustand einzelner Festplatten sein.
Eine Prüfung sollte wenigstens täglich stattfinden, bei kritischen Systemen sogar im 5-Minuten-Takt oder in Echtzeit.
Alarmschwellen sollten sinnvoll eingerichtet werden: Sie sollten hoch sein, damit ein Abstumpfen der Empfänger vermieden wird, und gleichzeitig so gering, dass Zeit zum Handeln bleibt.
Meldungen sollten an einen IT-Fachkundigen gehen, der diese bewerten und angemessen reagieren kann.
Übrigens: Bei unserem Unternehmer war eine Überprüfung des Speichers eingerichtet, die regelmäßig ausgab, dass der Speicher (bspw. „Laufwerk D:“) erreichbar war; eine Messung einzelner Festplatten oder Speichersektoren erfolgte allerdings nicht.
 
2. Datensicherungsüberprüfung:
 
Der Erfolg der Datensicherung sollte regelmäßig überprüft werden, Alarmschwellen sollten eingerichtet und -meldungen abgesetzt sowie eine organisierte Intervention geplant werden.
Inhalt der Prüfungen sollten für die Sicherung ausgewählte Bereiche, eingerichteter Sicherungstakt, technischer Erfolg der Sicherung und ein Wiederherstellungstest sein.
Eine Prüfung sollte täglich stattfinden, bei kritischen Systemen auch häufiger.
Alarmschwellen sollten sinnvoll eingerichtet werden: Sie sollten hoch sein, damit ein Abstumpfen der Empfänger vermieden wird, und gleichzeitig so gering, dass Zeit zum Handeln bleibt.
Meldungen sollten an einen IT-Fachkundigen gehen, der diese bewerten und angemessen reagieren kann.
In regelmäßigem, der Wichtigkeit der Daten angemessenem Takt, sollte ein Wiederherstellungstest durchgeführt werden. Ein typischer Prüfungstakt kann aus einer Kombination von quartalsweisem, stichprobenartigem Wiederherstellen einzelner Dateien sowie jährlicher Disaster-Recovery-Übung bestehen.
Übrigens: Bei unserem Unternehmer meldete eine eingesetzte Datensicherungsüberwachung regelmäßig den Erfolg der Datensicherungen. Dass auf einzelne Speichersektoren nicht zugegriffen werden konnte und daher die erstellte Datensicherung nicht wiederherstellbar, also faktisch nicht zu gebrauchen war, konnte die eingesetzte Software nicht erkennen. Eine händische Überprüfung war nicht erfolgt.
 
3. Regelmäßige Wartungsintervalle und Gespräche:
 
Es sollte eine regelmäßige, händische Wartung kritischer Systeme stattfinden. Diese sollte insbesondere ein Gespräch mit den Anwendern („Was hat sich an Ihrer Arbeit mit der Software verändert?“), mit dem Unternehmer („Was sind Ihre Erwartungen an das System und was planen Sie für Ihr Unternehmen?“) sowie eine Prüfung der Software-Logs und einen Testlauf kritischer Systeme beinhalten.
Übrigens: Bei unserem Unternehmer lagen Systemmeldungen zum Festplattenzustand im Ereignisprotokoll des Servers vor, die nicht gesichtet worden waren. Ebenso hatten die Mitarbeiter die sich deutlich verschlechternde Geschwindigkeit des Servers bemerkt.

Epilog

Der Unternehmer kontaktierte an jenem Nachmittag einen empfohlenen Datenretter. Dieser stellte unter großen Anstrengungen rund 90% des Datenbestandes wieder her und sorgte insbesondere dafür, dass die geschäftskritische Datenbank wieder benutzbar wurde. Das Unternehmen gibt es noch heute und ist auf Wachstumskurs: Rund vier Monate nach dem Vorfall ist eine Vergrößerung auf zehn Mitarbeiter in greifbare Nähe gerückt.

*Technischer Hintergrund „Migration“:

Bei einem Systemwechsel wird typischerweise so vorgegangen, dass eine neue Hardware (oder auch eine Rechenzentrumsplattform) eingerichtet, notwendige Netzwerkverbindungen hergestellt und Software installiert werden.

Im Anschluss werden die Bestandsdaten auf das neue System übertragen. Abschließend wird geprüft, ob alle Daten übertragen wurden und ob mit ihnen gearbeitet werden kann.

 

**Technischer Hintergrund „RAID“:

Bei zentralen Speichersystemen wie Servern oder NAS wird in der Regel mit sogenannten „RAID“-Systemen gearbeitet. Hierbei sorgt eine Konfiguration der Festplatten dafür, dass Daten z.B. zwischen zwei Festplatten mit dem Ziel gespiegelt werden, bei Verlust einer Festplatte ohne Ausfall oder spürbare Einschränkung weiterarbeiten und im Hintergrund die defekte Festplatte austauschen und Daten kopieren zu können. Wird dieser Austausch versäumt, sind in der Regel eine Betriebsunterbrechung und ein Datenverlust die Folge.

Zurück