Contents
- Definition von Hadoop
- HBase
- Hadoop und Datensicherheit
- Fehlvorstellungen über Hadoop in Bezug auf die Datensicherung
- Was wird von einer modernen Hadoop-Datenschutzlösung erwartet?
- Eingebaute Hadoop-Backup-Tools und -Maßnahmen
- Methodik zur Ermittlung der besten Hadoop HDFS-Backup-Lösung
- Hadoop-Backup-Lösungen von Drittanbietern
- Hadoop HDFS-Backups und Bacula Enterprise
- Fazit
Definition von Hadoop
Hadoop wurde ursprünglich für die Arbeit mit riesigen Datenmengen entwickelt, was gemeinhin als „Big Data“ bezeichnet wird. Es handelt sich um ein Software-Framework mit Open-Source-Charakter, das in der Lage ist, große Datenmengen zu speichern und zu verarbeiten. Hadoop wurde mit Blick auf umfassende Skalierbarkeit entwickelt und bietet hohe Verfügbarkeit, Fehlertoleranz und die Fähigkeit, Petabytes an Daten zu verwalten.
Hadoop besteht aus vier Hauptkomponenten:
- Yet Another Resource Negotiator, oder YARN. Dabei handelt es sich um ein Rahmenwerk für die Ressourcenverwaltung, das die Zuweisung von Rechenressourcen (CPU, Arbeitsspeicher und Speicher) an Anwendungen, die auf dem Hadoop-Cluster laufen, überwacht. Es vereinfacht die Ressourcenzuweisung und das Scheduling und macht die Verwaltung und Skalierung von Hadoop-Anwendungen leichter handhabbar.
- MapReduce. Es handelt sich um ein Programmiermodell, das die Verarbeitung großer Datensätze auf verteilten Clustern erleichtert. Die betreffenden Daten werden von mehreren Clusterknoten gleichzeitig verarbeitet, nachdem sie in kleinere Brocken aufgeteilt wurden. Die Verarbeitungsergebnisse werden dann kombiniert, um die endgültige Ausgabe zu erzeugen.
- ZooKeeper. Dabei handelt es sich um einen verteilten Koordinationsdienst, der eine zentralisierte Registrierung für die Benennung, Konfiguration und Synchronisierung zwischen Hadoop-Cluster-Knoten bereitstellt. Das Hauptziel von ZooKeeper ist es, sicherzustellen, dass der Systemzustand jederzeit konsistent ist, indem jeder einzelne Knoten im Cluster überwacht wird.
- Hadoop Distributed File System, oder HDFS. Wie der Name schon sagt, handelt es sich dabei um ein Dateisystem, das speziell für die Arbeit mit großen, in Clustern und Knoten verteilten Datenmengen entwickelt wurde. Es partitioniert Daten über mehrere Knoten und repliziert Datenblöcke für Fehlertoleranz.
Die Skalierbarkeit und Flexibilität von Hadoop machen es zu einer überzeugenden Wahl für Unternehmen, die große Datenmengen verarbeiten. Seine Fähigkeit, große Datenmengen effizient zu speichern, zu verarbeiten und zu analysieren, hat es zu einem Eckpfeiler der modernen Dateninfrastruktur gemacht. Hadoop hat viele potenzielle Anwendungsfälle, einschließlich, aber nicht ausschließlich:
- Erleichterung der Erstellung von Data Warehouses zur Speicherung und Analyse großer Datenmengen in einer bestimmten Struktur.
- Die unschätzbare Fähigkeit, Erkenntnisse, Trends und Muster aus der Analyse dieser Datenmengen zu gewinnen.
- Datenseen entstehen lassen – Speicher für riesige Mengen unverarbeiteter Daten.
- Ermöglichung des Trainings und des Einsatzes von maschinellen Lernmodellen auf großen Datensätzen.
- Sammeln, Analysieren und Speichern großer Mengen von Protokollen von Websites, Anwendungen und Servern.
HBase
Hadoop ist ein interessantes Framework, aber sein Hauptzweck ist immer noch die Speicherung von Daten für bestimmte Zwecke. Die meisten Benutzer greifen auf HBase zurück, um mit all diesen Daten auf sinnvolle Weise zu interagieren. Apache HBase ist ein verteilter Datenbanktyp auf NoSQL-Basis, der – genau wie Hadoop – für die Arbeit mit großen Datenmengen entwickelt wurde. HBase ist ein Open-Source-Angebot, das sich in Apache Hadoop und sein gesamtes Ökosystem integriert. Es kann sowohl mit EMRFS (Amazon S3’s Variante von MapReduce) als auch mit HDFS (Hadoop’s eigenem Dateisystem) arbeiten.
HBase verwendet Apache Phoenix, um SQL-ähnliche Abfragen auf HBase-Tabellen zu ermöglichen und gleichzeitig alle Befehle an und von dem MapReduce-Framework zu verarbeiten. Es ist skalierbar, schnell und tolerant gegenüber vielen Fehlern, da seine Struktur den Ansatz von Hadoop weitgehend kopiert – die Daten werden über mehrere Hosts in einem Cluster verteilt, so dass ein Ausfall eines einzelnen Hosts nicht das gesamte System zum Absturz bringen kann.
Die Einführung in HBase ist in diesem Zusammenhang wichtig, da Hadoop und HBase oft gemeinsam für viele verschiedene Anwendungsfälle und Projekttypen verwendet werden.
Gleichzeitig unterscheiden sich die Sicherungs- und Wiederherstellungsmethoden von HBase von denen, die in Hadoop verwendet werden – darauf gehen wir später ein.
Hadoop und Datensicherheit
Hadoop hat in den letzten Jahren eine recht spontane Popularitätsphase durchlaufen, insbesondere im Zusammenhang mit der Einführung von KI und ML in Form von Chatbots und LLMs (Large Language Model) wie ChatGPT, die mit massiven Datenpools unterrichtet werden.
Gleichzeitig ist das Thema Hadoop-Sicherheit als Ganzes seit einiger Zeit ziemlich problematisch. Dafür gibt es mehrere Gründe, u.a. die durchschnittliche Datengröße (meist Petabytes und Exabytes), die allgemeine Skalierbarkeit der Lösung (die es praktisch unmöglich macht, etwas zu implementieren, das für jede Datenform und -größe funktioniert) sowie die enthaltene Datenreplikationsfunktion.
Die Datenreplikation ist die ursprüngliche Alternative von Hadoop zu Datensicherungen – es werden standardmäßig 3 Kopien jedes Datenblocks erstellt, was einige Benutzer zu der Annahme veranlasst, dass eine Backup-Lösung gar nicht erst erforderlich ist. Was bei diesem Ansatz in der Regel fehlt, ist das Verständnis dafür, dass die Fähigkeiten von Hadoop nur für traditionelle unstrukturierte Datenpools in Lagerhäusern und dergleichen funktionieren.
Wenn es also um ML-Modelle, IoT-Daten, Social-Media-Daten und andere Datentypen geht, die sich von den üblichen Data Lakes unterscheiden, für die Hadoop bekannt ist, bietet es möglicherweise nur wenig Schutz für diese Daten, was ein massives Sicherheitsproblem für seine Benutzer darstellt.
Hinzu kommt das Problem der Zugänglichkeit – die von Hadoop replizierten Daten werden nicht getrennt vom Original gespeichert, was sie genauso anfällig für Probleme und Datenschutzverletzungen macht wie den ursprünglichen Datensatz. Daher besteht ein Bedarf an Hadoop-Backup-Maßnahmen – sowohl an eingebauten als auch an Drittanbieter-Backups.
Bevor wir uns jedoch speziell mit Hadoop-Backups befassen, ist es wichtig, etwas mehr über Hadoop im Zusammenhang mit der Datensicherung zu erfahren.
Fehlvorstellungen über Hadoop in Bezug auf die Datensicherung
Die weit verbreitete Einführung von Hadoop in Unternehmen hat zu einer Verbreitung von übereilt implementierten, einfachen Hadoop-Backup- und Wiederherstellungsmechanismen geführt. Diese rudimentären Lösungen, die oft mit Hadoop-Distributionen gebündelt oder von internen Entwicklungsteams zusammengebaut werden, mögen auf den ersten Blick funktional erscheinen, stellen jedoch ein erhebliches Risiko für die Datenintegrität und die Widerstandsfähigkeit des Unternehmens dar, insbesondere wenn die Systeme an Größe und Komplexität zunehmen.
Daraus resultierende Ausfallzeiten oder Datenverluste aufgrund fehlgeschlagener Wiederherstellungen während einer Katastrophe können schwerwiegende Folgen für Unternehmen haben, die den Ruf schädigen, die Kosten in die Höhe treiben und die Markteinführung behindern. Die meisten Nachteile eines solchen Ansatzes lassen sich erklären, wenn man sich einige der größten Missverständnisse über Hadoop in Bezug auf den Datenschutz ansieht.
Fehlannahme Nr. 1 – Die Verwendung von HDFS-Snapshots ist eine praktikable Strategie zur Datensicherung
Das Hadoop Distributed File System verwendet Snapshots, um zeitpunktgenaue Kopien von einzelnen Dateien oder ganzen Verzeichnissen zu erstellen. Dieser Ansatz zur Datensicherung hat jedoch zahlreiche Einschränkungen:
- Die Wiederherstellung von Daten aus HDFS-Snapshots ist ein mühsamer Prozess, der eine manuelle Dateisuche, Schema-Rekonstruktion und Wiederherstellung von Datendateien erfordert.
- HDFS-Snapshots arbeiten auf Dateiebene, was sie für Datenbanken wie Hive und HBase unwirksam macht, da die zugehörigen Schemadefinitionen in den Backups nicht erfasst werden.
- Es ist zwar möglich, mehrere Snapshots des Systems zu erstellen und zu speichern, aber jeder einzelne Snapshot erhöht die Gesamtanforderungen des Clusters an den Speicherplatz, was sich später als massives Problem erweisen kann.
- Da sich Snapshots auf denselben Knoten befinden wie die Daten, die sie schützen, kann ein Knoten- oder Festplattenausfall zum Verlust sowohl der Snapshots als auch der geschützten Daten führen.
Missverständnis #2 – Kommerzielle Hadoop-Distributionen bieten ausreichende Backup-Funktionen
Kommerzielle Hadoop-Distributionen enthalten oft integrierte Backup-Tools. Diese Tools bieten zwar ein grundlegendes Maß an Backup-Funktionen, entsprechen aber möglicherweise nicht den strengen RPOs und RTOs eines Unternehmens. Im Wesentlichen fungieren diese Tools als Benutzeroberfläche für HDFS-Snapshots und übernehmen alle Einschränkungen, die mit HDFS-Snapshots verbunden sind, wie bereits erwähnt. Außerdem fehlt es diesen Tools im Allgemeinen an benutzerfreundlichen Wiederherstellungsmechanismen, so dass die Datenwiederherstellung ein manueller und fehleranfälliger Prozess ist.
Missverständnis #3 – Dateisystemreplikate sind eine ausreichende Datensicherungsmaßnahme für Hadoop
Während Replikate Daten effektiv vor Hardwareausfällen wie Knotenausfällen oder Festplattenfehlfunktionen schützen, bieten sie keinen ausreichenden Schutz vor häufigeren Szenarien der Datenkorruption. Benutzerfehler, wie z.B. das versehentliche Löschen von Tabellen in Hive, und Anwendungsfehler können zu Datenbeschädigungen führen, so dass Replikate bei der Wiederherstellung der Datenintegrität unwirksam sind.
Fehlannahme Nr. 4 – Benutzerdefinierte Skripte für Hadoop sind für langfristige Sicherungs- und Wiederherstellungsaufgaben geeignet
Interne Entwicklungsteams in vielen Unternehmen greifen häufig auf die Entwicklung benutzerdefinierter Skripte zurück, um ihre Hive- und HBase-Datenbanken sowie HDFS-Dateien zu sichern. Dieser Ansatz beinhaltet in der Regel, dass mehrere Arbeitsmonate für das Schreiben und Testen von Skripten aufgewendet werden, um deren Funktionalität in allen Szenarien sicherzustellen.
Leider ist dieser Ansatz in seiner Gesamtheit extrem schwer zu pflegen, da benutzerdefinierte Skripte regelmäßig aktualisiert und überarbeitet werden müssen – sei es aufgrund von Hadoop-Updates oder aus anderen Gründen. Ähnlich wie bei Snapshots konzentrieren sich Skripte in erster Linie auf die Datenreplikation und verfügen nicht über automatisierte Wiederherstellungsmechanismen. Infolgedessen bleibt die Datenwiederherstellung ein manueller und fehleranfälliger Prozess.
Darüber hinaus kann das Fehlen regelmäßiger Tests zu Datenverlusten führen, insbesondere wenn das für die Skriptentwicklung zuständige Team nicht mehr verfügbar ist.
Was wird von einer modernen Hadoop-Datenschutzlösung erwartet?
Strategien zur Datenwiederherstellung sind etwas, über das jede Hadoop-basierte Umgebung früher oder später nachdenken muss. Eine umfassende und gut definierte Hadoop-Sicherungs- und Wiederherstellungsstrategie ist unerlässlich, um eine zuverlässige und schnelle Datenwiederherstellung zu gewährleisten und gleichzeitig die Belastung der Technik- und Entwicklungsressourcen zu minimieren.
Eine moderne Hadoop-Datensicherungslösung sollte in der Lage sein, ein Gleichgewicht zwischen komplexer benutzerdefinierter Skripterstellung und hochentwickelten Datensicherungsfunktionen herzustellen. Sie sollte autonom arbeiten, so dass keine speziellen Ressourcen benötigt werden und nur minimale Hadoop-Kenntnisse erforderlich sind. Darüber hinaus sollte sie außerordentlich zuverlässig und skalierbar sein, um Petabytes an Daten effektiv zu verwalten und die strengen internen Compliance-Anforderungen in Bezug auf Wiederherstellungspunkte und Wiederherstellungszeiten zu erfüllen.
Darüber hinaus sollte die betreffende Lösung einen umfassenden Schutz vor Ransomware bieten, um die Datenintegrität bei bösartigen Angriffen zu gewährleisten. Die Integration von Cloud-Speicher ist eine weitere wichtige Funktion, die Kostenoptimierung und flexible Datenspeicherung ermöglicht. Die Lösung sollte außerdem mehrere Point-in-Time-Kopien der Daten für eine granulare Wiederherstellung aufbewahren und so die Verfügbarkeit historischer Daten bei Bedarf sicherstellen.
Darüber hinaus muss eine moderne Hadoop-Backup- und -Wiederherstellungssoftware die Wiederherstellungseffizienz in den Vordergrund stellen und intelligente Datenerkennung einsetzen, um große Datenformate zu deduplizieren und die Wiederherstellungsprozesse zu optimieren. Durch den Einsatz fortschrittlicher Technologien und Automatisierung kann eine solche Lösung wichtige Datenbestände schützen und die Auswirkungen von Datenverlusten oder -beschädigungen minimieren.
Eingebaute Hadoop-Backup-Tools und -Maßnahmen
Wie wir bereits erwähnt haben, bietet Hadoop aus mehreren Gründen keine Möglichkeit, eine „traditionelle“ Datensicherung durchzuführen. Einer der wichtigsten Gründe dafür ist die schiere Menge an Daten, mit denen Hadoop normalerweise arbeitet – Petabytes und Exabytes an unstrukturierten Informationen in einer sehr ungewöhnlichen Struktur.
Glücklicherweise bedeutet das nicht, dass Hadoop völlig wehrlos ist. Seine eigene Datenstruktur mit der standardmäßigen 3-fachen Replikation macht es relativ sicher, dass kleine Teile des Clusters nicht ausfallen – da die Daten selbst an mehreren Orten gleichzeitig gespeichert sind.
Die erwähnte Datenreplikation ist einer der Hauptgründe, warum sich nicht alle Hadoop-Anwender überhaupt mit Backup-Maßnahmen beschäftigen – und dabei völlig vergessen, dass die Replikation allein nicht vor dem Verlust des Clusters oder anderen groß angelegten Problemen wie Naturkatastrophen schützen kann.
DistCp
Apropos Datenreplikation: Es gibt auch ein manuelles Datenreplikationstool, mit dem viele Hadoop-Benutzer arbeiten – DistCp, oder Distributed Copy. Dabei handelt es sich um ein relativ einfaches CLI-Tool, mit dem Sie Daten von einem Cluster auf einen anderen replizieren können, um so eine Art „Backup“ zu erstellen, das eine weitere Absicherung gegen einen möglichen Datenverlust darstellt.
DistCp kann zum Kopieren von Clustern mit einem relativ einfachen Befehl verwendet werden:
Es sei darauf hingewiesen, dass es zwei häufig verwendete Versionen von DistCp gibt – die Original-/Legacy-Version und die „zweite“ Version namens DistCp2. Es gibt zwei große Unterschiede zwischen diesen Tool-Versionen:
- Die Legacy-Version von DistCp war nicht in der Lage, leere Stammverzeichnisse im Zielordner zu erstellen, aber DistCp2 kann das sehr wohl.
- Die Vorgängerversion von DistCp aktualisierte keine Dateiattribute der Dateien, die während des Kopiervorgangs übersprungen wurden – das ist bei DistCp2 nicht der Fall, da es alle Werte wie Berechtigungen und Eigentümergruppeninformationen aktualisieren würde, selbst wenn die betreffende Datei nicht kopiert wurde.
HDFS-Snapshots
Die Alternative zur Datenreplikation für Hadoop, wenn es um integrierte Maßnahmen geht, ist das Snapshotting. HDFS-Snapshots sind zeitpunktgenaue Kopien von Daten mit einem Nur-Lese-Status, die schnell und effizient sind – allerdings nicht ohne ihre eigenen Nachteile.
Die Erstellung von Snapshots erfolgt sofort und hat keinen Einfluss auf den regulären Betrieb von HDFS – da die Datenänderungen in umgekehrter chronologischer Reihenfolge aufgezeichnet werden. Snapshots selbst benötigen nur dann zusätzlichen Speicher, wenn Änderungen relativ zu einem Snapshot vorgenommen werden. Außerdem kopiert die Snapshot-Funktion keine Blöcke in Datenknoten – die einzigen Daten, die aufgezeichnet werden, sind die Dateigröße und die Blockliste.
Es gibt ein paar grundlegende Befehle, die mit der Erstellung von HDFS-Snapshots verbunden sind, darunter:
- HDFS Snapshot-Erstellung
Dieser spezielle Befehl unterstützt auch die optionale benutzerdefinierte Namensgebung für den betreffenden Snapshot – ein standardisierter Name würde für den betreffenden Snapshot verwendet werden, wenn der benutzerdefinierte Name nicht erkannt wurde.
- Löschung von HDFS-Snapshots
Im Gegensatz zum vorherigen Befehl ist der Snapshot-Name in diesem Fall ein nicht-optionales Argument.
- Erlauben der Erstellung eines Snapshots für ein Verzeichnis
- Die Erstellung eines Snapshots für ein Verzeichnis verbieten
Natürlich gibt es noch andere Ansätze, mit denen die Daten von Hadoop auf die eine oder andere Weise gesichert werden können, wie z.B. Dual Load – der Ansatz zur Datenverwaltung, bei dem alle Informationen gleichzeitig in zwei verschiedene Cluster geladen werden. Solche Ansätze sind jedoch oft äußerst nuanciert und erfordern umfangreiche Kenntnisse auf diesem Gebiet (sowie jede Menge Ressourcen), um sie richtig durchzuführen.
Es sollte auch beachtet werden, dass die Sicherungs- und Wiederherstellungsvorgänge von HBase nicht mit den in diesem Artikel erwähnten Hadoop-Sicherungsmaßnahmen identisch sind – auch wenn HBase selbst auf HDFS (Teil von Hadoop) läuft. Die Sicherungs- und Wiederherstellungsvorgänge von HBase unterscheiden sich vollständig von den Sicherungs- und Wiederherstellungsmaßnahmen von Hadoop, mit anderen CLI-Befehlen, einem anderen Ansatz für die Erstellung von Sicherungskopien und mehr.
Methodik zur Ermittlung der besten Hadoop HDFS-Backup-Lösung
Drittanbieter von Backup-Lösungen können in Bezug auf die Sicherung von Hadoop-Daten eine ganze Menge bieten. Es gibt mehrere verschiedene Backup-Lösungen, die auf die eine oder andere Weise HDFS-Backup-Unterstützung bieten – aber die Wahl einer Lösung kann ziemlich knifflig sein. Glücklicherweise können wir Ihnen verschiedene Faktoren anbieten, die wir ausgewählt haben, um jede einzelne Lösung im Vergleich zu den anderen zu präsentieren.
Kundenbewertungen
Kundenbewertungen sind dazu da, die durchschnittliche Meinung über einen Gegenstand – in unserem Fall eine Backup-Lösung – zu repräsentieren. Wir haben Websites wie Capterra, TrustRadius und G2 genutzt, um diese Art von Informationen zu erhalten.
Capterra ist eine Plattform zur Sammlung von Bewertungen, die alle ihre Kunden gründlich überprüft, um die Authentizität der Bewertungen sicherzustellen. Die Plattform erlaubt es den Anbietern nicht, Kundenrezensionen zu entfernen. Die Gesamtzahl der Bewertungen bei Capterra beläuft sich inzwischen auf über 2 Millionen, wobei fast tausend verschiedene Kategorien zur Auswahl stehen.
TrustRadius ist eine Bewertungsplattform, die umfangreiche mehrstufige Prozesse anwendet, um sicherzustellen, dass jede Bewertung authentisch und echt ist. Außerdem gibt es ein eigenes internes Forschungsteam, das die Bewertungen durchgeht, damit sie detailliert und gründlich sind. Die Plattform erlaubt keine Manipulationen der Nutzerbewertungen von Seiten der Anbieter.
G2 ist eine bemerkenswerte Bewertungsplattform mit bisher über 2,4 Millionen Bewertungen. Sie verfügt über eine Bibliothek mit mehr als 100.000 Anbietern, aus der Sie wählen können, und über ein eigenes System zur Überprüfung von Bewertungen, um sicherzustellen, dass jede Bewertung echt und authentisch ist. G2 bietet außerdem eine Reihe weiterer Dienste an, darunter Tracking, Investitionen, Marketing und vieles mehr.
Schlüsselmerkmale und Vorteile/Nachteile
Dies ist eine ziemlich komplexe Kategorie, die sowohl die Funktionen als auch die Vor- und Nachteile der Lösung umfasst. In gewisser Weise sind sie relativ ähnlich, wobei einige der wichtigsten Merkmale einer durchschnittlichen Hadoop HDFS-Sicherung sind:
- Umfassende Skalierbarkeit aufgrund der schieren Menge an Daten, mit denen Hadoop-Implementierungen zu tun haben.
- Hohe Leistung der Backup-/Wiederherstellungsvorgänge, um schnelle Backups und schnelle Wiederherstellungen zu gewährleisten, wenn dies erforderlich ist.
- Flexibilität in Bezug auf die Datentypen, die gesichert werden können, seien es Namespaces, Deployments, Pods, Apps, usw.
- Snapshot-Konsistenz sollte in einer Hadoop-Lösung immer vorhanden sein, um das Risiko von Datenverlusten zu minimieren und die Wiederherstellung zu erleichtern.
- Detaillierte Analysen werden empfohlen, da sie die gesamte Backup-Verwaltung erheblich vereinfachen können, indem sie nützliche Erkenntnisse und andere Arten von Daten liefern.
Preisgestaltung
Der Preis ist einer der wichtigsten Faktoren bei einer Backup-Lösung – oder bei jeder Art von Produkt oder Dienstleistung. Speziell bei Backup-Lösungen (insbesondere bei Hadoop HDFS-Backup-Lösungen) kann der Preis für eine Vielzahl von Unternehmen der entscheidende Faktor sein. Das Ergebnis hängt stark von den aktuellen Bedürfnissen eines Kunden sowie von vielen anderen internen Faktoren ab. Es wird dringend empfohlen, den Preis der Lösung immer mit ihrem Funktionsumfang zu vergleichen, um das beste Preis-Leistungs-Verhältnis für Ihr Unternehmen zu gewährleisten.
Eine persönliche Meinung des Autors
Ein völlig subjektiver Teil der Methodik – die Meinung des Autors zum Thema (Hadoop HDFS-Backups). Diese Kategorie kann praktisch alles enthalten, von der persönlichen Meinung des Autors über das Thema bis hin zu einigen Informationen, die in anderen Teilen der Methodik vielleicht nicht erwähnt werden sollten.
Hadoop-Backup-Lösungen von Drittanbietern
Für Hadoop-Benutzer gibt es mehrere mögliche Backup-Optionen von Drittanbietern, darunter sowohl bekannte als auch weniger bekannte Backup-Lösungen.
Commvault
Commvault versucht, das derzeitige Feld der Datenverwaltung komplett zu verändern, indem es keine Form der Vor-Ort-Verwaltung erfordert, um das gesamte Datensicherungssystem zu kontrollieren. Es arbeitet als zentralisierte Plattform mit physischen und virtuellen Backups und bietet die Möglichkeit, jeden einzelnen Aspekt des Systems von einem einzigen Standort aus zu verwalten. Alle Funktionen von Commvault sind in einer zugänglichen und benutzerfreundlichen Oberfläche verpackt, die keinerlei unnötige Komplexität aufweist.
Die Unterstützung von Hadoop-Datensicherungen ist eine von vielen verschiedenen Funktionen, die Commvault anbieten kann. Sowohl HDFS- als auch HBase-Sicherungs- und Wiederherstellungsfunktionen sind im Gesamtpaket enthalten – mit drei verschiedenen Sicherungstypen (inkrementell, vollständig, synthetisch vollständig), Sicherungsplanungsfunktionen, granularer Datenwiederherstellung, mehreren Wiederherstellungszielen und so weiter.
Kundenbewertungen:
- Capterra – 4.8/5 Punkte mit 11 Kundenbewertungen
- TrustRadius – 8.0/10 Punkte mit 217 Kundenrezensionen
- G2 – 4.2/5 Punkte mit 112 Kundenrezensionen
Vorteile:
- Commvault stellt die Benutzerfreundlichkeit in den Vordergrund und sorgt dafür, dass routinemäßige Konfigurationsaufgaben mühelos ausgeführt werden können. Dieser intuitive Ansatz minimiert den Schulungsbedarf und maximiert die Produktivität, was zu einer reibungslosen Benutzererfahrung beiträgt.
- Die Skalierbarkeit von Commvault geht über das vertikale Wachstum hinaus; es lässt sich nahtlos horizontal skalieren, um den sich entwickelnden Anforderungen gerecht zu werden, indem es verschiedene Integrationen nutzt und eine breite Palette von Speichertypen unterstützt.
- Die Skalierbarkeit von Commvault ist ziemlich gut. Es passt sich gut an einige komplizierte und fortschrittliche IT-Infrastrukturen an und bietet umfassenden Datenschutz für Unternehmen jeder Größe. Es kann mit einigen Big Data-Frameworks wie Hadoop arbeiten.
Mängel:
- Detaillierte Berichterstellung scheint für viele Datensicherungslösungen für Unternehmen – auch für Commvault – eine recht häufige Herausforderung zu sein. Trotz spezifischer Integrationen, die ein verbessertes Berichtswesen bieten, sind die Mängel bei der Berichterstattung insgesamt offensichtlich.
- Auch wenn Commvault eine umfangreiche Unterstützung für Container, Hypervisoren und Datenbanken bietet, muss man anerkennen, dass eine universelle Kompatibilität schwer zu erreichen ist. Eine umfassende Bewertung der unterstützten Systeme wird vor der Einführung empfohlen.
- Kostenerwägungen sind besonders für kleine und mittelständische Unternehmen von Bedeutung, da die Preise von Commvault oft über dem Marktdurchschnitt liegen, was zu einer Belastung des Budgets führen kann. Vor einer Investition in Commvault ist eine sorgfältige Bewertung der finanziellen Auswirkungen unerlässlich.
Preisgestaltung (zum Zeitpunkt der Erstellung):
- Es gibt keine offiziellen Preisinformationen, die auf der Website von Commvault zu finden sind.
- Es gibt jedoch auch inoffizielle Informationen, die Preise von $3.400 bis $8.781 pro Monat für eine einzelne Hardware-Appliance anbieten.
Meine persönliche Meinung zu Commvault:
Die Vielseitigkeit von Commvault zeigt sich in der Unterstützung einer Vielzahl von Speicherlösungen, die sowohl physische als auch Cloud-Umgebungen umfassen. Unabhängig davon, ob Ihre Daten in einer traditionellen Infrastruktur vor Ort oder in den elastischen Weiten der Cloud gespeichert sind, Commvault gewährleistet Schutz und Zugriff. Die Vielseitigkeit von Commvault ist beeindruckend. Mit der Fähigkeit, HDFS-Backups auf verschiedene Arten zu erstellen, ist es ein großartiger Kandidat für diese Liste von Hadoop-Backup- und Wiederherstellungslösungen.
NetApp
Die globale Reichweite von NetApp mit über 150 Niederlassungen weltweit gewährleistet einen leicht zugänglichen lokalen Support, der jederzeit und überall schnelle Hilfe bietet. Dieses umfassende Netzwerk von Support Centern unterstreicht das Engagement von NetApp für die Zufriedenheit seiner Kunden. Eine zentrale Schnittstelle dient als Dreh- und Angelpunkt für die Datensicherung von NetApp und bietet eine einheitliche Plattform für die Überwachung, Planung und Protokollierung Ihrer Backup- und Recovery-Vorgänge.
Die Vielseitigkeit von NetApp zeigt sich in der Unterstützung eines breiten Spektrums von Datentypen, darunter Applikationen, Datenbanken, MS Exchange Server, virtuelle Maschinen und sogar Datenmanagement-Frameworks wie Hadoop. NetApp arbeitet mit dem bereits erwähnten DistCp zusammen, um gesicherte Daten zu erhalten – denn NetApp verwendet MapReduce, um seine eigene NFS-Freigabe als Backup-Zielspeicher für DistCp festzulegen und verhält sich damit ähnlich wie ein NFS-Treiber.
Kundenbewertungen:
- Capterra – 4.5/5 Punkte mit 8 Bewertungen
- TrustRadius – 9.2/10 Punkte mit 2 Bewertungen
- G2 – 3.8/5 Punkte mit 2 Bewertungen
Vorteile:
- Ein wesentlicher Teil des Klonvorgangs ist automatisiert, was ihn bemerkenswert benutzerfreundlich macht, da nur wenige komplexe Einstellungen oder Menüs zu bedienen sind – und dasselbe gilt auch für den Rest der Lösung.
- Besonders erwähnenswert sind die Remote-Backup-Funktionen der Lösung, die eine nahtlose Datensicherungsstrategie ermöglichen können.
- Die Unterstützung von HDFS-Backup- und -Wiederherstellungsaufgaben wird durch die Integration mit DistCp realisiert – das Einrichten eines Network File Systems von NetApp als Ziel für eine DistCp-Backup-Aufgabe.
Mängel:
- Trotz ihrer Stärken kann die Lösung durch eine beträchtliche Anzahl von Fehlern beeinträchtigt werden, die die Gesamtleistung beeinträchtigen können.
- Der Lösung fehlt die Möglichkeit der Fernwiederherstellung von Linux-Servern, was für einige Benutzer ein erheblicher Nachteil ist.
- Außerdem ist der Kundensupport etwas eingeschränkt, so dass sich die Benutzer stärker auf Selbstbedienungsressourcen verlassen müssen.
Preisgestaltung (zum Zeitpunkt der Erstellung):
- NetApp-Lösungen unterscheiden sich in der Regel drastisch in Preis und Funktionsumfang.
- Um Preisinformationen zu erhalten, müssen sich potenzielle Kunden direkt mit NetApp in Verbindung setzen und eine kostenlose Testversion oder Demo anfordern.
- Inoffiziellen Quellen zufolge beginnt die jährliche Abonnementgebühr von NetApp SnapCenter bei $1.410.
Meine persönliche Meinung zu NetApp:
NetApp bietet ein zentralisiertes Backup-Management, eine Vielzahl von Planungsoptionen, umfangreiche Backup-orientierte Funktionen und die Möglichkeit, mit einer Vielzahl von Storage-Typen zu arbeiten. Auf die mit der Lösung erstellten Backups kann von praktisch jedem Gerät aus zugegriffen werden, das mit einem Webbrowser ausgestattet ist, einschließlich Laptops und Mobiltelefonen. NetApp hebt sich von seinen Mitbewerbern dadurch ab, dass es ein globales Netzwerk von Niederlassungen anbietet, was wahrscheinlich zu einem lokalisierten Support für Unternehmen in bestimmten Regionen beitragen wird. Es ist wichtig zu wissen, dass keine einzelne Lösung als Beschreibung für die Hadoop-Backup-Funktionen von NetApp gewählt wurde, da diese spezielle Funktion eine Reihe von NetApp Technologien nutzt, die nicht alle an eine einzige Lösung gebunden sind.
Veritas NetBackup
Veritas ist eine feste Größe im Bereich der Datensicherung und kann auf eine lange Tradition in der Backup- und Recovery-Branche zurückblicken. Veritas bietet Lösungen für Information Governance, Multi-Cloud-Datenmanagement, Backup und Wiederherstellung und vieles mehr. Darüber hinaus ermöglicht sein flexibles Bereitstellungsmodell den Kunden, ihre Datensicherungsstrategien an ihre individuellen Anforderungen anzupassen. Veritas bietet die Wahl zwischen einer Hardware-Appliance für eine nahtlose Integration oder einer Software, die auf der eigenen Hardware des Kunden installiert werden kann, um maximale Flexibilität und Kontrolle zu gewährleisten.
Veritas NetBackup kann auch Hadoop-Backup-Operationen mit seinem agentenlosen Plugin anbieten, das eine Vielzahl von Funktionen bietet. Dieses Plugin bietet sowohl vollständige als auch inkrementelle Backups und ermöglicht die Erstellung von Point-in-Time-Datenkopien im Handumdrehen. Auch bei der Wiederherstellung der Daten gibt es nur wenige Einschränkungen – ein Administrator kann den Wiederherstellungsort wählen, und das Plugin unterstützt bei Bedarf auch eine granulare Wiederherstellung.
Kundenrezensionen:
- Capterra – 4.1/5 Punkte mit 8 Bewertungen
- TrustRadius – 6.3/10 Punkte mit 159 Bewertungen
- G2 – 4.1/5 Punkte mit 234 Bewertungen
Vorteile:
- Die Gesamtzahl der Funktionen, die Veritas anbieten kann, ist im Vergleich zu anderen Anbietern auf dem Markt für Datensicherung und -wiederherstellung groß.
- Anwender loben die benutzerfreundliche Oberfläche der Lösung, die den umfassenden Funktionsumfang effektiv präsentiert, ohne die Zugänglichkeit zu beeinträchtigen.
- Der Kundensupport von Veritas schneidet hinsichtlich seiner Effizienz und Reaktionsschnelligkeit recht gut ab.
- Die allgemeine Vielseitigkeit der Lösung ist ein weiteres lobenswertes Argument, da die Software mit allen Arten von Umgebungen arbeiten kann, einschließlich Hadoop (über ein separates Plugin für NetBackup).
Mängel:
- Trotz der Tatsache, dass es sich bei Veritas um eine Lösung der Unternehmensklasse handelt, ist die Automatisierungsfähigkeit in bestimmten Bereichen unzureichend.
- Darüber hinaus kann der Preis im Vergleich zu einigen seiner Konkurrenten als teuer angesehen werden.
- Es gibt keine Möglichkeit, Backup-Berichte an einem benutzerdefinierten Ort zu speichern, und die Berichtsfunktionen von Veritas sind insgesamt recht starr.
- Die Integration von Bandbibliotheksfunktionen wird durch bestehende ungelöste Probleme behindert.
Preisgestaltung (zum Zeitpunkt der Erstellung):
- Veritas verzichtet auf seiner offiziellen Website absichtlich auf spezifische Preisinformationen und setzt stattdessen auf einen personalisierten Ansatz.
- Potenzielle Kunden müssen sich direkt mit Veritas in Verbindung setzen, um Preisinformationen zu erhalten, die auf ihre spezifischen Anforderungen und Einsatzbedürfnisse abgestimmt sind.
- Diese individualisierte Strategie ermöglicht es Veritas, seine Angebote sorgfältig zusammenzustellen und so sicherzustellen, dass sie perfekt zu den einzigartigen Umständen und Präferenzen jedes Kunden passen.
Meine persönliche Meinung zu Veritas:
Veritas ist ein altehrwürdiges und vertrauenswürdiges Unternehmen im Bereich der Datenverwaltung und Datensicherungslösungen. Mit seiner jahrzehntelangen Erfolgsgeschichte hat sich Veritas einen Namen als bevorzugter Anbieter von Datensicherungslösungen gemacht, insbesondere in Branchen, die großen Wert auf die lange Geschichte und das umfassende Portfolio eines Unternehmens legen. Veritas ist für seine Leistung bekannt und bietet eine Vielzahl von Backup-Lösungen und Funktionen, die durch eine Benutzeroberfläche ergänzt werden, die ein breites Spektrum von Benutzern anspricht. Es kann sogar komplexe Strukturen wie Hadoop unterstützen, einschließlich SSL-Unterstützung und Unterstützung der Kerberos-Authentifizierung.
Dell PowerProtect DD
PowerProtect DD ist eine umfassende Datensicherungs- und Speicherlösung, die Funktionen für Backup, Disaster Recovery und Datendeduplizierung umfasst. Das modulare Design richtet sich an Unternehmen aller Größen und macht es zu einer Lösung, die für eine Vielzahl von Anwendungsfällen geeignet ist. Es sind Appliances für alle Unternehmenstypen erhältlich, vom Einsteiger bis zum Großunternehmen, mit einer logischen Kapazität von bis zu 150 Petabyte und einem Durchsatz von etwa 68 Terabyte pro Stunde.
PowerProtect DD lässt sich über einen speziellen Treiber, DDHCFS, nahtlos in Hadoop-Umgebungen integrieren und bietet umfassenden Datenschutz und eine Reihe weiterer Vorteile. Die Lösung selbst erfordert nur eine geringe oder gar keine vorherige Konfiguration und nutzt eine Kombination aus ihrer eigenen Technologie (DD Boost, für eine schnellere Datenübertragung) und den Datenreplikations-/Snapshot-Funktionen von Hadoop, um Backups zu erstellen und zu übertragen, die in der PowerProtect DD Appliance gespeichert werden.
Kundenstimmen:
- TrustRadius – 8.0/10 Punkte mit 44 Kundenbewertungen
Vorteile:
- Einige Kunden loben die Zuverlässigkeit des Geräts, das rund um die Uhr arbeiten kann und jederzeit erreichbar ist.
- Die erstmalige Installation scheint relativ einfach zu sein.
- Es gibt viele verschiedene Frameworks und Speichertypen, die unterstützt werden – einige haben sogar eigene Treiber, wie z.B. Hadoop, und bieten eine große Auswahl an Funktionen, kombiniert mit einer mühelosen Konfiguration.
Mängel:
- Die meisten Angebote scheinen im Vergleich zu einem durchschnittlichen Marktpreis recht teuer zu sein.
- Die Geschwindigkeit der Datenwiederherstellung aus einer tatsächlichen Appliance scheint relativ langsam zu sein. Dies könnte bei großen Datenmengen untragbar werden.
- Die Lösung zur Verwaltung der Hardware bewegt sich zwar in einem akzeptablen Rahmen, scheint aber etwas einfach strukturiert zu sein.
Preisgestaltung:
- Für die meisten Produkte von Dell EMC gibt es auf der offiziellen Website keine offiziellen Preisinformationen, und die PowerProtect DD Appliances bilden da keine Ausnahme.
Meine persönliche Meinung zu Dell:
PowerProtect DD unterscheidet sich ein wenig von den übrigen Optionen von Drittanbietern, vor allem weil es sich um eine physische Hardware handelt und nicht um eine virtuelle Software oder Plattform. Es handelt sich um eine umfassende Datensicherungs- und Speicherlösung, die Funktionen für Backup, Disaster Recovery und Datendeduplizierung umfasst. Sie eignet sich sowohl für große Unternehmen als auch für kleine Firmen, falls erforderlich. Es verfügt sogar über einen speziellen Treiber für Hadoop Disaster Recovery-Aufgaben namens DDHCFS – DD Hadoop Compatible File System, der neben vielen anderen Vorteilen auch einen umfassenden Datenschutz bietet.
Cloudera
Cloudera ist ein amerikanisches Softwareunternehmen, das sich auf die Verwaltung und Analyse von Unternehmensdaten spezialisiert hat. Das Flaggschiff des Unternehmens ist die einzige Cloud-native Plattform, die speziell für den nahtlosen Betrieb bei allen großen öffentlichen Cloud-Anbietern und in privaten Cloud-Umgebungen vor Ort entwickelt wurde. Die Plattform von Cloudera wurde für Unternehmen entwickelt, die nach neuen Möglichkeiten suchen, ihre umfangreichen Datenbestände zu verwalten, Erkenntnisse zu gewinnen und anschließend fundierte Entscheidungen zu treffen.
Diese Verwaltungsplattform ist keineswegs auf Backup und Recovery ausgerichtet und bietet auch keine traditionelle Backup-Lösung. Hadoop ist jedoch das Kerngerüst für Cloudera als Ganzes, weshalb es einige HDFS-Disaster-Recovery-Funktionen bieten kann, indem es die Möglichkeit bietet, Daten von einem Cluster auf einen anderen zu replizieren. Die Backup-Funktionen von Cloudera sind für sich genommen nicht besonders umfangreich, aber sie bieten eine Reihe nützlicher Funktionen zusätzlich zu den grundlegenden DistCp-ähnlichen Fähigkeiten – wie z.B. Zeitplanung, Datenüberprüfung und so weiter. Es handelt sich dabei um einen recht komplexen Prozess, aber Cloudera bietet eine Schritt-für-Schritt-Anleitung zu genau diesem Thema an, die die Durchführung erheblich erleichtert.
Kundenbewertungen:
- G2 – 4.0/5 Punkte mit 38 Kundenbewertungen
Vorteile:
- Der Kundensupport ist schnell und effizient und bietet umfassende Kenntnisse über die Möglichkeiten der Lösung.
- Eine große Community rund um die Lösung macht es einfacher, online Antworten auf verschiedene Fragen zu finden, einschließlich einiger der unkonventionelleren Funktionen der Software.
- Die Lösung lässt sich extrem gut skalieren, so dass sie für kleine Unternehmen, große Unternehmen und alles dazwischen geeignet ist.
Mängel:
- Die Gesamtkosten der Lösung sind recht hoch, und das günstigste Angebot ist für die meisten kleinen Unternehmen immer noch recht teuer.
- Die Dokumentation der Lösung ist eher dürftig und lässt viele Themen und Funktionen für den durchschnittlichen Benutzer unerklärt.
- Die Benutzeroberfläche der Lösung wird nicht sehr gelobt, viele Benutzer halten sie für starr und wenig reaktionsschnell.
Preisgestaltung:
- Es gibt keine offiziellen Preisinformationen auf der Cloudera Website.
- Kontaktinformationen und das Formular für Demoanfragen sind die einzigen Dinge, die öffentlich erworben werden können.
Meine persönliche Meinung zu Cloudera:
Technisch gesehen ist Cloudera an sich keine Backup-Lösung – es handelt sich um eine Plattform für die Verwaltung von Unternehmensdaten. Allerdings nutzt diese Plattform Hadoop als Hauptframework, und es gibt Funktionen zur Datenspeicherung, die im Paket enthalten sind – auch wenn sie größtenteils die Funktionen von DistCp kopieren. Glücklicherweise kann Cloudera Zeitpläne für die Datenreplikation und sogar Zeitpläne für die Wiederherstellung von Daten für potenziell problematische datenbezogene Ereignisse in der Zukunft erstellen. Nichtsdestotrotz fehlen viele Funktionen, die echte Backup- und Wiederherstellungsvorgänge bestenfalls eingeschränkt ermöglichen, was in einigen Unternehmen zu potenziellen Schwierigkeiten bei der Geschäftskontinuität, der Einhaltung von Vorschriften und dem effizienten Betrieb führt.
Hadoop HDFS-Backups und Bacula Enterprise
Bacula Enterprise ist eine hochsichere, skalierbare Backup-Lösung, die ihre flexiblen Fähigkeiten über ein System von Modulen anbietet. Es gibt ein separates HDFS-Backup-Modul, das eine effiziente Sicherung und Wiederherstellung von HDFS-Clustern mit mehreren Backup-Typen (inkrementell, differenziell, vollständig) und einer automatischen Snapshot-Verwaltung bietet.
Das Modul ist in der Lage, Daten auf der Grundlage ihres Erstellungsdatums zu filtern, was die Arbeit für den Endbenutzer äußerst bequem macht. Darüber hinaus bietet es eine Vielzahl weiterer Backup-Funktionen sowie nahezu völlige Freiheit bei der Wahl des Wiederherstellungsverzeichnisses für HDFS-Backups.
Die Funktionsweise dieses Moduls ist ebenfalls einfach – ein Backup-Vorgang veranlasst eine Verbindung zwischen einem Hadoop FS und einem Hadoop-Modul, um einen Schnappschuss des Systems zu erstellen, bevor dieser an den Bacula File Daemon gesendet wird. Das vollständige Backup muss nicht auf frühere Snapshots zugreifen, während sowohl differenzielle als auch inkrementelle Backups dies tun müssen, um Unterschiede zwischen dem letzten und dem aktuellen Snapshot zu berücksichtigen.
Hinzu kommt, dass Bacula Enterprise über ein vorteilhaftes Abonnement-Lizenzmodell vertrieben wird, das keine Begrenzung des Datenvolumens kennt. Dies ist ein enormer Vorteil im Zusammenhang mit Hadoop, da die meisten Hadoop-Implementierungen riesige Datenpools sind und die Sicherung dieser Art von Implementierungen den Preis bei anderen Lösungen stark in die Höhe treibt – nicht aber bei Bacula.
Viele andere Unternehmensfunktionen von Bacula sind auch auf gesicherte Hadoop-Daten anwendbar. Bacula Enterprise ist eine außergewöhnliche und vielseitige Lösung, die sich für viele verschiedene Anwendungsfälle eignet, einschließlich HPC, die häufig HDFS verwenden,
Die gesamte Architektur von Bacula ist modular und anpassbar, so dass sich die Lösung leicht an verschiedene IT-Umgebungen anpassen lässt – unabhängig von deren Größe. Die Unterstützung für verteilte Infrastrukturen mit Lastausgleich über mehrere Bacula Director Server hilft, Überlastungen in Zeiten hoher Belastung zu vermeiden. Generell hat Bacula eine Erfolgsbilanz bei der Arbeit mit großen Datenspeichern ohne große Probleme – eine außerordentlich nützliche Eigenschaft, die zu seiner Effizienz bei Hadoop-Einsätzen beiträgt. Bacula ist auch in der Lage, Teil einer umfassenden Disaster Recovery-Strategie zu sein. Dies sind nur einige der Gründe, warum Bacula von den größten Militär- und Verteidigungsorganisationen der Welt, Banken, der NASA und den US National Laboratories eingesetzt wird.
Fazit
Hadoop ist ein wichtiges Framework, vor allem weil so viele Unternehmen auf große Datenpools angewiesen sind, um unter anderem ML- und KI-Aufgaben durchzuführen. Die Nutzung von „Big Data“ hat zugenommen und die Anwendungen dafür sind zu anspruchsvollen, hochwertigen Geschäftslösungen herangereift. In gleichem Maße entwickelt sich die Nachfrage nach Frameworks, die dies ergänzen.
Mit neuen Datenstrukturen und Frameworks entstehen jedoch auch neue Probleme – denn die bestehenden Datensicherheitsprotokolle und -maßnahmen sind nicht immer mit Hadoop-Systemen kompatibel. Glücklicherweise verfügt Hadoop über eigene Funktionen für Datenreplikation und Snapshotting – und es gibt auch mehrere Backup-Lösungen und -Plattformen von Drittanbietern, die Hadoop-Backup-Funktionen anbieten können.
Lösungen wie Bacula oder Veritas eignen sich hervorragend für Unternehmen, die nach einer „All-in-One“-Lösung suchen, die Hadoop-Implementierungen abdeckt und gleichzeitig eine breite Palette verschiedener Daten und Anwendungstypen innerhalb derselben Infrastruktur schützt, um einen einheitlichen Schutz zu erreichen. Cloudera oder sogar einige der eingebauten Methoden können für einige Unternehmen mit einfachen Backup- und Wiederherstellungsanforderungen funktionieren, da sie eine etwas fokussierte Lösung für ein enges Problem bieten, aber mit sehr begrenzten Fähigkeiten außerhalb der HDFS- und HBase-Abdeckung.
HDFS- und HBase-Daten können bis zu einem gewissen Grad mit verschiedenen Methoden und Ansätzen innerhalb von Verwaltungslösungen wie Cloudera geschützt werden. Wenn jedoch ein Backup und eine Wiederherstellung in irgendeiner Form erforderlich sind, dann werden spezialisierte Lösungen wie Bacula benötigt, um den erforderlichen Service zu bieten.