Principale > Blog sul backup e sul ripristino > Strategie e guida per il backup e il ripristino di emergenza di Hadoop HDFS

Strategie e guida per il backup e il ripristino di emergenza di Hadoop HDFS

Aggiornato 22nd Dicembre 2023, Rob Morrison

Contents

Definizione di Hadoop
HBase
Hadoop e la sicurezza dei dati
Le idee sbagliate su Hadoop quando si parla di protezione dei dati
Cosa ci si aspetta da una moderna soluzione di protezione dei dati Hadoop?
Strumenti e misure di backup Hadoop integrati
Metodologia per individuare la migliore soluzione di backup Hadoop HDFS
Soluzioni di backup Hadoop di terze parti
I backup di Hadoop HDFS e Bacula Enterprise
Conclusione

Definizione di Hadoop

Hadoop è stato originariamente creato per lavorare con enormi insiemi di dati, qualcosa che viene comunemente definito “big data”. Si tratta di un framework software di natura open-source, in grado di archiviare ed elaborare volumi di dati enormi. Progettato tenendo conto di un’ampia scalabilità, Hadoop offre un’elevata disponibilità, tolleranza ai guasti e la capacità di gestire petabyte di dati.

Hadoop è composto da quattro componenti principali:

Yet Another Resource Negotiator, o YARN. Si tratta di un framework di gestione delle risorse che supervisiona l’allocazione delle risorse computazionali (CPU, memoria e storage) alle applicazioni in esecuzione sul cluster Hadoop. Semplifica l’allocazione e la programmazione delle risorse, rendendo più gestibile la gestione e la scalabilità delle applicazioni Hadoop.
MapReduce. Si tratta di un modello di programmazione che facilita l’elaborazione di grandi insiemi di dati su cluster distribuiti. I dati in questione vengono elaborati da più nodi del cluster contemporaneamente, dopo essere stati separati in parti più piccole. I risultati dell’elaborazione vengono poi combinati per generare l’output finale.
ZooKeeper. È un servizio di coordinamento distribuito che fornisce un registro centralizzato per la denominazione, la configurazione e la sincronizzazione tra i nodi del cluster Hadoop. L’obiettivo principale di ZooKeeper è garantire che lo stato del sistema sia sempre coerente, monitorando ogni singolo nodo del cluster.
Hadoop Distributed File System, o HDFS. Come suggerisce il nome, è un file system progettato specificamente per lavorare con grandi volumi di dati separati in cluster e nodi. Suddivide i dati su più nodi, replicando i blocchi di dati per la tolleranza ai guasti.

La scalabilità e la flessibilità di Hadoop lo rendono una scelta convincente per le organizzazioni che gestiscono enormi quantità di dati. La sua capacità di archiviare, elaborare e analizzare grandi insiemi di dati in modo efficiente lo ha reso una pietra miliare della moderna infrastruttura di dati. Hadoop ha molti casi d’uso potenziali, tra cui, ma non solo, i seguenti:

Facilitare la creazione di data warehouse per l’archiviazione e l’analisi di enormi volumi di dati in una struttura specifica.
Offrire un’inestimabile capacità di ricevere intuizioni, tendenze e modelli dall’analisi di questi volumi di dati.
Generando laghi di dati – depositi per enormi quantità di dati non elaborati.
Consentire la formazione e l’implementazione di modelli di apprendimento automatico su grandi insiemi di dati.
Raccolta, analisi e archiviazione di grandi volumi di log da siti web, applicazioni e server.

HBase

Hadoop è un framework interessante, ma il suo scopo principale resta l’archiviazione dei dati per scopi specifici. La maggior parte degli utenti ricorre all’utilizzo di HBase per interagire con tutti quei dati in modo significativo. Apache HBase è un tipo di database distribuito con base NoSQL, creato per lavorare con insiemi di dati enormi – proprio come Hadoop. HBase è un’offerta open-source che si integra con Apache Hadoop e il suo intero ecosistema. Può lavorare sia con EMRFS (la variante di Amazon S3 di MapReduce) che con HDFS (il file system di Hadoop).

HBase utilizza Apache Phoenix per consentire l’applicazione di query di tipo SQL alle tabelle HBase, elaborando al contempo tutti i comandi da e verso il framework MapReduce. È scalabile, veloce e tollerante a molti errori, grazie alla sua struttura che copia molto l’approccio di Hadoop: i dati sono distribuiti su più host in un cluster, in modo che nessun guasto di un singolo host possa far crollare l’intero sistema.

L’introduzione a HBase è importante in questo contesto, poiché Hadoop e HBase sono spesso utilizzati in tandem per molti casi d’uso e tipi di progetto diversi.

Allo stesso tempo, i metodi di backup e ripristino di HBase sono diversi da quelli utilizzati da Hadoop – è un aspetto che approfondiremo in seguito.

Hadoop e la sicurezza dei dati

Hadoop ha attraversato una fase di popolarità piuttosto spontanea negli ultimi anni, soprattutto nel contesto dell’introduzione dell’AI e del ML sotto forma di chatbot e LLM (Large Language Model) come ChatGPT, che vengono insegnati utilizzando enormi pool di dati.

Allo stesso tempo, il tema della sicurezza di Hadoop nel suo complesso è stato piuttosto problematico per un po’ di tempo. Le ragioni di questo problema sono diverse, tra cui le dimensioni medie dei dati (che contano soprattutto petabyte ed exabyte), la scalabilità generale della soluzione (che rende praticamente impossibile implementare qualcosa che funzioni per qualsiasi forma e dimensione di dati), nonché la funzione di replica dei dati inclusa.

La replica dei dati è l’alternativa originale di Hadoop ai backup dei dati: crea 3 copie di ogni blocco di dati per impostazione predefinita, il che fa pensare ad alcuni utenti che non ci sia bisogno di una soluzione di backup. Ciò che manca a questo approccio è la comprensione del fatto che le capacità di Hadoop funzionano solo per i tradizionali pool di dati non strutturati nei magazzini e simili.

Quindi, quando si tratta di modelli ML, dati IoT, dati dei social media e altri tipi di dati che differiscono dai soliti laghi di dati per cui Hadoop è conosciuto, potrebbe offrire una scarsa protezione per questi dati, creando un enorme problema di sicurezza per i suoi utenti.

C’è anche il problema dell’accessibilità: i dati replicati da Hadoop non vengono archiviati separatamente dall’originale, rendendoli vulnerabili ai problemi e alle violazioni dei dati proprio come il set di dati originale. Per questo motivo, c’è una richiesta di misure di backup di Hadoop, sia integrate che di terze parti.

Tuttavia, prima di passare ai backup di Hadoop nello specifico, è importante parlare un po’ di più di Hadoop nel contesto della protezione dei dati.

Le idee sbagliate su Hadoop quando si parla di protezione dei dati

L’adozione diffusa di Hadoop nelle aziende ha portato alla proliferazione di meccanismi di backup e ripristino di Hadoop di base, implementati in modo frettoloso. Queste soluzioni rudimentali, spesso fornite in bundle con le distribuzioni Hadoop o messe insieme dai team di sviluppo interni, possono sembrare funzionali a prima vista, ma comportano rischi significativi per l’integrità dei dati e la resilienza organizzativa, soprattutto quando i sistemi crescono in dimensioni e complessità.

I tempi di inattività o la perdita di dati che ne derivano, a causa di recuperi falliti durante un disastro, possono avere gravi ripercussioni per le aziende, macchiando la reputazione, aumentando i costi e ostacolando gli sforzi di time-to-market. La maggior parte degli svantaggi di questo approccio può essere spiegata esaminando alcune delle principali idee sbagliate che Hadoop ha in termini di protezione dei dati.

Misconoscimento #1 – L’utilizzo di snapshot HDFS è una strategia di protezione dei dati valida

Il Distributed File System di Hadoop utilizza gli snapshot per generare copie point-in-time di singoli file o di intere directory. Ci sono molte limitazioni in questo approccio alla protezione dei dati:

Recuperare i dati dalle snapshot di HDFS è un processo macchinoso, che richiede la localizzazione manuale dei file, la ricostruzione dello schema e il recupero dei file di dati.
Le snapshot HDFS operano a livello di file, rendendole inefficaci per database come Hive e HBase, in quanto le definizioni di schema associate non vengono catturate nei backup.
Mentre è possibile eseguire e archiviare snapshot multipli del sistema, ogni singolo snapshot aumenta i requisiti complessivi del cluster in termini di archiviazione, il che potrebbe rivelarsi un problema enorme in futuro.
Dal momento che le istantanee risiedono sugli stessi nodi dei dati che proteggono, un guasto al nodo o al disco può causare la perdita sia delle istantanee che dei dati protetti.

Misconoscimento #2 – Le distribuzioni commerciali di Hadoop offrono funzionalità di backup sufficienti

Le distribuzioni commerciali di Hadoop spesso includono strumenti di backup integrati. Questi strumenti, pur offrendo un livello base di funzionalità di backup, potrebbero non essere in linea con i rigorosi RPO e RTO di un’organizzazione. In sostanza, questi strumenti fungono da interfaccia utente per gli snapshot HDFS, ereditando tutte le limitazioni associate agli snapshot HDFS discusse in precedenza. Inoltre, questi strumenti generalmente non dispongono di meccanismi di recupero facili da usare, lasciando il recupero dei dati un processo manuale e soggetto a errori.

Misconoscimento #3 – Le repliche del file system sono una misura di protezione dei dati sufficiente per Hadoop

Mentre le repliche salvaguardano efficacemente i dati contro i guasti hardware, come le interruzioni dei nodi o i malfunzionamenti delle unità disco, sono insufficienti per proteggere gli scenari più frequenti di corruzione dei dati. Gli errori dell’utente, come la cancellazione accidentale di tabelle in Hive, e i bug delle applicazioni possono portare alla corruzione dei dati, rendendo le repliche inefficaci nel ripristinare l’integrità dei dati.

Misconoscimento #4 – Gli script personalizzati per Hadoop sono adatti per attività di backup e ripristino a lungo termine

I team di sviluppo interni di molte organizzazioni ricorrono spesso allo sviluppo di script personalizzati per il backup dei database Hive e HBase, nonché dei file HDFS. Questo approccio comporta in genere la necessità di dedicare diversi mesi umani alla scrittura e al test degli script, per garantirne la funzionalità in tutti gli scenari.

Purtroppo, questo approccio nel suo complesso è estremamente difficile da mantenere, in quanto gli script personalizzati devono essere aggiornati e rivisti regolarmente, sia a causa degli aggiornamenti di Hadoop che per altri motivi. Analogamente agli snapshot, gli script si concentrano principalmente sulla replica dei dati e mancano di meccanismi di recupero automatizzati. Di conseguenza, il recupero dei dati rimane un processo manuale e soggetto a errori.

Inoltre, l’assenza di test regolari può portare alla perdita di dati, soprattutto quando il team responsabile dello sviluppo dello script non è più disponibile.

Cosa ci si aspetta da una moderna soluzione di protezione dei dati Hadoop?

Le strategie di recupero dei dati sono qualcosa a cui ogni ambiente basato su Hadoop deve pensare prima o poi. Una strategia di backup e ripristino Hadoop completa e ben definita è essenziale per garantire un ripristino dei dati affidabile e rapido, riducendo al minimo il carico sulle risorse di ingegneria e sviluppo.

Una moderna soluzione di protezione dei dati Hadoop deve essere in grado di bilanciare tra un complesso scripting personalizzato e sofisticate funzionalità di backup dei dati. Deve funzionare in modo autonomo, eliminando la necessità di risorse dedicate e richiedendo una minima esperienza in Hadoop. Inoltre, deve essere eccezionalmente affidabile e scalabile per gestire efficacemente petabyte di dati, soddisfacendo i severi requisiti di conformità interna per gli obiettivi dei punti di ripristino e dei tempi di ripristino.

Inoltre, la soluzione in questione deve fornire una protezione completa contro il ransomware, garantendo l’integrità dei dati di fronte ad attacchi dannosi. L’integrazione dello storage nel cloud è un’altra caratteristica cruciale, che consente l’ottimizzazione dei costi e l’archiviazione flessibile dei dati. La soluzione deve anche conservare copie multiple point-in-time dei dati per un recupero granulare, garantendo la disponibilità dei dati storici quando necessario.

Inoltre, un moderno software di backup e ripristino Hadoop deve dare priorità all’efficienza del ripristino, impiegando una consapevolezza intelligente dei dati per deduplicare i formati di big data e semplificare i processi di ripristino. Sfruttando le tecnologie avanzate e l’automazione, una soluzione di questo tipo può salvaguardare le risorse di dati critici e ridurre al minimo l’impatto della perdita o della corruzione dei dati.

Strumenti e misure di backup Hadoop integrati

Come abbiamo detto in precedenza, Hadoop non offre alcun modo per eseguire un backup dei dati “tradizionale”, per una serie di motivi. Uno dei motivi principali è l’enorme quantità di dati con cui Hadoop opera di solito: petabyte ed exabyte di informazioni non strutturate in una struttura molto insolita.

Fortunatamente, questo non significa che Hadoop sia completamente indifeso. La sua stessa struttura di dati con la replica 3x per impostazione predefinita lo rende relativamente sicuro contro l’interruzione di piccole parti del cluster, poiché i dati stessi sono archiviati in più posizioni contemporaneamente.

La suddetta replica dei dati è uno dei motivi principali per cui non tutti gli utenti di Hadoop si preoccupano di adottare misure di backup, dimenticando completamente che la replica da sola non può proteggere dalla perdita del cluster o da altri problemi su larga scala come i disastri naturali.

DistCp

Parlando di replica dei dati, esiste anche uno strumento di replica manuale dei dati con cui molti utenti di Hadoop lavorano: DistCp, o Copia distribuita. Si tratta di uno strumento CLI relativamente semplice che offre la possibilità di replicare i dati da un cluster all’altro, creando una sorta di “backup” che agisce come un’ulteriore salvaguardia contro la potenziale perdita di dati.

DistCp può essere utilizzato per eseguire la copia dei cluster con un comando relativamente semplice:

bash$ hadoop distcp2 hdfs://fns1:8020/path/loc hdfs://fns2:8020/loc/parth

Il comando in questione individua il namenode fns1 con lo spazio dei nomi sotto /path/loc e lo espande in un file temporaneo. Il contenuto della directory viene quindi suddiviso tra una serie di compiti di mappatura prima di iniziare il processo di copia, utilizzando il cluster fns2 e la posizione /loc/path come destinazione finale.

Va notato che esistono due versioni comunemente utilizzate di DistCp: la versione originale/legacy e la “seconda” versione chiamata DistCp2. Ci sono due grandi differenze tra queste versioni di strumenti:

La versione legacy di DistCp non era in grado di creare directory radice vuote nella cartella di destinazione, ma DistCp2 può farlo benissimo.
La versione legacy di DistCp non aggiornava gli attributi dei file che erano stati saltati durante il processo di copia – questo non è il caso di DistCp2, in quanto aggiorna tutti i valori, come le autorizzazioni e le informazioni sul gruppo proprietario, anche se il file in questione non è stato copiato.

HDFS Snapshot

L’alternativa alla replica dei dati per Hadoop, per quanto riguarda le misure integrate, è lo snapshot. Le snapshot di HDFS sono copie point-in-time dei dati con uno stato di sola lettura che sono veloci ed efficienti – ma non senza i loro rischi.

La creazione di snapshot è istantanea e non influisce sulle operazioni regolari di HDFS, poiché l’ordine cronologico inverso viene utilizzato per registrare le modifiche dei dati. Gli snapshot stessi richiedono memoria aggiuntiva solo quando vengono apportate modifiche relative ad un’istantanea. Inoltre, la funzione Snapshot non copia i blocchi nei nodi dati – gli unici dati che vengono registrati sono la dimensione del file e l’elenco dei blocchi.

Ci sono alcuni comandi di base che sono associati alla creazione di Snapshot di HDFS, tra cui:

Creazione di Snapshot HDFS

hdfs dfs -createSnapshot hdfs://fns1:8020/path/loc

Questo comando specifico supporta anche una denominazione personalizzata opzionale per lo snapshot in questione – se il nome personalizzato non è stato rilevato, verrà utilizzato un nome standardizzato per lo snapshot in questione.

Cancellazione snapshot HDFS

hdfs dfs -deleteSnapshot hdfs://fns1:8020/path/loc snapshot2023

A differenza del comando precedente, in questo caso il nome dello snapshot è un argomento non opzionale.

Permettere la creazione di uno Snapshot per una directory

hdfs dfs -allowSnapshot hdfs://fns1:8020/path/loc

Disabilita la creazione di uno Snapshot per una directory

hdfs dfs -disallowSnapshot hdfs://fns1:8020/path/loc

Naturalmente, esistono altri approcci che possono essere utilizzati per salvaguardare i dati di Hadoop in un modo o nell’altro, come il doppio carico – l’approccio di gestione dei dati che carica tutte le informazioni su due cluster diversi contemporaneamente. Tuttavia, tali approcci sono spesso estremamente sfumati e richiedono una conoscenza approfondita dell’argomento (oltre a molte risorse) per essere eseguiti correttamente.

Va inoltre notato che le operazioni di backup e ripristino di HBase non sono identiche alle misure di backup di Hadoop menzionate in questo articolo – anche se HBase stesso gira in cima a HDFS (parte di Hadoop). Le operazioni di backup e ripristino di HBase sono completamente diverse dalle misure di backup e ripristino di Hadoop, con comandi CLI diversi, un approccio diverso alla creazione di backup e altro ancora.

Metodologia per individuare la migliore soluzione di backup Hadoop HDFS

I fornitori di soluzioni di backup di terze parti possono offrire molto in termini di backup dei dati Hadoop. Esistono diverse soluzioni di backup che offrono supporto per il backup di HDFS in un modo o nell’altro – ma scegliere una soluzione può essere piuttosto complicato. Fortunatamente, possiamo offrire diversi fattori che abbiamo scelto per mostrare ogni singola soluzione rispetto alle altre.

Valutazione dei clienti

Le valutazioni dei clienti esistono per rappresentare l’opinione media sull’argomento – una soluzione di backup, nel nostro caso. Abbiamo utilizzato siti come Capterra, TrustRadius e G2 per ricevere questo tipo di informazioni.

Capterra è una piattaforma aggregatrice di recensioni che utilizza controlli approfonditi su tutti i suoi clienti per garantire l’autenticità delle recensioni. Non consente ai venditori di rimuovere in alcun modo le recensioni dei clienti. Il numero complessivo di recensioni di Capterra supera i 2 milioni, con quasi mille categorie diverse tra cui scegliere.

TrustRadius è una piattaforma di recensioni che utilizza ampi processi in più fasi per assicurarsi che ogni recensione sia autentica e reale, e c’è anche un team di ricerca interno separato che esamina le recensioni affinché siano dettagliate e approfondite. La piattaforma non consente alcun tipo di manomissione delle recensioni degli utenti da parte del venditore.

G2 è una notevole piattaforma di recensioni con oltre 2,4 milioni di recensioni ad oggi. Dispone di una libreria di oltre 100.000 venditori tra cui scegliere e di un proprio sistema di convalida delle recensioni per assicurarsi che ogni recensione sia reale e autentica. G2 offre anche una serie di altri servizi tra cui scegliere, tra cui il monitoraggio, gli investimenti, il marketing e altro ancora.

Caratteristiche principali e vantaggi/svantaggi

Si tratta di una categoria piuttosto complessa, che comprende sia le caratteristiche che i vantaggi/svantaggi della soluzione. In un certo senso, sono relativamente simili, con alcune delle caratteristiche chiave più importanti di un backup Hadoop HDFS medio:

Estensiva scalabilità dovuta all’enorme quantità di dati con cui le implementazioni Hadoop hanno a che fare.
Alte prestazioni delle operazioni di backup/ripristino per assicurare backup veloci e ripristini rapidi, quando necessario.
Flessibilità in termini di tipi di dati di cui è possibile eseguire il backup, che si tratti di Namespaces, Deployments, Pods, App, ecc.
La coerenza degli snapshot dovrebbe essere sempre presente in una soluzione Hadoop, per garantire un rischio minimo di perdita di dati e operazioni di recupero più semplici in futuro.
Si consigliano analisi dettagliate, che possono semplificare notevolmente l’attività complessiva di gestione del backup, fornendo approfondimenti utili e altri tipi di dati.

Prezzi

Il prezzo è uno dei fattori più importanti di una soluzione di backup – o di qualsiasi tipo di prodotto o servizio. Quando si tratta di soluzioni di backup in particolare (soprattutto di soluzioni di backup Hadoop HDFS), il prezzo può facilmente essere il fattore decisivo per diverse aziende. Il risultato dipende molto dalle esigenze attuali di un cliente, oltre che da molti altri fattori interni. Si consiglia vivamente di confrontare sempre il prezzo della soluzione con il suo set di funzionalità, per garantire il miglior rapporto qualità-prezzo per la sua azienda.

Un’opinione personale dell’autore

Una parte completamente soggettiva della metodologia: l’opinione dell’autore sull’argomento (backup Hadoop HDFS). Questa categoria può includere praticamente qualsiasi cosa, dall’opinione personale dell’autore sull’argomento in questione ad alcune informazioni che potrebbero non essere state indicate in altre parti della metodologia.

Soluzioni di backup Hadoop di terze parti

Esistono diverse opzioni di backup di terze parti per gli utenti di Hadoop, tra cui soluzioni di backup popolari e meno conosciute.

Commvault

Commvault cerca di cambiare completamente il campo attuale della gestione dei dati, non richiedendo alcuna forma di amministrazione in loco per controllare l’intero sistema di protezione dei dati. Opera come una piattaforma centralizzata con backup sia fisici che virtuali, offrendo la possibilità di gestire ogni singolo aspetto del sistema da un’unica postazione. Tutte le funzionalità di Commvault sono racchiuse in un’interfaccia accessibile e facile da usare, senza alcuna complessità superflua.

Il supporto per i backup dei dati Hadoop è una delle tante capacità che Commvault può offrire. Le funzionalità di backup e ripristino di HDFS e HBase sono incluse nel pacchetto complessivo – con tre diversi tipi di backup (incrementale, completo, completo sintetico), funzionalità di pianificazione dei backup, ripristino granulare dei dati, obiettivi multipli di ripristino e così via.

Valutazione dei clienti:

Capterra – 4.8/5 punti con 11 recensioni di clienti
TrustRadius – 8.0/10 punti con 217 recensioni dei clienti
G2 – 4,2/5 punti con 112 recensioni dei clienti

Vantaggi:

Commvault dà priorità alla comodità dell’utente, assicurando che le attività di configurazione di routine siano facili da eseguire. Questo approccio intuitivo riduce al minimo i requisiti di formazione e massimizza la produttività, favorendo un’esperienza utente senza problemi.
La scalabilità di Commvault non si limita alla crescita verticale, ma è in grado di scalare orizzontalmente per soddisfare le esigenze in evoluzione, sfruttando diverse integrazioni e supportando un’ampia gamma di tipi di storage.
La scalabilità di Commvault è abbastanza buona; si adatta bene ad alcune infrastrutture IT intricate e avanzate, fornendo una protezione dei dati completa per organizzazioni di tutte le dimensioni. Può lavorare con alcuni framework di big data, come Hadoop.

Carenze:

Il reporting dettagliato sembra essere una sfida piuttosto comune per molte soluzioni di backup dei dati aziendali, compreso Commvault. Nonostante le integrazioni specifiche che offrono una reportistica migliorata, le carenze generali di reportistica sono evidenti su tutta la linea.
Mentre Commvault vanta un ampio supporto per container, ipervisori e database, è fondamentale riconoscere che la compatibilità universale rimane elusiva. Si consiglia una valutazione completa dei sistemi supportati prima dell’adozione.
Le considerazioni sui costi sono particolarmente pertinenti per le piccole e medie imprese, in quanto i prezzi di Commvault spesso superano le medie del mercato, mettendo potenzialmente a dura prova i bilanci. Una valutazione ponderata delle implicazioni finanziarie è essenziale prima di investire in Commvault.

Prezzi (al momento della stesura del presente documento):

Non ci sono informazioni ufficiali sui prezzi che possono essere trovate sul sito web di Commvault.
Tuttavia, esiste anche l’informazione non ufficiale che offre i prezzi da 3.400 a 8.781 dollari al mese per una singola appliance hardware.

La mia opinione personale su Commvault:

La versatilità di Commvault brilla, con il suo supporto per una vasta gamma di soluzioni di archiviazione, che abbracciano ambienti fisici e cloud. Che i suoi dati risiedano in un’infrastruttura tradizionale on-premise o nelle distese elastiche del cloud, Commvault assicura protezione e accessibilità. La sua versatilità è impressionante, con la capacità di creare backup HDFS in più modi, rendendolo un ottimo concorrente per questo elenco di soluzioni di backup e ripristino Hadoop.

NetApp

La portata globale di NetApp, che si estende su oltre 150 uffici in tutto il mondo, garantisce un’assistenza locale facilmente accessibile, che fornisce un’assistenza tempestiva quando e dove è necessaria. Questa vasta rete di centri di assistenza sottolinea l’impegno di NetApp per la soddisfazione dei clienti. Un’interfaccia centralizzata funge da centro nevralgico dell’abilità di NetApp nella protezione dei dati, fornendo una piattaforma unificata per il monitoraggio, la pianificazione e la registrazione delle operazioni di backup e ripristino.

La versatilità di NetApp brilla grazie al supporto di un ampio spettro di tipi di dati, che comprende applicazioni, database, server MS Exchange, macchine virtuali e persino framework di gestione dei dati come Hadoop. NetApp lavora con il già citato DistCp per ricevere i dati di backup – poiché NetApp utilizza MapReduce per impostare la propria condivisione NFS come destinazione di backup per DistCp, agendo in modo simile a un driver NFS.

Valutazioni dei clienti:

Capterra – 4.5/5 punti con 8 recensioni
TrustRadius – 9.2/10 punti con 2 recensioni
G2 – 3.8/5 punti con 2 recensioni

Vantaggi:

Una parte sostanziale del processo di clonazione è automatizzata, il che la rende straordinariamente facile da usare, con impostazioni complesse o menu minimi da navigare – e lo stesso si può dire per il resto della soluzione.
Le funzionalità di backup remoto della soluzione sono particolarmente degne di nota, in quanto consentono potenzialmente una strategia di protezione dei dati senza soluzione di continuità.
Il supporto per le attività di backup e ripristino HDFS è realizzato attraverso l’integrazione con DistCp – impostando un Network File System da NetApp come destinazione per un’attività di backup DistCp.

Carenze:

Nonostante i suoi punti di forza, la soluzione può essere inficiata da un numero notevole di bug che possono ostacolare le sue prestazioni complessive.
La soluzione manca di funzionalità di ripristino remoto per i server Linux, uno svantaggio significativo per alcuni utenti.
Inoltre, l’assistenza clienti è alquanto limitata, lasciando che gli utenti si affidino maggiormente alle risorse self-service.

Prezzi (al momento della stesura del presente documento):

Le soluzioni di NetApp tendono a variare drasticamente in termini di prezzo e capacità.
Per ottenere qualsiasi tipo di informazione sui prezzi, i potenziali clienti devono contattare direttamente NetApp per iniziare una prova gratuita o una demo.
Fonti non ufficiali suggeriscono che il canone di abbonamento annuale di NetApp SnapCenter parte da 1.410 dollari.

La mia opinione personale su NetApp:

NetApp può offrire una gestione centralizzata dei backup, una moltitudine di opzioni di pianificazione, ampie funzionalità orientate al backup e la capacità di lavorare con molti tipi di storage. I backup generati con questa soluzione sono facilmente accessibili da qualsiasi dispositivo dotato di browser web, compresi i computer portatili e i telefoni cellulari. NetApp si distingue tra i suoi concorrenti per la presenza di una rete globale di uffici, che probabilmente contribuirà all’assistenza localizzata per le aziende in regioni specifiche. È importante sottolineare che non è stata scelta un’unica soluzione per descrivere le capacità di backup Hadoop di NetApp, poiché questa particolare funzione utilizza una serie di tecnologie di NetApp che non sono tutte vincolate a un’unica soluzione.

Veritas NetBackup

Un punto fermo nel regno della protezione dei dati, Veritas è un’entità venerabile con una ricca eredità nel settore del backup e del ripristino. Veritas è in grado di offrire governance delle informazioni, gestione dei dati multi-cloud, soluzioni di backup e ripristino e altro ancora. Inoltre, il suo modello di distribuzione flessibile consente ai clienti di adattare le strategie di protezione dei dati alle loro esigenze specifiche. Veritas può scegliere tra un’appliance hardware per una perfetta integrazione o un software distribuibile sull’hardware del cliente, per la massima flessibilità e controllo.

Veritas NetBackup può anche offrire operazioni di backup Hadoop con il suo plugin agentless che può offrire una moltitudine di funzioni. Questo plugin offre sia backup completi che incrementali, consentendo di creare copie di dati point-in-time in un momento. Ci sono poche limitazioni anche per quanto riguarda il ripristino di tali dati: l’amministratore può scegliere la posizione di ripristino e il plugin supporta anche il ripristino granulare, se necessario.

Valutazione dei clienti:

Capterra – 4.1/5 punti con 8 recensioni
TrustRadius – 6.3/10 punti con 159 recensioni
G2 – 4.1/5 punti con 234 recensioni

Svantaggi:

Il numero complessivo di funzionalità che Veritas è in grado di offrire è forte rispetto ad altri fornitori nel mercato del backup e del ripristino.
Gli utenti lodano l’interfaccia user-friendly della soluzione, che presenta efficacemente il suo set completo di funzioni senza ostacolare l’accessibilità.
Il servizio di assistenza clienti di Veritas se la cava ragionevolmente bene in termini di efficienza e reattività.
La versatilità complessiva della soluzione è un altro argomento degno di lode: il software è in grado di lavorare con tutti i tipi di ambiente, compreso Hadoop (tramite un plugin separato per NetBackup).

Carenze:

Nonostante si tratti di una soluzione di classe enterprise, Veritas è carente in alcune aree per quanto riguarda le capacità di automazione.
Inoltre, il suo prezzo può essere considerato costoso rispetto ad alcuni dei suoi concorrenti.
Non c’è modo di salvare i report di backup in una posizione personalizzata, e la capacità di reporting complessiva di Veritas è piuttosto rigida.
L’integrazione delle funzioni di libreria a nastro è ostacolata da problemi esistenti non risolti.

Prezzi (al momento della stesura del presente documento):

Veritas omette intenzionalmente informazioni specifiche sui prezzi dal suo sito web ufficiale, optando invece per un approccio personalizzato.
I potenziali clienti devono rivolgersi direttamente a Veritas per ottenere dettagli sui prezzi che si allineino ai loro requisiti specifici e alle loro esigenze di implementazione.
Questa strategia personalizzata consente a Veritas di curare con attenzione le sue offerte, assicurando un adattamento perfetto alle circostanze e alle preferenze uniche di ogni cliente.

La mia opinione personale su Veritas:

Veritas è una potenza venerabile e affidabile nel regno della gestione dei dati e delle soluzioni di backup. Con un’esperienza comprovata che si estende per diversi decenni, Veritas ha raccolto ampi consensi come fornitore di backup preferito, in particolare tra i settori che attribuiscono grande valore alla ricca storia e al portafoglio completo di un’azienda. Rinomata per le sue prestazioni, Veritas offre una vasta gamma di soluzioni e funzionalità di backup, completate da un’interfaccia utente che si rivolge ad un ampio spettro di utenti. Può persino supportare strutture complesse come Hadoop, compreso il supporto SSL e l’autenticazione Kerberos.

Dell PowerProtect DD

PowerProtect DD è una soluzione completa di protezione e archiviazione dei dati, che comprende funzionalità di backup, disaster recovery e deduplicazione dei dati. Il suo design modulare si rivolge alle organizzazioni di tutte le dimensioni, rendendola una soluzione adatta ad un’ampia varietà di casi d’uso. Sono disponibili appliance per tutti i tipi di aziende, da quelle entry-level alle grandi imprese, che vantano fino a 150 Petabyte di capacità logica e un throughput di circa 68 Terabyte all’ora.

PowerProtect DD si integra perfettamente con gli ambienti Hadoop attraverso un driver dedicato, DDHCFS, offrendo una protezione completa dei dati e una serie di altri vantaggi. La soluzione stessa non richiede alcuna configurazione preliminare e utilizza una combinazione della propria tecnologia (DD Boost, per un trasferimento più veloce dei dati) e le capacità di replica dei dati/snapshot di Hadoop per creare e trasferire i backup da archiviare nell’appliance PowerProtect DD.

Valutazioni dei clienti:

TrustRadius – 8.0/10 punti con 44 recensioni di clienti

Svantaggi:

Alcuni clienti lodano l’affidabilità dell’apparecchio, che può funzionare 24 ore su 24, 7 giorni su 7, ed essere accessibile in qualsiasi momento.
Il processo di prima installazione sembra essere relativamente semplice.
Ci sono molti framework e tipi di storage diversi supportati – alcuni hanno persino driver dedicati, come Hadoop, che offrono molte funzionalità tra cui scegliere, combinate con una configurazione senza sforzo.

Carenze:

La maggior parte delle offerte sembra essere piuttosto costosa se paragonata al prezzo medio del mercato.
La velocità di ripristino dei dati da un’apparecchiatura reale sembra essere relativamente lenta. Questo potrebbe diventare insostenibile per set di dati di grandi dimensioni.
Mentre la soluzione di gestione dell’hardware opera entro limiti accettabili, sembra essere un po’ semplicistica nella sua struttura.

Prezzi:

Non ci sono informazioni ufficiali sui prezzi per la maggior parte dei prodotti Dell EMC sul sito web ufficiale, e le appliance PowerProtect DD non fanno eccezione.

La mia opinione personale su Dell:

PowerProtect DD è leggermente diverso dal resto delle opzioni di terze parti, soprattutto perché è un pezzo fisico di hardware invece di un software o una piattaforma virtuale. Si tratta di una soluzione completa di protezione e archiviazione dei dati, che comprende funzionalità di backup, disaster recovery e deduplicazione dei dati. Può lavorare sia con le grandi imprese che con le piccole aziende, se necessario. Dispone persino di un driver dedicato alle attività di disaster recovery di Hadoop, chiamato DDHCFS – DD Hadoop Compatible File System, che offre una protezione completa dei dati e molti altri vantaggi.

Cloudera

Cloudera è un’azienda americana di software specializzata nella gestione e nell’analisi dei dati aziendali. La sua piattaforma di punta è l’unica piattaforma cloud-nativa specificamente progettata per operare senza problemi su tutti i principali fornitori di cloud pubblico e su ambienti cloud privati on-premises. La piattaforma di Cloudera è costruita per le aziende che stanno cercando modi diversi di gestire i loro enormi pool di dati, generando approfondimenti e prendendo poi decisioni informate.

Questa piattaforma di gestione non è assolutamente incentrata sul backup e sul ripristino, né offre una soluzione di backup tradizionale. Tuttavia, Hadoop è il framework principale di Cloudera nel suo complesso, ed è per questo che può offrire alcune funzionalità di disaster recovery HDFS, fornendo i mezzi per replicare i dati da un cluster all’altro. Le funzionalità di backup di Cloudera non sono particolarmente complete di per sé, ma offrono una serie di funzioni utili in cima alla capacità di base simile a DistCp, come la pianificazione, la verifica dei dati e così via. Si tratta di un processo piuttosto complesso di per sé, ma Cloudera offre una guida passo-passo su questo esatto argomento, che lo rende molto più facile da eseguire.

Valutazioni dei clienti:

G2 – 4.0/5 punti con 38 recensioni dei clienti

Svantaggi:

L’assistenza clienti è rapida ed efficiente e offre una conoscenza approfondita delle funzionalità della soluzione.
Una vasta comunità intorno alla soluzione rende più facile trovare online le risposte a varie domande, comprese alcune delle funzionalità più anticonvenzionali del software.
La soluzione è estremamente scalabile, e si applica alle piccole imprese, alle grandi aziende e a tutto ciò che sta nel mezzo.

Carenze:

Il costo complessivo della soluzione è piuttosto elevato, e l’offerta più economica possibile è ancora considerata piuttosto costosa per la maggior parte delle piccole imprese.
La documentazione della soluzione è piuttosto carente e lascia molti argomenti e funzioni non spiegati all’utente medio.
L’interfaccia utente della soluzione non riceve molte lodi, molti utenti la considerano rigida e poco reattiva.

Prezzo:

Non ci sono informazioni ufficiali sui prezzi disponibili sul sito web di Cloudera.
Le informazioni di contatto e il modulo di richiesta demo sono le uniche cose che possono essere acquisite pubblicamente.

La mia opinione personale su Cloudera:

Tecnicamente parlando, Cloudera non è una soluzione di backup in sé – è una piattaforma di gestione dei dati aziendali. Tuttavia, la piattaforma in questione utilizza Hadoop come struttura principale, e ci sono funzionalità di conservazione dei dati che sono incluse nel pacchetto – anche se copiano principalmente le funzionalità di DistCp. Fortunatamente, Cloudera può creare programmi di replica dei dati e persino programmi di ripristino dei dati per eventi potenzialmente problematici legati ai dati in futuro. -Tuttavia, di per sé, manca di molte funzioni che renderebbero le operazioni di backup e ripristino realmente limitate, nel migliore dei casi, portando a potenziali difficoltà di continuità aziendale, conformità e funzionamento efficiente in alcune organizzazioni.

I backup di Hadoop HDFS e Bacula Enterprise

Bacula Enterprise è una soluzione di backup altamente sicura e scalabile che offre le sue capacità flessibili attraverso un sistema di moduli. Esiste un modulo di backup HDFS separato che offre un backup e un ripristino efficiente del cluster HDFS con diversi tipi di backup (incrementale, differenziale, completo) e la gestione automatica degli snapshot.

Il modulo è in grado di filtrare i dati in base alla data di creazione, il che lo rende estremamente comodo per l’utente finale. Sono presenti anche molte altre funzionalità di backup, nonché una libertà quasi totale per quanto riguarda la scelta della directory di ripristino per i backup HDFS.

Anche il funzionamento di questo modulo è semplice: un’operazione di backup richiede una connessione tra un FS Hadoop e un modulo Hadoop per generare uno snapshot del sistema prima di inviarlo al Demone File Bacula. Il backup completo non ha bisogno di accedere alle istantanee precedenti, mentre i backup differenziali e incrementali devono farlo per prendere nota di eventuali differenze tra l’ultima istantanea e quella attuale.

C’è anche il fatto che Bacula Enterprise è distribuito con un vantaggioso modello di licenza in abbonamento, senza limiti di volume di dati. Questo è un vantaggio enorme nel contesto di Hadoop, poiché la maggior parte delle implementazioni Hadoop sono pool di dati enormi, e il backup di questo tipo di implementazioni fa lievitare notevolmente il prezzo di altre soluzioni – ma non con Bacula.

Molte altre funzionalità di classe enterprise di Bacula sono applicabili anche al backup dei dati Hadoop. Bacula Enterprise è una soluzione eccezionale e versatile, adatta a molti casi d’uso diversi, compreso l’HPC che utilizza spesso HDFS,

L’intera architettura di Bacula è modulare e personalizzabile, il che rende facile l’adattamento della soluzione a vari ambienti IT, indipendentemente dalle loro dimensioni. Il supporto per le infrastrutture distribuite con il bilanciamento del carico tramite più server Bacula Director aiuta ad evitare i sovraccarichi durante i periodi di carico pesante. In generale, Bacula ha un’esperienza di lavoro con grandi archivi di dati senza alcun problema – una qualità eccezionalmente utile che contribuisce alla sua efficienza nelle implementazioni Hadoop. Bacula è anche in grado di far parte di una strategia di disaster recovery completa. Questi sono solo alcuni dei motivi per cui viene utilizzato dalle più grandi organizzazioni militari e di difesa del mondo, dalle banche, dalla NASA e dai Laboratori Nazionali degli Stati Uniti.

Conclusione

Hadoop è un framework importante, soprattutto con molte aziende che si affidano a grandi pool di dati per eseguire compiti di ML e AI, tra gli altri. L’uso dei “Big Data” è cresciuto e le applicazioni per il loro utilizzo sono maturate in soluzioni aziendali sofisticate e di alto valore. Allo stesso modo, la domanda di framework che li integrano si sta sviluppando allo stesso ritmo.

Tuttavia, con le nuove strutture di dati e i nuovi framework, sorgono anche nuovi problemi, perché i protocolli e le misure di sicurezza dei dati esistenti non sono sempre compatibili con i sistemi Hadoop. Fortunatamente, Hadoop ha le proprie capacità di replica dei dati e di snapshot – e ci sono anche molteplici soluzioni e piattaforme di backup di terze parti che possono offrire capacità di backup di Hadoop.

Soluzioni come Bacula o Veritas sono ideali per le aziende che cercano una soluzione “all-in-one” in grado di coprire le implementazioni Hadoop, proteggendo allo stesso tempo un’ampia gamma di diversi tipi di dati e applicazioni all’interno della stessa infrastruttura, per ottenere un’unica protezione. Cloudera o anche alcuni dei metodi integrati possono funzionare per alcune organizzazioni con semplici esigenze di backup e ripristino, in quanto offrono una soluzione in qualche modo mirata a un problema ristretto, ma con capacità molto limitate al di fuori della copertura di HDFS e HBase.

I dati HDFS e HBase possono essere protetti in una certa misura con metodi e approcci diversi all’interno di soluzioni di gestione come Cloudera. Ma se il backup e il ripristino sono necessari a qualsiasi livello di sofisticazione, saranno necessarie soluzioni specializzate come Bacula per fornire il livello di servizio necessario.

Informazioni sull'autore

Rob Morrison è il direttore marketing di Bacula Systems. Ha iniziato la sua carriera nel marketing IT con Silicon Graphics in Svizzera, ottenendo ottimi risultati in vari ruoli di gestione del marketing per quasi 10 anni. Nei 10 anni successivi, Rob ha ricoperto anche diverse posizioni di gestione del marketing in JBoss, Red Hat e Pentaho, assicurando la crescita della quota di mercato di queste note aziende. Si è laureato all'Università di Plymouth e ha conseguito una laurea ad honorem in Digital Media and Communications e ha completato un programma di studi all'estero.

Potresti anche essere interessato a:

backup aziendale

soluzioni di backup aziendale

backup su nastro