Principale > Blog sul backup e sul ripristino > Strategia di backup e ripristino di Ceph

Strategia di backup e ripristino di Ceph

Aggiornato 11th Giugno 2024, Rob Morrison

Che cos’è Ceph?

Ceph è una piattaforma di archiviazione software-defined distribuita gratuitamente e open-source. Fornisce archiviazione di file, blocchi e oggetti, utilizzando come infrastruttura la sua base di cluster distribuiti. Ceph non deve affidarsi a un file system di terze parti, grazie al proprio backend di archiviazione chiamato “BlueStore”, in grado di gestire direttamente sia gli SSD che gli HDD.

Anche se il prototipo originale di Ceph è stato creato nel 2005 (come progetto estivo, nientemeno!), durante la maggior parte degli anni di sviluppo non era così popolare come lo è ora, nonostante il suo impressionante set di funzionalità. Ceph non richiede un hardware specifico per funzionare e può replicare i dati con tolleranza di errore, offrendo una potente disponibilità di dati grazie alla combinazione di snapshot, replica, codifica di cancellazione, clonazione e altre funzionalità.

Alcuni dei maggiori esempi di infrastrutture Ceph nel mondo moderno includono un enorme provider di cloud, DigitalOcean, un’azienda francese di cloud computing, OVH, e il CERN – un’organizzazione di ricerca intergovernativa famosa per il suo laboratorio di fisica delle particelle, considerato il più grande del pianeta.

Perché è necessario eseguire il backup dei cluster Ceph

Uno dei vantaggi più significativi dell’infrastruttura Ceph è la sua natura di autogestione e autoguarigione che, se configurata correttamente, può ridurre in modo significativo i costi complessivi di gestione sia per le piccole che per le grandi distribuzioni.

Alcuni utenti potrebbero pensare che questo tipo di ridondanza sia sufficiente per smettere di utilizzare i metodi tradizionali di sicurezza dei dati, come i sistemi e le operazioni di backup e ripristino. Purtroppo, questo non è il caso di Ceph, e ci sono diversi tipi di situazioni e casi d’uso che la sua ridondanza non può coprire:

  • Il recupero da disastri è un esempio facile di ciò che Ceph non può fare. La maggior parte dei disastri colpisce interi cluster di storage, rendendo l’intera infrastruttura compromessa e non ripristinabile.
  • I moderni tipi di ransomware si sono ormai evoluti più volte, offrendo la capacità di cercare e colpire copie di backup e interi sistemi di storage per impedire al quadro di ridondanza di Ceph di funzionare nel suo complesso.
  • Non tutti gli eventi di corruzione dei dati possono essere evitati con Ceph, poiché non è così raro che la corruzione si diffonda attraverso interi sistemi e infrastrutture, colpendo tutte le copie di ridondanza.
  • Gli errori umani potrebbero essere una delle categorie più significative di problemi che la maggior parte delle misure di sicurezza non sono in grado di coprire nella loro interezza. La natura stessa del sistema di replica di Ceph significa che praticamente qualsiasi modifica dei dati originali viene replicata in tutte le copie di ridondanza, compresa l’alterazione o la cancellazione accidentale di informazioni importanti.

Per questo motivo, sono ancora necessarie varie misure di sicurezza, come i backup, anche in un ambiente così ridondante come Ceph.

Come si svolgono le attività di backup in Ceph

Ceph utilizza un componente di archiviazione a blocchi chiamato RBD (RADOS Block Device) per gestire sia i carichi di lavoro che le informazioni nei cluster Ceph. A causa della natura molto specifica dell’infrastruttura di Ceph, esistono almeno due modi diversi per creare un backup o una copia di un cluster:

  • Aggancio diretto del disco virtuale utilizzando una VM proxy.
  • Esportazione del volume RBD direttamente dall’infrastruttura Ceph.

Entrambi gli approcci hanno la loro parte di svantaggi, soprattutto quando si tratta di creare tipi di backup non standard (come il backup incrementale).

Il problema principale è l’incapacità di Ceph di eseguire il tracciamento dei blocchi modificati senza esaminare l’intero dispositivo a blocchi. Tuttavia, Ceph offre un proprio workaround per questo problema: la possibilità di estrarre la cosiddetta “differenza di snapshot”, che viene generata creando uno snapshot manuale e uno automatico in periodi di tempo diversi e confrontando i due blocchi per blocco.

Questo tipo di approccio può essere un po’ più problematico rispetto ai tradizionali metodi di backup incrementale, ma sarebbe una necessità per gli ambienti più grandi che non possono permettersi di utilizzare solo i backup completi per motivi di capacità di archiviazione dei dati.

Allo stesso tempo, entrambi questi casi d’uso funzionano solo con una serie di circostanze molto specifiche, tra cui un livello di virtualizzazione e un software che supporta esplicitamente l’infrastruttura Ceph. Fortunatamente, questi non sono gli unici metodi di backup per Ceph nel suo complesso.

Alcune soluzioni di backup sono in grado di proteggere i volumi RBD a un livello molto elementare, allo stesso modo in cui vengono protette altre applicazioni o macchine virtuali. Questo particolare approccio funziona anche per i cluster Ceph, anche se l’elenco dei software in grado di compiere una simile impresa è ancora sorprendentemente piccolo.

Software di backup con supporto Ceph

Come abbiamo accennato in precedenza, alcune soluzioni possono proteggere i volumi RBD senza il livello di virtualizzazione, in modo simile a come vengono protette le normali applicazioni o VM.

Storware

Storware è una di queste soluzioni, con la sua capacità vProtect Storage Provider che offre una protezione dei dati basata su criteri per praticamente qualsiasi tipo di volume necessario. Può supportare i volumi di Ceph, oltre a molteplici altri ambienti Kubernetes/OpenStack. Storware supporta l’esportazione diretta di RBD e il collegamento diretto al disco tramite un hypervisor come due dei suoi approcci principali ai backup, lasciando la scelta nelle mani dell’utente.

Il software nel suo complesso ha anche molti altri casi d’uso e capacità. Storware è una soluzione di backup incentrata sulle macchine virtuali, con supporto per molti altri supporti di archiviazione; è una piattaforma relativamente facile da usare, che eccelle nella gestione delle snapshot e può fornire una ragionevole quantità di personalizzazione ai suoi utenti.

Valutazione dei clienti:

  • G24.7/5 punteggio basato su 28 recensioni dei clienti

Svantaggi:

  • Una semplice e comoda interfaccia utente con una piacevole esperienza d’uso.
  • Il software stesso è agentless, semplificando notevolmente il processo di distribuzione complessivo.
  • Parlando del processo di distribuzione, anche la configurazione di Storware per la prima volta non è un compito difficile per la maggior parte degli utenti.

Carenze:

  • Mentre il software in sé è molto personalizzabile, alcune delle sue aree, come il sistema di notifica, sono sorprendentemente rigide a tale riguardo.
  • Impostare Storware non è un processo complicato, ma tutto il merito va ai materiali didattici di terze parti presenti su Internet.
  • La configurazione dei criteri di conservazione può essere una seccatura per diversi motivi.

Prezzi (al momento della stesura del presente documento):

  • Le informazioni sui prezzi che Storware fornisce sul suo sito web pubblico sono piuttosto limitate.
  • Ci sono almeno due diversi piani tariffari tra cui scegliere:
    • Freemium, che è una versione gratuita della soluzione che è molto limitata nelle sue capacità – può lavorare solo con un massimo di 1 TB di dati, fino a 10 macchine virtuali, fino a 10 applicazioni e così via. Il lato positivo è che offre tutte le funzionalità e le caratteristiche di Storware.
    • Prova gratuita, una versione a tempo della soluzione disponibile per soli 60 giorni; include tutto ciò che Storware ha da offrire senza alcuna limitazione hardware o software (a parte il limite di tempo).
  • Tutto il resto dei prezzi della soluzione può essere acquisito solo dopo aver richiesto un preventivo personalizzato.

La mia opinione personale su Storware:

Storware è originariamente una soluzione di backup e ripristino incentrata sulle macchine virtuali, con molte capacità a questo proposito, ma la sua compatibilità con Ceph è il punto forte. Il software può estrarre le differenze di snapshot direttamente dall’API di Ceph per migliorare le prestazioni. Offre anche molte funzioni di base orientate al backup per impostazione predefinita, tra cui l’automazione del backup, la protezione del backup basata su criteri, diversi tipi di backup e altro ancora. La possibilità di gestire i volumi RBD al di fuori della piattaforma di virtualizzazione aiuta in modo significativo Storware a gestire infrastrutture complesse composte da più tipi di archiviazione dati.

Trilio

Trilio è una buona alternativa al software precedente. Offre la capacità di estrarre le snapshot RBD dall’infrastruttura Ceph, di generare la ‘snapshot difference’ per i backup incrementali e di convertire queste informazioni in un formato di file più comodo e versatile, che può essere protetto con altre funzionalità di Trilio. Utilizza la propria soluzione TrilioVault per offrire continuità aziendale e protezione dei dati in un unico pacchetto.

Il pubblico principale di Trilio è costituito dagli ambienti cloud-nativi e dai loro utenti, con Kubernetes e OpenStack che sono gli elementi più preziosi di questo gruppo di riferimento. Non solo Trilio può offrire funzionalità di backup e ripristino, ma anche resilienza e sicurezza dei dati. Trilio è in grado di eseguire il disaster recovery, di assistere la compliance basata sulle prove e di offrire molte altre funzionalità.

Vantaggi:

  • Trilio può lavorare con diverse API che possono semplificare il processo di creazione e ripristino dei backup per applicazioni container e cloud (Nova API e Cinder sono gli esempi più importanti).
  • Il software può ridurre notevolmente l’impegno manuale necessario per eseguire attività di backup e ripristino, offrendo funzionalità di backup basate su criteri e funzioni di automazione personalizzabili.
  • Può anche acquisire intere applicazioni e container in una sola volta, assicurando che le dipendenze e le altre connessioni non vadano perse durante o dopo il processo di backup e ripristino.

Carenze:

  • La focalizzazione di Trilio sugli ambienti containerizzati e cloud-nativi lo rende in qualche modo inutile per le configurazioni tradizionali degli ambienti di archiviazione dei dati, il che può limitare significativamente la portata potenziale della soluzione e la sua utilità complessiva.
  • Tecnologie come OpenStack si sviluppano molto frequentemente, costringendo software come Trilio ad adattarsi ed evolversi ai nuovi cambiamenti il più rapidamente possibile – cosa che non tutti gli utenti si troveranno a proprio agio.
  • Mentre Trilio offre un certo livello di funzionalità di protezione dei dati, la protezione degli ambienti cloud-nativi nel loro complesso può essere molto impegnativa, motivo per cui le funzionalità di Trilio non sono particolarmente ricche o dettagliate.

Prezzi (al momento della stesura del presente documento):

  • Trilio non offre informazioni ufficiali sui prezzi sul suo sito web pubblico. L’unico modo per ottenere tali informazioni è richiedere un preventivo personalizzato all’azienda.

La mia opinione personale su Trilio:

Trilio è una soluzione piuttosto utile con una serie di casi d’uso molto specifici, ossia l’assistenza agli ambienti cloud-nativi e containerizzati per la protezione dei dati. Trilio può integrarsi perfettamente con le funzionalità di storage distribuito di Ceph, offrendo una pletora di funzioni per l’integrità dei dati, tempi di inattività minimi, massime prestazioni e così via. Il software stesso è relativamente facile da usare e intuitivo, il che lo rende molto semplice da implementare e lavorare, anche per gli utenti meno esperti. Ceph non è l’unico tipo di infrastruttura che può beneficiare dell’integrazione di Trilio, poiché TrilioVault supporta tutti i tipi di ambiente OpenStack.

Bacula Enterprise

Un’altra soluzione potenziale per il backup dei dati dei provider di cloud storage basati su Ceph è Bacula, con il suo Bacula Cloud Driver che supporta la maggior parte delle tecnologie di cui fanno parte Ceph e S3.

L’aggiunta del cloud storage all’infrastruttura consente a Bacula di eseguire molte delle sue funzionalità orientate al backup e al ripristino, con un’impressionante personalizzazione, alti livelli di sicurezza e un numero enorme di funzioni con cui lavorare. I volumi Ceph stessi vengono sottoposti a backup utilizzando una combinazione di funzionalità di esportazione RBD e la funzione bpipe di BaculaLat, che consente di creare backup di volumi di dati tramite snapshot (supporta anche tipi di backup differenziali e incrementali).

Valutazione dei clienti:

  • TrustRadius9.8/10 punti e 54 recensioni dei clienti
  • G24,7/5 punti e 56 recensioni dei clienti

Vantaggi:

  • Ottima assistenza clienti con disponibilità 24/7.
  • Molteplici integrazioni disponibili e piattaforme compatibili, tra cui disco, nastro, cloud, VM, applicazioni, database, container, ecc.
  • Prestazioni impressionanti per le operazioni di backup e ripristino.

Carenze:

  • Il sistema di licenze modulari utilizza un modello di base basato sull’abbonamento con un prezzo aggiuntivo per alcuni moduli specifici, che può essere insoddisfacente per alcuni utenti.
  • Il numero totale di funzioni può comportare una curva di apprendimento moderata, anche quando si utilizza la GUI BWeb di Bacula invece dell’interfaccia a riga di comando.
  • Il ciclo di aggiornamento di Bacula è relativamente breve. Vengono distribuiti regolarmente numerosi aggiornamenti, molti dei quali sono obbligatori per migliorare la sicurezza e la stabilità del sistema.

Prezzi (al momento della stesura del presente documento):

  • Non ci sono informazioni ufficiali sui prezzi di Bacula Enterprise sul sito ufficiale.
  • Tuttavia, il modello generale dei prezzi è spiegato lì, e può essere un po’ travolgente all’inizio:
    • BSBE (Bacula Small Business Edition): 2 contratti, 20 agenti, include BWeb e supporto web.
    • Tier standard: 2 contratti, 50 agenti, non più di 4 giorni di attesa per le domande dell’assistenza clienti.
    • Bronze Tier: 2 contratti, 200 agenti, tempi di risposta dell’assistenza clienti da 6 ore a 4 giorni, assistenza telefonica.
    • Silver Tier: 3 contratti, 500 agenti, tempi di risposta dell’assistenza clienti da 4 ore a 2 giorni, un plugin di deduplicazione.
    • Gold Tier: 5 contratti, 2000 agenti, tempi di risposta dell’assistenza clienti da 1 ora a 2 giorni.
    • Platinum Tier: 5 contratti, 5000 agenti, il più breve tempo di attesa possibile per l’assistenza clienti, supporto del catalogo PostgreSQL, corsi gratuiti per amministratori (1 posto di formazione).

La mia opinione personale su Bacula Enterprise:

Bacula Enterprise è un interessante software di backup e ripristino con una miriade di funzionalità e caratteristiche diverse. Non solo può funzionare con la maggior parte dei tipi di storage e delle varianti di infrastruttura esistenti, ma può anche funzionare con alcune infrastrutture meno comuni, come Ceph e OpenStack. È una soluzione versatile e particolarmente flessibile, personalizzabile e con un set di funzionalità straordinarie. Esiste anche una versione gratuita chiamata Bacula Community, che offre molte delle funzioni gratuitamente, ma può essere un po’ più impegnativa da utilizzare e padroneggiare. L’enorme numero di funzioni può essere un po’ opprimente, ma il pacchetto complessivo è estremamente competente e vale la pena dedicargli tempo e impegno.

Backy2

In alternativa, esistono anche soluzioni di backup relativamente piccole con supporto esplicito di Ceph. Backy2 è un esempio di questo tipo, che offre un software di backup open-source con un’infrastruttura basata su blocchi che può funzionare praticamente con qualsiasi dispositivo basato su blocchi, compresi i volumi Ceph RBD. Si tratta di una soluzione di backup piuttosto specifica ma potente, con compressione dei dati, deduplicazione e crittografia, che la rendono sicura ed efficiente dal punto di vista dello spazio.

Backy2 può eseguire i suoi backup a livello di blocco, il che riduce significativamente il tempo per ogni backup, diminuendo anche i requisiti di spazio di archiviazione. Può essere integrato con più infrastrutture diverse e può aiutare in una certa misura la gestione dei backup, fornendo funzionalità di controllo dell’integrità dei dati, pianificazione dei backup e altro ancora. Sfortunatamente, è anche estremamente specifico per ogni caso, il che rende la ricerca di informazioni o feedback su di esso un processo molto impegnativo.

cephbackup

Esistono anche altri progetti di backup Ceph, come questo semplice strumento di GitHub che può eseguire backup completi e incrementali utilizzando lo stesso processo che abbiamo illustrato più volte. Tuttavia, vale la pena notare che questo particolare strumento non è stato aggiornato da oltre sette anni, il che mette in dubbio sia la sua compatibilità che la sua fattibilità complessiva.

Un approccio consigliato alla sicurezza dei dati Ceph

L’argomento dei backup RBD su larga scala è stato diffuso da diversi anni, senza che sia stata trovata una soluzione semplice. Tuttavia, ci sono molte idee che si possono trovare negli ultimi anni, come ad esempio questo pannello del 2018 che è stato mostrato da un dipendente di OVH , uno dei maggiori utilizzatori di ambienti Ceph.

Il pannello illustra alcune informazioni di base su Ceph e le sue capacità, nonché i backup scalabili che nessuna soluzione di backup di terze parti era in grado di offrire all’epoca (nemmeno la loro attuale soluzione di backup, Duplicity).

La persona che ha presentato il panel ha anche discusso tutte le sfide che la scalabilità del backup comporta nel contesto di Ceph, come le limitazioni delle dimensioni dei file e delle immagini.

La soluzione a tutti i problemi generati dalla configurazione esistente si è rivelata sorprendentemente semplice. L’idea era di utilizzare le capacità di clonazione di Ceph per creare una copia identica del sistema in un determinato momento, che potesse agire come prima linea di difesa per sostituire il cluster originale se qualcosa andasse storto. Le prestazioni proprie di Ceph hanno permesso a questo particolare metodo di essere estremamente veloce, più veloce di qualsiasi metodo di backup utilizzato da OVH in precedenza.

Tuttavia, non è tutto. Sebbene le capacità di clonazione di Ceph siano veloci, non sono molto potenti quando si tratta di misure di sicurezza e protezione. Per questo motivo, si consigliava ancora di utilizzare gli strumenti di backup di terze parti esistenti come “seconda linea di difesa”, per così dire.

Questo approccio combina la velocità di clonazione di Ceph con la sicurezza aggiuntiva che il software di backup di terze parti aggiunge, anche se riduce significativamente le prestazioni.

Conclusione

Ceph è un framework di archiviazione impressionante che supporta una scalabilità estrema per praticamente qualsiasi volume di archiviazione in un ambiente distribuito. Utilizza le proprie funzioni di ridondanza avanzata per offrire un elevato livello di protezione contro diversi problemi legati ai dati. Tuttavia, è ben lungi dall’essere perfetto, ed è per questo che le soluzioni di backup e ripristino sono ancora necessarie accanto ai cluster Ceph.

Sebbene esistano diverse soluzioni che supportano i cluster Ceph in una certa misura, la maggior parte di esse presenta una buona dose di svantaggi che le rendono un po’ incomplete se utilizzate come unica soluzione di backup. Tuttavia, la combinazione delle capacità di replica di Ceph con le funzioni di backup di terze parti offre un livello di protezione rispettabile con più livelli di sicurezza, che sembra essere il meglio che Ceph può offrire al momento.

Domande frequenti

L’infrastruttura di auto-guarigione di Ceph è una misura di sicurezza sufficiente da sola?

Sebbene Ceph offra un’infrastruttura altamente ridondante come una delle sue principali capacità, è ben lungi dall’essere sufficiente a coprire tutti i possibili vettori di attacco e le variazioni di disastro, dal fattore umano alle sofisticate minacce ransomware.

Qual è l’approccio principale di Ceph quando si tratta di operazioni di backup interne e di terze parti?

La maggior parte delle funzionalità di backup e replica di Ceph vengono eseguite utilizzando un montaggio diretto del disco tramite VM proxy o una funzione di esportazione del volume RBD. Esiste anche la possibilità di collegarsi ai volumi RBD direttamente quando non viene utilizzato un livello di virtualizzazione nel processo di backup, cosa che alcune soluzioni di backup possono sfruttare.

Informazioni sull'autore
Rob Morrison
Rob Morrison è il direttore marketing di Bacula Systems. Ha iniziato la sua carriera nel marketing IT con Silicon Graphics in Svizzera, ottenendo ottimi risultati in vari ruoli di gestione del marketing per quasi 10 anni. Nei 10 anni successivi, Rob ha ricoperto anche diverse posizioni di gestione del marketing in JBoss, Red Hat e Pentaho, assicurando la crescita della quota di mercato di queste note aziende. Si è laureato all'Università di Plymouth e ha conseguito una laurea ad honorem in Digital Media and Communications e ha completato un programma di studi all'estero.
Lascia un commento

Il suo indirizzo e-mail non sarà pubblicato. I campi obbligatori sono contrassegnati da *