Principale > Blog sul backup e sul ripristino > Che cos’è l’archiviazione HPSS? Il backup di IBM HPSS

Che cos’è l’archiviazione HPSS? Il backup di IBM HPSS

1 Star2 Stars3 Stars4 Stars5 Stars
(12 voti, media: 4,94 fuori da 5)
Loading...
Aggiornato 30th Gennaio 2024, Rob Morrison

Che cos’è HPSS?

High-Performance Storage System (HPSS) è un software di gestione dello storage altamente scalabile e flessibile, sviluppato dalla HPSS Collaboration per fornire un sistema di Hierarchical Storage Management (HSM) basato su criteri e definito dal software. Questa tecnologia è tipicamente richiesta da molti ambienti IT HPC (High Performance Computing) e SuperComputing. Uno dei motivi è che un solo namespace HPSS può gestire miliardi di file, può creare da pochi file al secondo a migliaia al secondo e scalare da petabyte a exabyte di dati.

HPSS utilizza una combinazione di tecnologie SAN, LAN e cluster per combinare molti supporti di archiviazione diversi in un’unica infrastruttura (computer, dischi, unità a nastro o librerie a nastro).

HPSS supporta molti metodi diversi di creazione dei dati. Ad esempio, può lavorare con FUSE, FTP, FTP parallelo e persino con API client (I/O parallelo). L’API di HPSS è supportata su Solaris, Linux e AIX; il supporto completo di Linux è stato aggiunto con la versione 7.5. L’intero HPSS è creato utilizzando un RDBMS (Relational Database Management System) scalabile di IBM, chiamato Db2.

Svantaggi di HPSS

L’archiviazione HPSS è molto complessa sotto il cofano, con la maggior parte delle sue funzioni create per fornire un’archiviazione scalabile a lungo termine per le esigenze aziendali. Alcuni dei vantaggi più significativi di IBM HPSS includono:

  • Disponibilità. Dal momento che Db2 offre la capacità di garantire l’integrità dei metadati, offrendo al contempo un rapido recupero dei guasti, non è particolarmente difficile per HPSS fornire una combinazione di protezione dei dati a lungo termine ed elevata disponibilità dei dati. HPSS RAIT (Redundant Array of Independent Tapes) fornisce funzionalità di ridondanza dei dati a basso costo, e l’accuratezza dei dati è garantita dalla protezione dei blocchi logici e dalla convalida del checksum dei file.
  • Efficienza. HPSS utilizza una combinazione di tecniche per garantire prestazioni elevate e un’efficienza impressionante. La latenza di accesso è ridotta grazie all’organizzazione dell’ordine R/W, la velocità di trasferimento di file di grandi dimensioni è migliorata grazie al trasferimento parallelo e alla collocazione, e la trasparenza per gli utenti finali è ottenuta grazie a varie funzionalità di automazione con gestione dei criteri.
  • Supporto. HPSS è supportato e fornito da IBM con un numero impressionante di vantaggi: installazione, configurazione, risultati di test, verifica dei componenti e un’architettura dettagliata della soluzione.
  • Enorme scalabilità. HPSS ha una struttura unica che le consente di scalare in modo incrementale quando necessario. L’aggiunta di risorse di archiviazione, di rete e di calcolo allo spazio dei nomi rende possibile l’archiviazione di exabyte di dati e di miliardi di file all’interno di quello stesso spazio dei nomi.

Le innovazioni di HPSS

HPSS è un esempio eccezionale di come un software possa vivere per più di dieci anni prima di essere sostituito completamente. Il Forum degli utenti HPSS del 2022 ha segnato il trentesimo compleanno di questo software, che continua a vivere ancora oggi. Alcune delle innovazioni più importanti che HPSS ha apportato al settore includono:

  • Chiamate di procedure remote. HPSS è ampiamente considerato una delle prime infrastrutture a ottenere vantaggi di calcolo distribuito utilizzando le chiamate di procedura remote.
  • Gestione gerarchica dello storage. Poiché l’HSM è un modello di storage a livelli, la sua implementazione in un ambiente pratico può essere estremamente difficile. HPSS è ufficialmente il primo esempio in assoluto di implementazione HSM di successo a livello commerciale.
  • Architettura basata sulla rete. C’è stato un periodo particolare, negli anni ’90, in cui praticamente tutte le unità HPC si sono trasformate utilizzando un modello di progettazione distribuito come base, rendendo praticamente obbligatorio l’uso della rete per il trasferimento dei dati. HPSS è stata una delle prime implementazioni di successo del settore per quanto riguarda la capacità di rete distribuita.
  • Una chiara divisione tra comandi di traffico di controllo e comandi di dati. HPSS ha migliorato in modo significativo le sue opzioni di scalabilità separando completamente due gruppi di funzioni diverse: i comandi di controllo del traffico e dei dati.
  • Transazioni distribuite. L’intera idea di un’architettura distribuita è stata inizialmente proposta da un piccolo numero di soluzioni (tra cui HPSS), e l’implementazione delle transazioni distribuite è stata il catalizzatore principale di questo suggerimento.

Le origini di HPSS

HPSS è stato inizialmente creato nel 1992 e reso possibile dalla ricerca del National Storage Laboratory (NSL). Lo scopo principale dell’NSL era quello di commercializzare le tecnologie hardware e software per superare i vari colli di bottiglia relativi alle informazioni digitali, come i colli di bottiglia dell’archiviazione dei dati e dell’elaborazione.

NSL è stato creato come collaborazione tra IBM e cinque laboratori nazionali del Dipartimento dell’Energia negli Stati Uniti:

  • Oak Ridge (ORNL);
  • Lawrence Livermore (LLNL);
  • Sandia (SNL);
  • Los Alamos (LANL);
  • Lawrence Berkeley (LBL).

Il gruppo di organizzazioni di ricerca di cui sopra si è reso conto che la cosiddetta “esplosione dell’archiviazione dei dati” stava per verificarsi, facendo aumentare enormemente diversi parametri come l’archiviazione dei dati, la velocità di trasferimento dei dati e la potenza di calcolo. Questa collaborazione mirava a creare e distribuire un’infrastruttura in grado di scalare senza sforzo con tutti i parametri previsti e oltre. L’obiettivo era quello di creare un sistema in grado di supportare gigabyte di velocità di trasferimento dati, decine di terabyte di throughput di dati e petabyte o addirittura exabyte di dati immagazzinati.

La collaborazione originale di IBM HPSS ha capito chiaramente che non esiste un’unica organizzazione al mondo che abbia le risorse e l’esperienza per soddisfare tutti i nuovi requisiti di archiviazione e trasferimento in una volta sola. Durante l’intera esistenza di HPSS, oltre venti aziende e organizzazioni diverse hanno contribuito allo sviluppo di questo progetto, compresi i centri di supercomputer NSF, i laboratori federali statunitensi, le università e così via.

Il team di sviluppo principale di HPSS, a partire dal 2022, era composto da tutti e sei i collaboratori originali, come IBM Global Business Services, LLNL, ORNL, LANL, SNL e LBNL. Anche il National Energy Research Scientific Computing Center (NERSC) è considerato un contributo significativo allo sviluppo di HPSS come prodotto.

I risultati più importanti di HPSS

Nel corso della sua storia trentennale, il sistema di archiviazione HPSS è riuscito a cambiare ed evolversi, portando nuovi risultati e capacità al settore. Ecco alcuni esempi:

  • Un test relativamente sconosciuto che implicava il backup di un miliardo di file è stato eseguito con successo per la prima volta nel novembre 2007 dal San Diego Supercomputer Center – i dati in questione sono stati copiati da GPFS (il file system clustered di IBM) a HPSS.
  • Il National Center for Supercomputing Applications in Illinois ha lanciato un’infrastruttura HPSS con 380 Petabyte di spazio di archiviazione nel maggio 2013, una quantità di spazio di archiviazione davvero enorme all’epoca.

Esempi notevoli di utilizzo di HPSS

HPSS è utilizzato da decine di aziende famose e popolari in tutto il mondo, offrendo un accesso più accessibile e più efficiente a grandi pool di dati. Nell’elenco che segue, presentiamo una serie di progetti che utilizzano HPSS per l’archiviazione di dati a lungo termine:

  • The Dark Energy Spectroscopic Instrument – oltre 5 Petabyte di risultati di esperimenti e dati di simulazione.
  • Il Joint Genome Institute – oltre 20 Petabyte di informazioni, tra cui sequenze mappate, genomi assemblati, sequenze controllate dalla qualità, sequenze grezze, trascrittomi e altro ancora.
  • L’Advanced Light Source (Laboratorio di Berkeley) – oltre 4 Petabyte di dati per dieci anni, comprese tutte le informazioni della linea di fascio della tomografia.
  • Il Gruppo Intergovernativo sul Cambiamento Climatico – oltre 30 Petabyte di informazioni, tra cui simulazioni del sistema terrestre, simulazioni climatiche e molti altri dati che hanno contribuito alla Twentieth Century Reanalysis (un progetto internazionale con l’obiettivo di creare un set di dati sulla circolazione atmosferica per l’intero XX secolo).
  • Il Fondo cosmico a microonde – almeno 5,5 Petabyte di simulazioni e dati provenienti da vari esperimenti, tra cui gli esperimenti del Polo Sud, BICEP, Keck e 17 diversi telescopi in tutto il pianeta.

Il presente e il futuro di HPSS

HPSS è stato inizialmente creato per spingere il mondo in avanti per quanto riguarda gli standard di rete, le capacità di archiviazione, le velocità di trasferimento, ecc. Questo progetto è riuscito a rimanere all’avanguardia del progresso e dell’evoluzione tecnologica oltre trent’anni dopo la sua creazione – e non c’è dubbio che continuerà a farlo in futuro.

Questo sistema ha continuato ad evolversi, a crescere e ad implementare nuove funzionalità con il passare del tempo, introducendo soluzioni ai problemi esistenti e innalzando la linea di fondo di vari standard per quanto riguarda la gestione dei dati su larga scala. Ad esempio, la facilità d’uso è ora considerata il prossimo grande obiettivo: un tentativo di rendere l’archiviazione HPSS più facile da usare, affrontando anche altre sfide ben note del sistema, come le limitazioni delle dimensioni e della lunghezza dei file.

HPSS e Bacula Enterprise

HPSS è una soluzione di archiviazione dati molto specifica, spesso utilizzata per ambienti scientifici, di ricerca e di laboratorio – in genere in organizzazioni di livello governativo. Il fatto che questi casi d’uso siano così lontani dalle esigenze di tipo commerciale, non significa che questi dati non debbano essere adeguatamente protetti. Di solito è il contrario. Fortunatamente, esistono soluzioni come Bacula Enterprise per proteggere e salvaguardare molti tipi di dati e ambienti di archiviazione diversi, compresi quelli dell’HPC e del supercomputing.

Bacula Enterprise è utilizzato da enti governativi come la NASA e i Laboratori Nazionali degli Stati Uniti per proteggere molti petabyte di dati archiviati con IBM HPSS. Ad esempio, alcuni dei motivi per cui la NASA ha scelto Bacula per i suoi ambienti esigenti sono stati il supporto HPSS out-of-the-box, l’accesso multiutente, la crittografia conforme a FIPS e l’assenza di una modalità di licenza basata sulla capacità. Oltre a collegarsi perfettamente con la tecnologia HPSS e a corrispondere alla sua vasta scalabilità, Bacula tende ad essere la soluzione di backup preferita nelle implementazioni di supercomputing e HPC, grazie alle sue elevate qualità di sicurezza, agli speciali strumenti di gestione HPC e alla sua capacità di gestire miliardi di file. Inoltre, il modello di licenza di Bacula non prevede l’addebito in base al volume di dati, riducendo i costi in modo significativo.

Per saperne di più sul successo di Bacula Enterprise con la NASA (e sulle capacità di backup e ripristino di Bacula per HPSS), consulti il nostro articolo dedicato a questo argomento.

Informazioni sull'autore
Rob Morrison
Rob Morrison è il direttore marketing di Bacula Systems. Ha iniziato la sua carriera nel marketing IT con Silicon Graphics in Svizzera, ottenendo ottimi risultati in vari ruoli di gestione del marketing per quasi 10 anni. Nei 10 anni successivi, Rob ha ricoperto anche diverse posizioni di gestione del marketing in JBoss, Red Hat e Pentaho, assicurando la crescita della quota di mercato di queste note aziende. Si è laureato all'Università di Plymouth e ha conseguito una laurea ad honorem in Digital Media and Communications e ha completato un programma di studi all'estero.
Lascia un commento

Il suo indirizzo e-mail non sarà pubblicato. I campi obbligatori sono contrassegnati da *