Contents
O que é HPSS?
High-Performance Storage System (HPSS) é um software de gerenciamento de armazenamento altamente escalável e flexível desenvolvido pela HPSS Collaboration para fornecer um sistema de gerenciamento de armazenamento hierárquico (HSM) definido por software e baseado em políticas. Essa tecnologia é normalmente procurada por muitos ambientes de TI de HPC (computação de alto desempenho) e supercomputação. Um dos motivos para isso é que apenas um único namespace HPSS pode lidar com bilhões de arquivos, pode criar de alguns arquivos por segundo a milhares por segundo e escalar de petabytes a exabytes de dados.
O HPSS usa uma combinação de SAN, LAN e tecnologias de cluster para combinar muitas mídias de armazenamento diferentes em uma única infraestrutura (computadores, discos, unidades de fita ou bibliotecas de fita).
O HPSS oferece suporte a muitos métodos diferentes de criação de dados. Por exemplo, ele pode trabalhar com FUSE, FTP, FTP paralelo e até mesmo com a API do cliente (E/S paralela). A API do HPSS é compatível com Solaris, Linux e AIX, e o suporte completo ao Linux foi adicionado com a versão 7.5. A totalidade do HPSS é criada usando um RDBMS (Relational Database Management System, Sistema de Gerenciamento de Banco de Dados Relacional) escalável da IBM chamado Db2.
Vantagens do HPSS
O armazenamento HPSS é muito complexo, com a maioria de seus recursos criados para fornecer armazenamento escalável de longo prazo para as necessidades das empresas. Algumas das vantagens mais significativas do IBM HPSS incluem:
- Disponibilidade. Como o Db2 oferece a capacidade de garantir a integridade dos metadados e, ao mesmo tempo, oferece recuperação rápida de falhas, não é particularmente difícil para o HPSS fornecer uma combinação de proteção de dados de longo prazo e alta disponibilidade de dados. O HPSS RAIT (Redundant Array of Independent Tapes) oferece recursos baratos de redundância de dados, e a precisão dos dados é garantida por meio da proteção de blocos lógicos e da validação da soma de verificação dos arquivos.
- Eficiência. O HPSS usa uma combinação de técnicas para garantir alto desempenho e eficiência impressionante. A latência de acesso é reduzida pela organização da ordem R/W, a velocidade de transferência de arquivos grandes é aprimorada por meio da transferência paralela e da colocação, e a transparência para os usuários finais é obtida por meio de vários recursos de automação com gerenciamento de políticas.
- Suporte. O HPSS tem suporte e é fornecido pela IBM com um número impressionante de benefícios – instalação, configuração, resultados de testes, verificação de componentes e uma arquitetura de solução detalhada.
- Escalabilidade enorme. O HPSS tem uma estrutura exclusiva que permite que ele seja dimensionado de forma incremental quando necessário. A adição de recursos de armazenamento, rede e computação ao namespace possibilita que exabytes de dados e bilhões de arquivos sejam armazenados nesse mesmo namespace.
Inovações do HPSS
O HPSS é um exemplo excepcional de como um software pode durar mais de dez anos antes de ser totalmente substituído. O Fórum de Usuários do HPSS de 2022 marcou o trigésimo aniversário desse software, que continua forte até hoje. Algumas das inovações mais proeminentes que o HPSS trouxe para o setor incluem:
- Chamadas de procedimento remoto. O HPSS é amplamente considerado uma das primeiras infraestruturas a obter vantagens de computação distribuída usando chamadas de procedimentos remotos.
- Gerenciamento de armazenamento hierárquico. Como o HSM é um modelo de armazenamento em camadas, implementá-lo em um ambiente prático pode ser extremamente difícil. O HPSS é oficialmente o primeiro exemplo de uma implementação de HSM bem-sucedida comercialmente.
- Arquitetura baseada em rede. Houve um período específico na década de 1990 em que praticamente todas as unidades de HPC se transformaram usando um modelo de design distribuído como linha de base, tornando praticamente obrigatório o uso da rede para a transferência de dados. O HPSS foi uma das primeiras implementações bem-sucedidas do setor de recursos de rede distribuída.
- Uma divisão clara entre comandos de tráfego de controle e comandos de dados. O HPSS aprimorou significativamente suas opções de escalabilidade ao separar completamente dois grupos de funções diferentes – comandos de controle de dados e de tráfego.
- Transações distribuídas. Toda a ideia de uma arquitetura distribuída foi inicialmente proposta por um pequeno número de soluções (incluindo o HPSS), e a implementação de transações distribuídas foi o principal catalisador dessa sugestão.
As origens do HPSS
O HPSS foi criado inicialmente em 1992 e possibilitado pela pesquisa do National Storage Laboratory (NSL). O objetivo principal do NSL era comercializar tecnologias de hardware e software para superar vários gargalos em relação às informações digitais, como gargalos de armazenamento de dados e de computação.
A NSL foi criada como uma colaboração entre a IBM e cinco laboratórios nacionais do Departamento de Energia dos EUA:
- Oak Ridge (ORNL);
- Lawrence Livermore (LLNL);
- Sandia (SNL);
- Los Alamos (LANL);
- Lawrence Berkeley (LBL).
O grupo de organizações de pesquisa acima percebeu que a chamada “explosão de armazenamento de dados” estava prestes a acontecer, fazendo com que vários parâmetros, como armazenamento de dados, velocidade de transferência de dados e capacidade de computação, aumentassem tremendamente. O objetivo dessa colaboração era criar e implantar uma infraestrutura que pudesse ser dimensionada sem esforço com todos os parâmetros esperados e muito mais. A meta era criar um sistema capaz de suportar gigabytes de velocidade de transferência de dados, dezenas de terabytes de taxa de transferência de dados e petabytes ou até exabytes de dados armazenados.
A colaboração original do IBM HPSS entendeu claramente que não há uma única organização no mundo que tenha os recursos e a experiência para atender a todos os novos requisitos de armazenamento e transferência de uma só vez. Durante toda a existência do HPSS, mais de vinte empresas e organizações diferentes contribuíram para o desenvolvimento desse projeto, incluindo centros de supercomputadores da NSF, laboratórios federais dos EUA, universidades e assim por diante.
A equipe principal de desenvolvimento do HPSS a partir de 2022 consistia em todos os seis colaboradores originais, como IBM Global Business Services, LLNL, ORNL, LANL, SNL e LBNL. O National Energy Research Scientific Computing Center (NERSC) também é considerado um colaborador importante no desenvolvimento do HPSS como produto.
As conquistas mais importantes do HPSS
Durante seus trinta anos de história, o sistema de armazenamento HPSS conseguiu mudar e evoluir, trazendo novas conquistas e recursos para o setor. Aqui estão alguns exemplos disso:
- Um teste relativamente desconhecido que implicava o backup de um bilhão de arquivos foi realizado com sucesso pela primeira vez em novembro de 2007 pelo San Diego Supercomputer Center – os dados em questão foram copiados do GPFS (sistema de arquivos em cluster da própria IBM) para o HPSS.
- O National Center for Supercomputing Applications, em Illinois, lançou uma infraestrutura HPSS com 380 Petabytes de armazenamento em maio de 2013, uma quantidade de armazenamento genuinamente tremenda na época.
Exemplos notáveis de uso do HPSS
O HPSS é usado por dezenas de empresas conhecidas e populares em todo o mundo, oferecendo acesso mais acessível e mais eficiente a grandes pools de dados. Na lista abaixo, apresentamos vários projetos que usam o HPSS para armazenamento de dados de longo prazo:
- The Dark Energy Spectroscopic Instrument – mais de 5 Petabytes de resultados de experimentos e dados de simulação.
- The Joint Genome Institute – mais de 20 Petabytes de informações, incluindo sequências mapeadas, genomas montados, sequências com controle de qualidade, sequências brutas, transcriptomas e muito mais.
- The Advanced Light Source (Laboratório de Berkeley) – mais de 4 Petabytes de dados por dez anos, incluindo todas as informações da linha de luz de tomografia.
- The Intergovernmental Panel on Climate Change – mais de 30 Petabytes de informações, incluindo simulações do sistema terrestre, simulações climáticas e muitos outros dados que contribuíram para a Twentieth Century Reanalysis (um projeto internacional com o objetivo de criar um conjunto de dados de circulação atmosférica para todo o século XX).
- O fundo cósmico de micro-ondas – pelo menos 5,5 petabytes de simulações e dados de vários experimentos, incluindo experimentos do Polo Sul, BICEP, Keck e 17 telescópios diferentes em todo o planeta.
O presente e o futuro do HPSS
O HPSS foi criado inicialmente para impulsionar o mundo em relação aos padrões de rede, capacidades de armazenamento, taxas de transferência, etc. Esse projeto conseguiu permanecer na vanguarda do progresso e da evolução tecnológica mais de trinta anos após sua criação, e não há dúvida de que continuará a fazê-lo no futuro.
Esse sistema continuou evoluindo, crescendo e implementando novos recursos com o passar do tempo, introduzindo soluções para problemas existentes e elevando o nível de vários padrões em relação ao gerenciamento de dados em grande escala. Por exemplo, a facilidade de uso agora é vista como o próximo grande objetivo – uma tentativa de tornar o armazenamento HPSS mais fácil de trabalhar e, ao mesmo tempo, abordar outros desafios bem conhecidos do sistema, como limitações de tamanho e comprimento de arquivo.
HPSS e Bacula Enterprise
O HPSS é uma solução de armazenamento de dados muito específica para cada caso, geralmente usada em ambientes científicos, de pesquisa e de laboratório – normalmente em organizações de nível governamental. O fato de esses casos de uso serem tão distantes das necessidades do tipo de negócios simples não significa que esses dados não devam ser desprotegidos adequadamente. Geralmente é o contrário. Felizmente, existem soluções como o Bacula Enterprise para proteger e resguardar muitos tipos diferentes de dados e ambientes de armazenamento – incluindo os de HPC e supercomputação.
O Bacula Enterprise é utilizado por entidades de nível governamental, como a NASA e os Laboratórios Nacionais dos EUA, para proteger muitos petabytes de dados armazenados usando o IBM HPSS. Por exemplo, apenas algumas das razões pelas quais a NASA escolheu o Bacula para seus ambientes exigentes foi o fato de ele fornecer suporte HPSS pronto para uso, acesso multiusuário, criptografia compatível com FIPS e nenhum modo de licenciamento baseado em capacidade. Além de se conectar perfeitamente com a tecnologia HPSS e corresponder à sua vasta escalabilidade, o Bacula tende a ser a solução de backup favorita em implementações de supercomputação e HPC devido às suas qualidades de alta segurança, ferramentas especiais de gerenciamento de HPC e sua capacidade de lidar com bilhões de arquivos. Além disso, o modelo de licenciamento do Bacula não cobra por volume de dados, reduzindo significativamente os custos.
Saiba mais sobre o sucesso do Bacula Enterprise com a NASA (bem como sobre os recursos de backup e recuperação do Bacula para HPSS) em nosso artigo dedicado sobre esse tópico.