Home > Blog de Apoio e Recuperação > Revelando os verdadeiros custos da HPC

Revelando os verdadeiros custos da HPC

1 Star2 Stars3 Stars4 Stars5 Stars
(7 avaliações, média: 4,86 de 5)
Loading...
Atualizado 28th agosto 2024, Rob Morrison

Introdução

A capacidade de processar grandes quantidades de dados com grande velocidade fez com que a HPC ganhasse espaço em diversos setores, como finanças, saúde, defesa, meteorologia e muitos outros. Ela pode ser uma ferramenta essencial para vários processos que giram em torno da descoberta e da inovação. Alguns exemplos seriam a simulação em 3D, a renderização de filmes em alta definição, a análise preditiva, a modelagem molecular e, às vezes, o simples gerenciamento de um grande volume de arquivos, resultante de dados que são gerados rapidamente e em grandes quantidades. No entanto, o desempenho impressionante e outras vantagens também costumam vir acompanhados de um tema desafiador: orçamento e financiamento.

Não apenas o hardware necessário para a HPC é extremamente caro, mas o custo total – o verdadeiro custo da HPC – vai muito além dos custos iniciais. Nosso objetivo neste artigo é abordar o tema dos custos da HPC, incluindo os custos superficiais e ocultos, além de oferecer conselhos sobre como reduzir o custo total da HPC.

O custo superficial da HPC

O custo superficial da implementação da HPC é a soma de várias despesas que são óbvias e aparentes para qualquer usuário em potencial. Esses são os custos que são considerados inicialmente ao planejar a implementação de uma solução de HPC. Os custos superficiais da computação de alto desempenho podem ser separados em cinco categorias principais: software, hardware, infraestrutura, pessoal e “outros”.

Licenças de software

Há três subcategorias principais de software que são consideradas parte do custo inicial da HPC. A primeira categoria é o pagamento dos sistemas operacionais – sejam as versões empresariais do Linux ou sistemas operacionais totalmente personalizados feitos especificamente para trabalhar com HPCs.

A segunda categoria abrange tudo o que uma empresa pode precisar para gerenciar o hardware de HPC: ferramentas de monitoramento de recursos, soluções de backup e recuperação, software de gerenciamento de carga de trabalho, soluções de agendamento de tarefas e assim por diante.

Por último, mas não menos importante, está o custo do software comercial que pode usar os recursos da HPC para executar cargas de trabalho específicas – análise de dados, modelagem e simulação são apenas uma pequena fração de todas as possibilidades.

Aquisição de hardware

O elemento mais caro no departamento de hardware é também o elemento mais óbvio em todo o tópico de “custos de HPC”: o hardware de computação que executa todos os cálculos e outras tarefas. CPUs, GPUs e configurações de memória altamente personalizadas podem ser vendidas em pacotes de servidores ou clusters ou separadamente.

O desempenho da computação não seria tão eficaz sem os recursos de armazenamento para suportar esse tipo de velocidade de operação de leitura e gravação. Dessa forma, também é necessário usar soluções de armazenamento de alta velocidade – não apenas SSDs (mais rápidos, mas com menos armazenamento) ou HDDs (significativamente mais lentos com maior capacidade), mas também sistemas de armazenamento altamente personalizados capazes de lidar com cargas de trabalho de HPC, como sistemas de arquivos paralelos.

A maioria das infraestruturas e dos sistemas existentes já opera usando alguma forma de conexão sem fio. O hardware em questão também precisa acompanhar o desempenho das estruturas de HPC, o que implica switches e roteadores Ethernet caros, capazes de lidar com alta largura de banda, e muitos outros hardwares de alta velocidade para fins de rede.

Praticamente todo sistema de computação voltado para o cliente produz calor ao realizar cálculos ou outras operações. Os HPCs não são exceção a essa regra, e os sistemas de resfriamento instalados nesse hardware devem ser capazes de lidar com temperaturas extremamente altas para garantir que o hardware caro não derreta sob cargas de trabalho pesadas. Duas das opções mais populares até o momento são os sistemas de resfriamento líquido e os sistemas de resfriamento a ar, e a escolha entre os dois depende muito das circunstâncias específicas de cada instância de HPC.

Configuração da infraestrutura

A configuração do hardware e o fornecimento de energia para ele são partes importantes da configuração inicial da HPC. Em primeiro lugar, os cálculos de alto desempenho significam que há uma grande quantidade de energia necessária constantemente. Investir em fontes de alimentação confiáveis e dimensionáveis é fundamental no contexto das infraestruturas de HPC.

A grande complexidade desse hardware também significa que a configuração e a personalização inicial teriam que ser realizadas por um profissional, cujos serviços também custam caro. Além disso, o custo total de armazenamento de todo esse hardware em uma instalação dedicada com todos os elementos necessários, como eletricidade e segurança física, também é uma parte significativa do custo inicial total das HPCs.

Despesas com a força de trabalho

Uma parte relativamente pequena das despesas também vai para o treinamento. É provável que não seja apenas necessário treinar os funcionários existentes em relação ao funcionamento da HPC, mas talvez seja necessário contratar mais pessoas apenas para manter as condições de trabalho de uma unidade de HPC, sejam elas especialistas em HPC, administradores de sistemas e assim por diante.

O custo oculto da HPC

Como o título sugere, os custos ocultos no contexto da HPC representam despesas potenciais que podem ter sido negligenciadas durante as fases de planejamento e orçamento. A combinação de todos os custos ocultos geralmente é maior do que a soma total dos custos superficiais, e é por isso que estamos abordando esse tópico em primeiro lugar.

O número total de grupos de custos aqui será muito maior, pois é difícil posicionar muitos desses custos de outra forma que não seja completamente separados dos demais. No entanto, vamos abordar seis grupos de custos principais: despesas operacionais, expansões de instalações, segurança de dados, tempo de inatividade, gerenciamento de dados e conformidade.

Despesas operacionais

A manutenção regular, tanto do hardware quanto do software, é essencial para que os HPCs continuem funcionando com a melhor eficiência possível. A eletricidade seria outra opção notável aqui, mas já a mencionamos anteriormente por ser uma escolha bastante óbvia. A aplicação de vários patches e atualizações ao software existente é uma parte importante de qualquer sistema HPC para melhorar o desempenho, aumentar a segurança e assim por diante.

Expansões das instalações

A política de atualização mencionada acima não se aplica apenas ao lado do software da ferramenta, mas também deve ser executada no lado do hardware. Modificar o hardware HPC existente para obter melhor distribuição de energia, maior desempenho ou sistemas de resfriamento mais eficientes também é considerado um custo oculto a longo prazo. Também pode chegar um momento em que as acomodações atuais de armazenamento de HPC não sejam suficientes para o estado atual da ferramenta. Nesse caso, a expansão das instalações ou o aluguel de um novo espaço também pertencerá a essa categoria de despesas ocultas.

Segurança dos dados

Medidas de segurança robustas são quase certamente uma necessidade, considerando o uso da HPC em campos muito específicos e preocupados com a segurança, como pesquisa e desenvolvimento. A tarefa se torna ainda mais difícil considerando o tamanho de um ambiente médio de HPC. Uma abordagem multifacetada com políticas de segurança de dados personalizáveis é imprescindível na maioria das situações. A maioria dos aplicativos de HPC e supercomputação é usada para dados e aplicativos altamente valiosos e, muitas vezes, altamente confidenciais. Portanto, a segurança é provavelmente um fator crítico para a maioria das organizações de HPC.

Tempo de inatividade

Cada instância de tempo de inatividade, seja ela esperada ou inesperada, gera perdas de produtividade e de receita potencial. Evitar essas situações o máximo possível é a prioridade de qualquer infraestrutura moderna, e a HPC não é exceção. O ajuste fino do hardware e do software da HPC também é um processo contínuo que é praticamente interminável em sua natureza. Sempre haverá algo que pode ser feito para melhorar os resultados, seja uma nova peça de hardware, uma nova atualização de software etc.

Gerenciamento de dados

Lidar com grandes conjuntos de dados é um desafio significativo em qualquer sistema. A transferência de grandes massas de dados para um local diferente, seja para fins de preservação ou por qualquer outro motivo, é um processo muito delicado e também bastante caro, devido ao fato de que o lado receptor da transferência deve ter a capacidade e o desempenho para lidar com isso. Tanto as soluções de armazenamento de dados baseadas em nuvem quanto os data centers remotos têm suas próprias deficiências (por exemplo, alguns provedores de nuvem até cobram taxas de saída).

Além disso, nem todo o armazenamento no HPC precisa ser abordado da mesma maneira. Há muito potencial para usar várias formas de armazenamento de longo prazo junto com os processos de arquivamento, o que pode economizar espaço de armazenamento, melhorar o desempenho e obter uma série de outras vantagens potenciais.

Conformidade

Há muitos regulamentos e padrões do setor diferentes que afetam os HPCs de alguma forma. A maioria das normas existentes implica em consequências extremamente severas se as diretrizes não forem seguidas, desde multas monetárias até processos judiciais e danos absolutos à reputação. A conformidade é fundamental, mesmo que seja difícil implementá-la em ambientes tão vastos quanto os das HPCs.

A maioria desses custos é muito difícil de prever ou mesmo de oferecer um exemplo específico. No entanto, seria sensato mencionar que cada elemento da estrutura de preços pode diferir em termos de qualidade e preço. Além disso, só é possível usar o “grau” mais alto de elementos específicos de preço em conjunto com vários outros pontos da lista. Por exemplo, optar por investir em hardware mais potente, como CPUs ou GPUs, praticamente não traria benefícios, a menos que fossem feitos mais investimentos em hardware complementar – ambientes de rede de alto desempenho, soluções de armazenamento rápido e assim por diante.

Técnicas de redução de custos para ambientes de computação de alto desempenho

O gerenciamento de HPC pode ser uma tarefa bastante cara e desafiadora. Embora as nuances específicas de cada situação possam diferir de um caso para outro, podemos oferecer dez recomendações diferentes em termos de como uma empresa pode melhorar a situação relacionada a custos em seu ambiente de HPC:

  1. A consolidação da carga de trabalho pode ser usada para melhorar a utilização geral dos recursos do ambiente, permitindo que mais de um aplicativo seja executado no mesmo hardware, quando aplicável. Os resultados dessa mudança são um número total menor de servidores necessários, custos operacionais mais baixos para a HPC e melhor otimização geral dos recursos.
  2. As renegociações de contratos de fornecedores, de vez em quando, podem oferecer vantagens substanciais aos seus usuários quando feitas corretamente. Como é muito provável que um ambiente de HPC médio tenha contratos não apenas com software, mas também com empresas de hardware e até mesmo com fornecedores de serviços, a renegociação tem muito potencial para oferecer melhores termos, preços mais baixos e outras vantagens. Algumas das maneiras mais possíveis de fazer isso são acordos plurianuais, compras em grandes quantidades e até mesmo o aproveitamento da concorrência, quando possível.
  3. O consumo total de eletricidade pode ser reduzido com a implementação de melhores soluções de resfriamento e de hardware e software com maior eficiência energética. Deve ser possível até mesmo usar o gerenciamento avançado de energia para reduzir o consumo de energia de toda a infraestrutura de HPC fora das horas de pico de carga de trabalho.
  4. A pesquisa das alternativas de código aberto existentes para o software de HPC pode reduzir alguns dos custos de licenciamento. No entanto, vale a pena observar que muitas das soluções de código aberto são notoriamente difíceis de dominar, mesmo quando comparadas a softwares empresariais pagos de alto nível.
  5. A virtualização e a conteinerização também podem ser implementadas para otimizar o uso de recursos no ambiente de HPC. Tecnologias como Kubernetes, VMware, Docker e várias outras podem ser usadas para reduzir o número de servidores físicos necessários para executar todo o software necessário (permitindo que várias instâncias de software sejam executadas no mesmo servidor), oferecendo melhorias em termos de custos de hardware, alocação de recursos e assim por diante.
  6. Os programas de treinamento da equipe, embora caros, podem melhorar drasticamente os recursos de gerenciamento de HPC da empresa, levando a um número menor de erros causados pelo fator humano (que geralmente é muito maior do que o custo dos esforços de treinamento da equipe).
  7. O cloud bursting é uma abordagem relativamente nova para a implementação do armazenamento em nuvem em ambientes semelhantes ao da HPC. Ela usa recursos de nuvem que são adicionados à infraestrutura somente durante períodos conhecidos de pico de carga de trabalho, o que reduz drasticamente o custo total e torna o sistema inteiro muito mais econômico.
  8. As soluções de armazenamento em camadas e outros meios de melhorar a eficiência do gerenciamento de dados também podem servir como um fator de otimização bastante substancial das despesas de armazenamento. A ideia por trás disso é relativamente simples: os dados mais usados são mantidos no hardware de mais alta velocidade, enquanto as informações menos críticas podem ser armazenadas em um armazenamento mais lento e mais barato.
  9. A alocação de recursos de HPC pode ser aprimorada ainda mais com a adoção de soluções abrangentes de gerenciamento de trabalho e agendadores de carga de trabalho (Grid Engine, PBS, SLURM). O resultado final será significativamente diferente em cada situação, mas as melhorias gerais de rendimento e a redução do tempo ocioso são praticamente garantidas para a maioria dos usuários de HPC.
  10. A otimização contínua dos ambientes de HPC existentes é possível por meio da realização de auditorias regulares. A capacidade de identificar ineficiências e outros elementos sem brilho do sistema torna possível melhorar o desempenho do sistema de forma contínua e até mesmo remover recursos considerados redundantes e que não são mais necessários para o funcionamento do sistema.

Como o Bacula Enterprise pode ajudar na redução de custos de HPC

Os ambientes de HPC são grandes e, muitas vezes, difíceis de gerenciar – e, ainda assim, precisam de todas as medidas básicas de segurança, incluindo algo tão simples quanto a criação de backups de dados. Felizmente, as soluções de nível empresarial, como o Bacula Enterprise, são capazes de oferecer backups de dados para ambientes de HPC e muitos outros recursos subsequentes.

A solução robusta e altamente escalável do Bacula pode oferecer recursos impressionantes de proteção de dados, arquitetura flexível e utilização eficiente do espaço de armazenamento em um único pacote. Ele usa um modelo de licenciamento flexível que não está vinculado à capacidade de armazenamento, o que o torna uma grande vantagem para os ambientes de HPC (já que eles geralmente lidam com grandes volumes de dados).

O Bacula também se destaca na recuperação de desastres, não vincula seus clientes a uma pequena lista de fornecedores suportados e pode até oferecer algumas das vantagens de uma natureza de código aberto (já que foi criado como uma extensão de uma solução gratuita e de código aberto para começar). O Bacula é usado por muitos dos maiores centros de pesquisa do mundo, incluindo a NASA, os Laboratórios Nacionais dos EUA e algumas das principais organizações de pesquisa da Europa.

Considerações sobre sustentabilidade e o Bacula Enterprise

A sustentabilidade está rapidamente se tornando cada vez mais importante em HPC, supercomputação e grandes centros de dados. O Bacula Enterprise também está especialmente ciente do cenário moderno de consciência ambiental, oferecendo a sustentabilidade como um ponto de discussão chave em uma ampla variedade de seus recursos: melhorias na utilização da infraestrutura, suporte para muitos tipos de ambiente, técnicas avançadas de economia de armazenamento para reduzir os requisitos de armazenamento, gerenciamento econômico de bilhões de arquivos e o foco geral na redução do consumo de energia para os processos de backup e restauração. Os níveis excepcionais de segurança do Bacula, comparados aos de outros fornecedores de backup, também são fundamentais para a sustentabilidade e a continuidade dos negócios. Seu histórico de código aberto significa que seu código de software foi criado de maneira muito mais sustentável, e seus principais escritórios estão localizados na Suíça, onde a produção de energia com baixo teor de carbono está muito à frente da dos outros países de origem dos concorrentes do Bacula.

Dessa forma, a solução do Bacula consegue diminuir a pegada de carbono das operações de proteção de dados, contribuindo significativamente para a popularização de práticas sustentáveis de gerenciamento de dados, estendendo a vida útil do hardware existente ou legado para minimizar o lixo eletrônico, e assim por diante. Entre em contato com a Bacula para obter mais informações e seu white paper sobre seus níveis de sustentabilidade especialmente altos.

Conclusão

Os ambientes de computação de alto desempenho podem lidar com cargas de trabalho de tamanhos enormes e são muito importantes em muitos setores, especialmente quando se trata de realizar vários cálculos, estimativas e decisões baseadas em dados. Ao mesmo tempo, a configuração de um único ambiente de HPC é um grande empreendimento em termos de tempo e recursos.

Surpreendentemente, nem todas as organizações reconhecem que gerenciar um ambiente de HPC pode ser muito mais caro do que comprá-lo e configurá-lo inicialmente. É por isso que separamos o artigo em custos superficiais e custos ocultos, oferecendo várias categorias e subcategorias como forma de explicar o assunto.

No entanto, a explicação dos custos não foi o único objetivo deste artigo. Também compartilhamos táticas e recomendações que podem levar a melhorias gerais no orçamento, seja por meio de virtualização, consolidação de carga de trabalho, renegociação de contratos e muito mais. A finalidade do software de backup de terceiros também foi abordada em detalhes, com o Bacula Enterprise sendo usado como exemplo de como uma solução de backup e recuperação altamente escalável pode ser essencial para um ambiente tão complexo e multifacetado.

A HPC pode ser uma ferramenta muito valiosa para muitos setores diferentes nos dias de hoje. Conhecer o preço total desse ambiente e os principais elementos que contribuem para ele deve servir como uma valiosa fonte de informações ao avaliar o custo total da implementação a curto e longo prazo.

Sobre o autor
Rob Morrison
Rob Morrison é o diretor de marketing da Bacula Systems. Ele começou sua carreira de marketing de TI na Silicon Graphics, na Suíça, e desempenhou intensamente várias funções de administração de marketing por quase 10 anos. Nos 10 anos seguintes, Rob também ocupou vários cargos de administração de marketing na JBoss, Red Hat e Pentaho, assegurando o crescimento da participação no mercado dessas empresas reconhecidas. Ele é formado pela Universidade de Plymouth e tem um diploma de honras em mídia digital e comunicação, além de ter feito um programa de estudos no exterior.
Deixe um comentário

Seu e-mail não será publicado. Os campos obrigatórios estão marcados com *