Bienvenue > Blog sur la sauvegarde et la restauration > Révéler les coûts réels du calcul haute performance

Révéler les coûts réels du calcul haute performance

Mis à jour 28th août 2024, Rob Morrison

Introduction

La capacité de traiter des quantités massives de données à grande vitesse a permis au calcul intensif de trouver sa place dans un large éventail d’industries, telles que la finance, les soins de santé, la défense, la météorologie et bien d’autres encore. Il peut être un outil essentiel pour une multitude de processus qui tournent autour de la découverte et de l’innovation. La simulation 3D, le rendu de films en haute définition, l’analyse prédictive, la modélisation moléculaire et, parfois, la simple gestion d’un volume important de fichiers, résultant de données générées rapidement et en grandes quantités, en sont quelques exemples. Cependant, les performances impressionnantes et les autres avantages s’accompagnent généralement d’un défi : la budgétisation et le financement.

Non seulement le matériel nécessaire au calcul intensif est déjà extrêmement coûteux, mais le coût total – le véritable coût du calcul intensif – dépasse largement les coûts initiaux. Notre objectif dans cet article est de passer en revue le sujet des coûts du HPC, y compris les coûts de surface et les coûts cachés, tout en fournissant des conseils sur la façon de réduire le coût total du HPC.

Le coût de surface du HPC

Le coût de surface de la mise en œuvre du HPC est la somme des différentes dépenses qui sont évidentes et visibles pour tout utilisateur potentiel. Ce sont les coûts qui sont pris en compte initialement lors de la planification de la mise en œuvre d’une solution de calcul de haute performance. Les coûts de surface du calcul à haute performance peuvent être répartis en cinq grandes catégories : logiciels, matériel, infrastructure, personnel et « autres ».

Licences de logiciels

Il existe trois sous-catégories principales de logiciels qui sont considérées comme faisant partie du coût initial du calcul intensif. La première catégorie concerne le paiement des systèmes d’exploitation, qu’il s’agisse des versions Linux d’entreprise ou de systèmes d’exploitation entièrement personnalisés, conçus spécifiquement pour fonctionner avec les calculateurs à haute performance.

La deuxième catégorie couvre tout ce dont une entreprise peut avoir besoin pour gérer le matériel HPC : outils de surveillance des ressources, solutions de sauvegarde et de récupération, logiciels de gestion de la charge de travail, solutions de planification des tâches, etc.

Enfin, le coût des logiciels commerciaux qui peuvent utiliser les ressources du HPC pour effectuer des tâches spécifiques – l’analyse de données, la modélisation et la simulation ne sont qu’une petite partie de toutes les possibilités.

Achat de matériel

L’élément le plus coûteux du département matériel est également l’élément le plus évident de l’ensemble du sujet des « coûts HPC » – le matériel informatique qui effectue tous les calculs et autres tâches. Les CPU, les GPU et les configurations de mémoire hautement personnalisées peuvent être vendues dans des ensembles de serveurs ou de grappes ou séparément.

Les performances informatiques seraient loin d’être aussi efficaces sans les capacités de stockage nécessaires pour prendre en charge ce type de vitesse de lecture et d’écriture. Il est donc nécessaire d’utiliser des solutions de stockage à grande vitesse, non seulement des disques SSD (plus rapides mais moins de stockage) ou des disques durs (nettement plus lents mais de plus grande capacité), mais aussi des systèmes de stockage hautement personnalisés capables de gérer les charges de travail HPC, tels que les systèmes de fichiers parallèles.

La plupart des infrastructures et systèmes existants fonctionnent déjà en utilisant une forme ou une autre de connexion sans fil. Le matériel en question doit également suivre les performances des cadres HPC, ce qui implique des commutateurs et des routeurs Ethernet coûteux capables de gérer une large bande passante, ainsi que beaucoup d’autres matériels à grande vitesse pour les réseaux.

Pratiquement tous les systèmes informatiques orientés client produisent de la chaleur lorsqu’ils effectuent des calculs ou d’autres opérations. Les systèmes de refroidissement installés dans ce matériel doivent être capables de supporter des températures extrêmement élevées afin de s’assurer que ce matériel coûteux ne fondra pas sous l’effet d’une charge de travail élevée. Les deux options les plus populaires à ce jour sont les systèmes de refroidissement par liquide et les systèmes de refroidissement par air, et le choix entre les deux dépend fortement des circonstances spécifiques de chaque instance HPC.

Configuration de l’infrastructure

La configuration du matériel et son alimentation sont deux éléments importants de l’installation initiale d’un système de calcul intensif. Tout d’abord, les calculs à haute performance nécessitent beaucoup d’énergie en permanence. Investir dans des alimentations fiables et évolutives est primordial dans le contexte des infrastructures HPC.

La complexité même de ce matériel signifie également que l’installation et la personnalisation initiale doivent être effectuées par un professionnel dont les services coûtent également de l’argent. En outre, le coût total du stockage de tout ce matériel dans une installation dédiée dotée de tous les éléments nécessaires, tels que l’électricité et la sécurité physique, représente également une part importante du coût initial total des HPC.

Frais de personnel

Une part relativement faible des dépenses est également consacrée à la formation. Non seulement il est probablement nécessaire de former vos employés actuels au fonctionnement du HPC, mais il faut également engager des personnes supplémentaires pour maintenir les conditions de travail d’une unité HPC – qu’il s’agisse de spécialistes HPC, d’administrateurs système, etc.

Les coûts cachés du calcul intensif

Comme le titre l’indique, les coûts cachés dans le contexte du HPC représentent des dépenses potentielles qui auraient pu être négligées lors des phases de planification et de budgétisation. La combinaison de tous les coûts cachés est souvent plus importante que la somme totale des coûts de surface, ce qui explique pourquoi nous abordons ce sujet en premier lieu.

Le nombre total de groupes de coûts sera beaucoup plus élevé, car il est difficile de positionner un grand nombre de ces coûts autrement qu’en les séparant complètement du reste. Néanmoins, nous allons examiner six groupes de coûts principaux : les dépenses opérationnelles, l’expansion des installations, la sécurité des données, les temps d’arrêt, la gestion des données et la conformité.

Dépenses opérationnelles

Une maintenance régulière du matériel et des logiciels est essentielle pour que les HPC fonctionnent au mieux de leur efficacité. L’électricité serait une autre option notable ici, mais nous l’avons déjà mentionnée auparavant car il s’agit d’un choix plutôt évident. L’application de divers correctifs et mises à jour aux logiciels existants est une partie importante de tout système HPC afin d’améliorer les performances, de renforcer la sécurité, etc.

Expansion des installations

La politique de mise à niveau susmentionnée ne s’applique pas seulement à l’aspect logiciel de l’outil, mais elle doit également être appliquée à l’aspect matériel. La modification du matériel HPC existant afin d’obtenir une meilleure distribution de l’énergie, des performances plus élevées ou des systèmes de refroidissement plus efficaces est également considérée comme un coût caché à long terme. Il se peut aussi qu’un jour les capacités de stockage actuelles du calcul intensif ne suffisent plus pour l’état actuel de l’outil. Dans ce cas, l’agrandissement de l’installation ou la location d’un nouvel espace appartiendra également à cette catégorie de dépenses cachées.

Sécurité des données

Des mesures de sécurité robustes sont presque certainement une nécessité, compte tenu de l’utilisation du HPC dans des domaines très spécifiques où la sécurité est primordiale, tels que la recherche et le développement. La tâche devient encore plus difficile si l’on considère la taille d’un environnement HPC moyen. Dans la plupart des cas, il est indispensable d’adopter une approche à plusieurs volets avec des politiques de sécurité des données personnalisables. La majorité des applications de calcul intensif et de supercalculateurs sont utilisées pour des données et des applications de grande valeur et souvent très sensibles. Par conséquent, la sécurité est probablement un facteur critique pour la plupart des organisations HPC.

Temps d’arrêt

Chaque temps d’arrêt, qu’il soit prévu ou inattendu, entraîne des pertes de productivité et de revenus potentiels. Éviter ces situations autant que possible est la priorité de toute infrastructure moderne, et le calcul haute performance ne fait pas exception. La mise au point des aspects matériels et logiciels du HPC est également un processus continu qui est pratiquement sans fin dans sa nature. Il y aura toujours quelque chose à faire pour améliorer les résultats, qu’il s’agisse d’un nouveau matériel, d’une nouvelle mise à jour logicielle, etc.

Gestion des données

Le traitement de grands ensembles de données est un défi important dans tout système. Le transfert de grandes masses de données vers un autre endroit, que ce soit à des fins de conservation ou pour toute autre raison, est un processus très délicat qui est également très coûteux car le destinataire du transfert doit avoir la capacité et les performances nécessaires pour le gérer. Les solutions de stockage de données basées sur l’informatique en nuage et les centres de données distants ont leurs propres défauts (par exemple, certains fournisseurs d’informatique en nuage imposent même des frais de sortie).

En outre, il n’est pas nécessaire d’aborder tous les types de stockage dans le HPC de la même manière. Il existe de nombreuses possibilités d’utiliser diverses formes de stockage à long terme avec les processus d’archivage, ce qui peut permettre d’économiser de l’espace de stockage, d’améliorer les performances et d’obtenir une foule d’autres avantages potentiels.

Conformité

Il existe de nombreuses réglementations et normes industrielles différentes qui affectent les HPC d’une manière ou d’une autre. La plupart des réglementations existantes impliquent des conséquences extrêmement lourdes en cas de non-respect de leurs lignes directrices, allant d’amendes monétaires à des poursuites judiciaires et à une atteinte pure et simple à la réputation. La conformité est primordiale, même si elle peut être difficile à mettre en œuvre dans des environnements aussi vastes que les HPC.

La plupart de ces coûts sont très difficiles à prévoir ou même à illustrer par un exemple précis. Toutefois, il serait judicieux de mentionner que chaque élément de la structure tarifaire peut varier en termes de qualité et de prix. En outre, il n’est possible d’utiliser la « qualité » supérieure de certains éléments de tarification qu’en conjonction avec plusieurs autres points de la liste. Par exemple, le choix d’investir dans du matériel plus puissant, tel que des CPU ou des GPU, n’offrirait pratiquement aucun avantage si l’on n’investissait pas davantage dans du matériel supplémentaire – environnements de réseau à haute performance, solutions de stockage rapides, etc.

Techniques de réduction des coûts pour les environnements de calcul à haute performance

La gestion du calcul à haute performance peut être une tâche assez coûteuse et difficile. Bien que les nuances spécifiques à chaque situation puissent varier d’un cas à l’autre, nous pouvons proposer dix recommandations différentes sur la manière dont une entreprise peut améliorer la situation liée aux coûts dans son environnement HPC :

  1. La consolidation de la charge de travail peut être utilisée pour améliorer l’utilisation globale des ressources de l’environnement en permettant à plus d’une application de fonctionner sur le même matériel, le cas échéant. Ce changement se traduit par une diminution du nombre total de serveurs nécessaires, une réduction des coûts d’exploitation du HPC et une meilleure optimisation des ressources en général.
  2. Les renégociations de contrat des fournisseurs peuvent de temps à autre offrir des avantages substantiels à leurs utilisateurs lorsqu’elles sont bien menées. Étant donné qu’il est très probable qu’un environnement HPC moyen ait des contrats non seulement avec des logiciels, mais aussi avec des entreprises de matériel et même des fournisseurs de services, la renégociation peut offrir de meilleures conditions, des prix plus bas et d’autres avantages. Les accords pluriannuels, les achats groupés et même l’exploitation de la concurrence, lorsqu’elle est possible, comptent parmi les moyens les plus efficaces d’y parvenir.
  3. La consommation totale d’électricité peut être réduite en mettant en œuvre de meilleures solutions de refroidissement et du matériel et des logiciels plus économes en énergie. Il devrait même être possible d’utiliser une gestion avancée de l’alimentation afin de réduire la consommation d’énergie de l’ensemble de l’infrastructure HPC en dehors des heures de pointe.
  4. La recherche d’alternatives open-source pour les logiciels HPC peut permettre d’alléger certains coûts de licence. Toutefois, il convient de noter que de nombreuses solutions open-source sont réputées pour être difficiles à maîtriser, même par rapport à des logiciels d’entreprise payants de haut niveau.
  5. La conteneurisation et la virtualisation peuvent également être mises en œuvre afin d’optimiser l’utilisation des ressources dans l’environnement HPC. Des technologies telles que Kubernetes, VMware, Docker et plusieurs autres peuvent être utilisées pour réduire le nombre de serveurs physiques requis pour exécuter tous les logiciels nécessaires (en permettant à plusieurs instances de logiciels de fonctionner sur le même serveur), offrant des améliorations en termes de coûts de matériel, d’allocation des ressources, etc.
  6. Les programmes de formation du personnel, bien que coûteux, peuvent améliorer considérablement les capacités de gestion HPC de l’entreprise, ce qui permet de réduire le nombre d’erreurs dues au facteur humain (qui est généralement beaucoup plus élevé que le coût des efforts de formation du personnel).
  7. Le « cloud bursting » est une approche relativement nouvelle de la mise en œuvre du stockage en nuage dans des environnements similaires au HPC. Elle utilise des ressources en nuage qui ne sont ajoutées à l’infrastructure que pendant les périodes de pointe connues, ce qui réduit considérablement le coût total et rend l’ensemble du système beaucoup plus rentable.
  8. Les solutions de stockage hiérarchisé et les autres moyens d’améliorer l’efficacité de la gestion des données peuvent également constituer un facteur d’optimisation des dépenses de stockage assez important. L’idée est relativement simple : les données les plus utilisées sont conservées sur le matériel le plus rapide, tandis que les informations moins critiques peuvent être stockées sur un support plus lent et moins cher.
  9. L’allocation des ressources HPC peut être encore améliorée en adoptant des solutions complètes de gestion des tâches et des planificateurs de charge de travail (Grid Engine, PBS, SLURM). Le résultat final sera très différent dans chaque situation, mais des améliorations générales du débit et une réduction des temps morts sont pratiquement garanties à la majorité des utilisateurs de HPC.
  10. L’optimisation continue des environnements HPC existants est rendue possible par la réalisation d’audits réguliers. Le fait de pouvoir identifier les inefficacités et autres éléments médiocres du système permet d’améliorer les performances du système de manière continue et même de supprimer les ressources considérées comme redondantes et qui ne sont plus nécessaires au fonctionnement du système.

Comment Bacula Enterprise peut aider à réduire les coûts du HPC

Les environnements HPC sont vastes et souvent difficiles à gérer – et pourtant, ils ont toujours besoin de toutes les mesures de sécurité de base, y compris quelque chose d’aussi simple que la création de sauvegardes de données. Heureusement, des solutions d’entreprise telles que Bacula Enterprise sont capables d’offrir des sauvegardes de données aux environnements HPC et bien d’autres capacités ultérieures.

La solution robuste et hautement évolutive de Bacula peut offrir des capacités impressionnantes de protection des données, une architecture flexible et une utilisation efficace de l’espace de stockage dans un seul package. Elle utilise un modèle de licence flexible qui n’est pas lié à la capacité de stockage, ce qui constitue un avantage considérable pour les environnements HPC (puisqu’ils gèrent souvent d’énormes volumes de données).

Bacula excelle également dans la reprise après sinistre, ne lie pas ses clients à une liste restreinte de fournisseurs pris en charge et peut même offrir certains des avantages d’une nature open-source (puisqu’il a été créé comme une extension d’une solution libre et open-source au départ). Bacula est utilisé par un grand nombre des plus grands centres de recherche du monde, notamment la NASA, les laboratoires nationaux des États-Unis et certains des principaux organismes de recherche européens.

Considérations sur le développement durable et Bacula Enterprise

Le développement durable devient de plus en plus important dans le domaine du calcul intensif, des supercalculateurs et des grands centres de données. Bacula Enterprise est également particulièrement conscient du paysage moderne soucieux de l’environnement, offrant la durabilité comme un point de discussion clé dans une grande variété de ses caractéristiques : améliorations de l’utilisation de l’infrastructure, prise en charge de nombreux types d’environnement, techniques avancées d’économie de stockage pour réduire les besoins en stockage, gestion économique de milliards de fichiers, et l’accent général mis sur la réduction de la consommation d’énergie à la fois pour les processus de sauvegarde et de restauration. Les niveaux de sécurité exceptionnels de Bacula, comparés à ceux d’autres fournisseurs de sauvegarde, sont également essentiels pour la durabilité et la continuité des activités. Ses bureaux principaux sont basés en Suisse, où la production d’énergie à faible émission de carbone est bien plus importante que dans les autres pays d’origine des concurrents de Bacula.

Ainsi, la solution Bacula parvient à réduire l’empreinte carbone des opérations de protection des données, contribuant de manière significative à la popularisation des pratiques de gestion durable des données, prolongeant la durée de vie du matériel existant ou hérité afin de minimiser les déchets électroniques, etc. Veuillez contacter Bacula pour plus d’informations, ainsi que son livre blanc sur ses niveaux de durabilité particulièrement élevés.

Conclusion

Les environnements informatiques à haute performance peuvent gérer des charges de travail de taille considérable et sont très importants dans de nombreux secteurs, en particulier lorsqu’il s’agit d’effectuer des calculs, des estimations et des décisions fondées sur des données. En même temps, la mise en place d’un seul environnement HPC est une entreprise massive en termes de temps et de ressources.

Il est surprenant de constater que toutes les organisations ne reconnaissent pas que la gestion d’un environnement HPC peut s’avérer bien plus coûteuse que l’achat initial et la mise en place de cet environnement. C’est pourquoi nous avons divisé l’article en coûts de surface et en coûts cachés , en proposant plusieurs catégories et sous-catégories pour expliquer le sujet.

L’explication des coûts n’était cependant pas le seul objectif de cet article. Nous avons également partagé des tactiques et des recommandations qui pourraient conduire à des améliorations générales du budget, qu’il s’agisse de la virtualisation, de la consolidation de la charge de travail, de la renégociation des contrats, etc. L’objectif du logiciel de sauvegarde tiers a également été abordé en détail, Bacula Enterprise étant utilisé comme exemple pour montrer à quel point une solution de sauvegarde et de restauration hautement évolutive peut être essentielle pour un environnement aussi complexe et multiforme.

De nos jours, le calcul haute performance peut être un outil très précieux pour de nombreux secteurs d’activité. Connaître le prix total d’un tel environnement et les éléments clés qui y contribuent devrait constituer une source d’information précieuse lors de l’évaluation du coût total de l’implémentation à court et à long terme.

À propos de l’auteur
Rob Morrison
Rob Morrison est le directeur marketing de Bacula Systems. Il a commencé sa carrière dans le marketing informatique chez Silicon Graphics en Suisse, où il a obtenu de bons résultats dans divers rôles de gestion du marketing pendant près de 10 ans. Au cours des 10 années suivantes, Rob a également occupé divers postes de gestion du marketing chez JBoss, Red Hat et Pentaho, assurant la croissance des parts de marché de ces sociétés bien connues. Il est diplômé de l'université de Plymouth, titulaire d'un diplôme spécialisé en médias et communications numériques, et a suivi un programme d'études à l'étranger.
Laissez un commentaire

Votre adresse email ne sera pas publiée. Les champs requis sont indiqués *