Contents
- Introducción
- El coste superficial de la HPC
- Licencias de software
- Compras de hardware
- Configuración de la infraestructura
- Gastos de personal
- El coste oculto de la HPC
- Gastos operativos
- Ampliaciones de las instalaciones
- Seguridad de los datos
- Tiempo de inactividad
- Gestión de datos
- Cumplimiento de la normativa
- Técnicas de reducción de costes para entornos de computación de alto rendimiento
- Cómo puede ayudar Bacula Enterprise a reducir los costes de HPC
- Consideraciones sobre sostenibilidad y Bacula Enterprise
- Conclusión
Introducción
La capacidad de procesar cantidades masivas de datos con gran velocidad ha hecho que la HPC ocupe un lugar en diversos sectores, como las finanzas, la sanidad, la defensa, la meteorología y muchos otros. Puede ser una herramienta esencial para multitud de procesos que giran en torno al descubrimiento y la innovación. Algunos ejemplos serían la simulación en 3D, el renderizado de películas de alta definición, el análisis predictivo, el modelado molecular y, a veces, simplemente la gestión de un volumen de archivos muy elevado, resultado de datos que se generan rápidamente y en grandes cantidades. Sin embargo, el impresionante rendimiento y otras ventajas también suelen ir acompañados de un tema difícil: el presupuesto y la financiación.
No sólo el hardware necesario para la HPC es extremadamente caro de por sí, sino que el coste total -el verdadero coste de la HPC- va mucho más allá de los costes iniciales. Nuestro objetivo en este artículo es repasar el tema de los costes de la HPC, incluyendo tanto los costes superficiales como los ocultos, al tiempo que ofrecemos consejos sobre cómo reducir el coste total de la HPC.
El coste superficial de la HPC
El coste superficial de la implementación de HPC es la suma de varios gastos que son obvios y aparentes para cualquier usuario potencial. Son los costes que se tienen en cuenta inicialmente cuando se planifica la implantación de una solución HPC. Los costes superficiales de la informática de alto rendimiento pueden separarse en cinco grandes categorías: software, hardware, infraestructura, personal y «otros».
Licencias de software
Existen tres subcategorías principales de software que se consideran parte del coste inicial de la HPC. La primera categoría es el pago de los sistemas operativos, ya sean las versiones Linux para empresas o sistemas operativos completamente personalizados hechos específicamente para trabajar con HPC.
La segunda categoría abarca todo lo que una empresa pueda necesitar para gestionar el hardware HPC: herramientas de supervisión de recursos, soluciones de copia de seguridad y recuperación, software de gestión de cargas de trabajo, soluciones de programación de trabajos, etc.
Por último, pero no por ello menos importante, está el coste del software comercial que puede utilizar los recursos de la HPC para realizar cargas de trabajo específicas – el análisis de datos, el modelado y la simulación son sólo una pequeña fracción de todas las posibilidades.
Compras de hardware
El elemento más caro del departamento de hardware es también el más obvio en todo el tema de los «costes de HPC»: el hardware informático que realiza todos los cálculos y otras tareas. Las CPU, GPU y configuraciones de memoria altamente personalizadas pueden venderse en paquetes de servidores o clústeres o por separado.
El rendimiento informático no sería tan eficaz sin las capacidades de almacenamiento necesarias para soportar este tipo de velocidad de operación de lectura y escritura. Como tal, también existe la necesidad de utilizar soluciones de almacenamiento de alta velocidad, no sólo unidades SSD (más rápidas pero con menos almacenamiento) o HDD (significativamente más lentas con mayor capacidad), sino también sistemas de almacenamiento altamente personalizados capaces de manejar cargas de trabajo HPC, como los sistemas de archivos paralelos.
La mayoría de las infraestructuras y sistemas existentes ya funcionan utilizando algún tipo de conexión inalámbrica. El hardware en cuestión también tiene que estar a la altura del rendimiento de los marcos de la HPC, lo que implica costosos conmutadores Ethernet y enrutadores capaces de manejar un gran ancho de banda, y mucho otro hardware de alta velocidad para la conexión en red.
Prácticamente todos los sistemas informáticos orientados al cliente producen calor al realizar cálculos u otras operaciones. Los HPC no son una excepción a esta regla, y los sistemas de refrigeración instalados en este hardware deben ser capaces de manejar temperaturas extremadamente altas para asegurarse de que el costoso hardware no se funde bajo cargas de trabajo pesadas. Dos de las opciones más populares hasta el momento son los sistemas de refrigeración líquida y los sistemas de refrigeración por aire, y la elección entre ambos depende en gran medida de las circunstancias específicas de cada instancia HPC.
Configuración de la infraestructura
Tanto la configuración del hardware como el suministro de energía al mismo son partes importantes de la configuración inicial de un HPC. En primer lugar, los cálculos de alto rendimiento implican que se necesita mucha potencia de forma constante. Invertir en fuentes de alimentación fiables y escalables es primordial en el contexto de las infraestructuras HPC.
La enorme complejidad de este hardware también significa que la configuración y la personalización inicial tendrían que ser realizadas por un profesional cuyos servicios también cuestan dinero. Además, el coste total de almacenar todo este hardware en una instalación dedicada con todos los elementos necesarios, como electricidad y seguridad física, es también una parte significativa del coste inicial total de las HPC.
Gastos de personal
Una parte relativamente pequeña de los gastos también se destina a la formación. No sólo es probable que sea necesario formar a sus empleados actuales en lo que respecta al funcionamiento del HPC, sino que también es posible que haya que contratar a más personas sólo para mantener las condiciones de trabajo de una unidad HPC, ya sean especialistas en HPC, administradores de sistemas, etc.
El coste oculto de la HPC
Como sugiere el título, los costes ocultos en el contexto de la HPC representan gastos potenciales que podrían haberse pasado por alto durante las fases de planificación y presupuestación. La combinación de todos los costes ocultos suele ser mayor que la suma total de los costes superficiales, que es la razón por la que estamos tratando este tema en primer lugar.
El número total de grupos de costes aquí va a ser mucho mayor, ya que es difícil situar muchos de estos costes de otra forma que no sea completamente separados del resto. No obstante, vamos a repasar seis grupos de costes principales: gastos operativos, ampliaciones de las instalaciones, seguridad de los datos, tiempo de inactividad, gestión de los datos y cumplimiento de la normativa.
Gastos operativos
El mantenimiento regular tanto del hardware como del programa es esencial para que los HPC sigan funcionando con la mayor eficiencia posible. La electricidad sería otra opción destacable aquí, pero ya la hemos mencionado antes por ser una opción bastante obvia. La aplicación de diversos parches y actualizaciones al programa existente es una parte importante de cualquier sistema HPC para mejorar el rendimiento, aumentar la seguridad, etc.
Ampliaciones de las instalaciones
La política de actualizaciones antes mencionada no sólo se aplica a la parte de software de la herramienta, sino que también debe llevarse a cabo en la parte de hardware. Modificar el hardware HPC existente para conseguir una mejor distribución de la energía, un mayor rendimiento o sistemas de refrigeración más eficientes también se considera un coste oculto a largo plazo. También puede llegar un momento en que las actuales instalaciones de almacenamiento de HPC no sean suficientes para el estado actual de la herramienta. En ese caso, la ampliación de las instalaciones o el alquiler de nuevos espacios también va a pertenecer a esta categoría de gastos ocultos.
Seguridad de los datos
Las medidas de seguridad robustas son casi con toda seguridad una necesidad, teniendo en cuenta el uso de la HPC en campos muy específicos preocupados por la seguridad, como la investigación y el desarrollo. La tarea se hace aún más difícil si se tiene en cuenta el enorme tamaño de un entorno HPC medio. Un enfoque múltiple con políticas de seguridad de datos personalizables es imprescindible en la mayoría de las situaciones. La mayoría de las aplicaciones de HPC y supercomputación se utilizan para datos y aplicaciones de gran valor y, a menudo, muy sensibles. Por lo tanto, la seguridad es probablemente un factor crítico para la mayoría de las organizaciones de HPC.
Tiempo de inactividad
Cada caso de tiempo de inactividad, ya sea esperado o inesperado, acarrea pérdidas tanto de productividad como de ingresos potenciales. Evitar estas situaciones en la medida de lo posible es la prioridad de cualquier infraestructura moderna, y la HPC no es una excepción. Poner a punto tanto el hardware como el programa de la HPC es también un proceso continuo que prácticamente no tiene fin. Siempre habrá algo que se pueda hacer para mejorar los resultados, ya sea una nueva pieza de hardware, una nueva actualización del programa, etc.
Gestión de datos
Tratar con grandes conjuntos de datos es un reto importante en cualquier sistema. Transferir grandes masas de datos a una ubicación diferente, ya sea por motivos de conservación o por cualquier otra razón, es un proceso muy delicado que también resulta bastante caro debido a que el lado receptor de la transferencia debe tener la capacidad y el rendimiento para gestionarlo. Tanto las soluciones de almacenamiento de datos basadas en la nube como los centros de datos remotos tienen sus propias deficiencias (por ejemplo, algunos proveedores de la nube tienen incluso gastos de salida).
Además, no todo el almacenamiento en el HPC debe enfocarse de la misma manera. Hay mucho potencial para utilizar diversas formas de almacenamiento a largo plazo junto con los procesos de archivado, lo que puede ahorrar espacio de almacenamiento, mejorar el rendimiento y obtener otras muchas ventajas potenciales.
Cumplimiento de la normativa
Existen muchos reglamentos y normas industriales diferentes que afectan de algún modo a las HPC. La mayoría de las normativas existentes implican consecuencias extremadamente duras por no seguir sus directrices, desde multas monetarias hasta demandas judiciales y puro daño a la reputación. El cumplimiento de la normativa es primordial, aunque pueda resultar difícil de aplicar en entornos tan vastos como los HPC.
La mayoría de estos costes son muy difíciles de predecir o incluso de ofrecer un ejemplo concreto. Sin embargo, sería prudente mencionar que cada uno de los elementos de la estructura de precios puede diferir tanto en términos de calidad como de precio. Además, sólo es posible utilizar el «grado» más alto de elementos específicos de fijación de precios en conjunción con varios otros puntos de la lista. Por ejemplo, optar por invertir en hardware más potente, como CPU o GPU, no ofrecería prácticamente ningún beneficio a menos que se invirtiera más en hardware complementario: entornos de red de alto rendimiento, soluciones de almacenamiento rápidas, etc.
Técnicas de reducción de costes para entornos de computación de alto rendimiento
La gestión de la HPC puede ser una tarea bastante costosa y desafiante. Aunque los matices específicos de cada situación pueden diferir de un caso a otro, podemos ofrecer diez recomendaciones diferentes sobre cómo una empresa puede mejorar la situación de los costes en su entorno de HPC:
- La consolidación de la carga de trabajo puede utilizarse para mejorar la utilización general de los recursos del entorno, permitiendo que más de una aplicación se ejecute en el mismo hardware cuando proceda. Los resultados de este cambio son un menor número total de servidores necesarios, menores costes operativos para el HPC y una mejor optimización de los recursos en general.
- Las renegociaciones de los contratos de los proveedores de vez en cuando pueden ofrecer ventajas sustanciales a sus usuarios cuando se hacen bien. Dado que es muy probable que un entorno HPC medio tenga contratos no sólo con empresas de software, sino también de hardware e incluso de servicios, renegociar tiene mucho potencial para ofrecer mejores condiciones, precios más bajos y otras ventajas. Algunas de las formas más posibles de hacerlo son los acuerdos plurianuales, las compras al por mayor e incluso el aprovechamiento de la competencia, cuando sea posible.
- El consumo total de electricidad puede reducirse implantando mejores soluciones de refrigeración y hardware y programas más eficientes desde el punto de vista energético. Incluso debería ser posible utilizar una gestión avanzada de la energía para reducir el consumo eléctrico de toda la infraestructura HPC fuera de las horas de máxima carga de trabajo.
- Investigar las alternativas de código abierto existentes para el programa de HPC puede hacer que se alivien algunos de los costes de las licencias. Sin embargo, cabe señalar que muchas de las soluciones de código abierto tienen fama de ser difíciles de dominar, incluso en comparación con el software empresarial de pago de alto nivel.
- La contenedorización y la virtualización también pueden implementarse para optimizar el uso de recursos en el entorno HPC. Tecnologías como Kubernetes, VMware, Docker y varias otras pueden utilizarse para reducir el número de servidores físicos necesarios para ejecutar todo el software necesario (permitiendo que múltiples instancias de software se ejecuten en el mismo servidor), ofreciendo mejoras en términos de costes de hardware, asignación de recursos, etc.
- Los programas de formación del personal, aunque caros, pueden mejorar drásticamente las capacidades de gestión de HPC de la empresa, lo que se traduce en un menor número de errores causados por el factor humano (que suele ser mucho mayor que el coste de los esfuerzos de formación del personal).
- El cloud bursting es un enfoque relativamente nuevo de la implementación del almacenamiento en la nube en entornos similares a los de HPC. Utiliza recursos en la nube que sólo se añaden a la infraestructura durante periodos conocidos de máxima carga de trabajo, lo que reduce drásticamente su coste total y hace que todo el sistema sea mucho más rentable.
- Las soluciones de almacenamiento por niveles y otros medios para mejorar la eficiencia de la gestión de datos también pueden servir como un factor de optimización de los gastos de almacenamiento bastante importante. La idea que subyace es relativamente sencilla: los datos más utilizados se guardan en el hardware de mayor velocidad, mientras que la información menos crítica puede almacenarse en un almacenamiento más lento y barato.
- La asignación de recursos HPC puede mejorarse aún más mediante la adopción de soluciones integrales de gestión de trabajos y programadores de cargas de trabajo (Grid Engine, PBS, SLURM). El resultado final va a diferir significativamente en cada situación, pero las mejoras generales de rendimiento y la reducción de los tiempos muertos están prácticamente garantizadas para la mayoría de los usuarios de HPC.
- La optimización continua de los entornos HPC existentes es posible gracias a la realización de auditorías periódicas. Ser capaz de identificar ineficiencias y otros elementos mediocres del sistema permite mejorar el rendimiento del sistema de forma continua e incluso eliminar recursos que se consideran redundantes y ya no son necesarios para que el sistema funcione.
Cómo puede ayudar Bacula Enterprise a reducir los costes de HPC
Los entornos HPC son grandes y a menudo difíciles de gestionar y, sin embargo, siguen necesitando todas las medidas de seguridad básicas, incluyendo algo tan simple como la creación de copias de seguridad de los datos. Por suerte, las soluciones de nivel empresarial como Bacula Enterprise son capaces de ofrecer copias de seguridad de datos en entornos HPC y muchas otras capacidades posteriores.
La solución robusta y altamente escalable de Bacula puede ofrecer impresionantes capacidades de protección de datos, una arquitectura flexible y una utilización eficiente del espacio de almacenamiento en un único paquete. Utiliza un modelo de licencia flexible que no está ligado a la capacidad de almacenamiento, lo que supone una enorme ventaja para los entornos HPC (ya que a menudo manejan enormes volúmenes de datos).
Bacula también destaca en la recuperación ante desastres, no ata a sus clientes a una corta lista de proveedores compatibles e incluso puede ofrecer algunas de las ventajas de una naturaleza de código abierto (ya que, para empezar, se creó como una extensión de una solución gratuita y de código abierto). Bacula es utilizado por muchos de los mayores centros de investigación del mundo, como la NASA, los Laboratorios Nacionales de EE.UU. y algunas de las principales organizaciones de investigación europeas.
Consideraciones sobre sostenibilidad y Bacula Enterprise
La sostenibilidad está adquiriendo cada vez más importancia en la HPC, la supercomputación y los grandes centros de datos. Bacula Enterprise también es especialmente consciente del moderno panorama de conciencia medioambiental, ofreciendo la sostenibilidad como un punto clave de conversación en una amplia variedad de sus características: mejoras en la utilización de la infraestructura, compatibilidad con muchos tipos de entornos, técnicas avanzadas de ahorro de almacenamiento para reducir los requisitos de almacenamiento, gestión económica de miles de millones de archivos y el enfoque general en la reducción del consumo de energía tanto para los procesos de copia de seguridad como de restauración. Los excepcionales niveles de seguridad de Bacula, en comparación con otros proveedores de copias de seguridad, también son clave para la sostenibilidad y la continuidad del negocio. Sus antecedentes de código abierto significan que su código de programa se creó de una manera mucho más sostenible, y sus oficinas principales tienen su sede en Suiza, donde la producción de energía con bajas emisiones de carbono está muy por delante de la de los demás países de origen de los homólogos de Bacula.
De este modo, la solución de Bacula consigue reducir la huella de carbono de las operaciones de protección de datos, contribuyendo significativamente a la popularización de prácticas sostenibles de gestión de datos, alargando la vida útil del hardware existente o heredado para minimizar los residuos electrónicos, etc. Póngase en contacto con Bacula para obtener más información, así como su libro blanco sobre sus niveles de sostenibilidad especialmente elevados.
Conclusión
Los entornos informáticos de alto rendimiento pueden manejar cargas de trabajo de enormes tamaños y son bastante importantes en muchas industrias, especialmente cuando se trata de realizar diversos cálculos, estimaciones y decisiones basadas en datos. Al mismo tiempo, la creación de un entorno de HPC es una empresa enorme tanto en términos de tiempo como de recursos.
Sorprendentemente, no todas las organizaciones reconocen que gestionar un entorno HPC puede resultar mucho más caro que comprarlo y configurarlo inicialmente. Por eso hemos separado el artículo en costes superficiales y costes ocultos, ofreciendo múltiples categorías y subcategorías como medio de explicar el tema.
Sin embargo, la explicación de los costes no ha sido el único propósito de este artículo. También hemos compartido tácticas y recomendaciones que podrían conducir a mejoras presupuestarias generales, ya sea la virtualización, la consolidación de la carga de trabajo, la renegociación de contratos, etc. También se ha tratado en detalle el propósito del software de copia de seguridad de terceros, utilizando Bacula Enterprise como ejemplo de hasta qué punto una solución de copia de seguridad y recuperación altamente escalable puede ser fundamental para un entorno tan complejo y polifacético.
La HPC puede ser una herramienta muy valiosa para muchas industrias diferentes en los tiempos que corren. Conocer el precio total de un entorno de este tipo y qué elementos clave contribuyen a él debería servir como una valiosa fuente de información a la hora de evaluar el coste total de la implantación tanto a corto como a largo plazo.