Guía y estrategias de backup y recuperación ante desastres de Hadoop HDFS

Inicio > Blog de copias de seguridad y recuperación > Guía y estrategias de backup y recuperación ante desastres de Hadoop HDFS

Actualizado 3rd febrero 2024, Rob Morrison

Contents

Definición de Hadoop
HBase
Hadoop y la seguridad de los datos
Concepciones erróneas sobre Hadoop en lo que respecta a la protección de datos
¿Qué se espera de una solución moderna de protección de datos Hadoop?
Herramientas y medidas de copia de seguridad de Hadoop integradas
Metodología para averiguar la mejor solución de copia de seguridad de Hadoop HDFS
Soluciones de copia de seguridad de Hadoop de terceros
Las copias de seguridad HDFS de Hadoop y Bacula Enterprise
Conclusión

Definición de Hadoop

Hadoop se creó originalmente para trabajar con conjuntos de datos masivos, algo que se conoce comúnmente como «big data». Se trata de un marco de software de código abierto capaz tanto de almacenar como de procesar volúmenes de datos masivos. Diseñado pensando en una gran escalabilidad, Hadoop ofrece alta disponibilidad, tolerancia a fallos y capacidad para gestionar petabytes de datos.

Hadoop consta de cuatro componentes principales:

Yet Another Resource Negotiator, o YARN. Es un marco de gestión de recursos que supervisa la asignación de recursos computacionales (CPU, memoria y almacenamiento) a las aplicaciones que se ejecutan en el clúster Hadoop. Simplifica la asignación y programación de recursos, haciendo más manejable la gestión y escalado de aplicaciones Hadoop.
MapReduce. Se trata de un modelo de programación que facilita el procesamiento de grandes conjuntos de datos en clústeres distribuidos. Los datos en cuestión son procesados por múltiples nodos de clúster al mismo tiempo después de haber sido separados en trozos más pequeños. A continuación, los resultados del procesamiento se combinan para generar el resultado final.
ZooKeeper. Se trata de un servicio de coordinación distribuido que proporciona un registro centralizado para la asignación de nombres, la configuración y la sincronización entre los nodos del clúster Hadoop. El objetivo principal de ZooKeeper es garantizar que el estado del sistema sea coherente en todo momento mediante la supervisión de cada uno de los nodos del clúster.
Hadoop Distributed File System, o HDFS. Como su nombre indica, es un sistema de archivos diseñado específicamente para trabajar con grandes volúmenes de datos separados en clústeres y nodos. Particiona los datos en múltiples nodos, replicando los bloques de datos para la tolerancia a fallos.

La escalabilidad y flexibilidad de Hadoop lo convierten en una opción convincente para las organizaciones que manejan cantidades masivas de datos. Su capacidad para almacenar, procesar y analizar grandes conjuntos de datos de forma eficiente lo ha convertido en una piedra angular de la infraestructura de datos moderna. Hadoop tiene multitud de casos de uso potenciales, entre los que se incluyen, aunque no exclusivamente:

Facilitar la creación de almacenes de datos para el almacenamiento y el análisis de volúmenes masivos de datos en una estructura específica.
Ofreciendo una capacidad inestimable para recibir perspectivas, tendencias y patrones a partir del análisis de estos volúmenes de datos.
Generando lagos de datos – repositorios para cantidades masivas de datos sin procesar.
Permitir la formación y el despliegue de modelos de aprendizaje automático en grandes conjuntos de datos.
Recopilación, análisis y almacenamiento de grandes volúmenes de registros procedentes de sitios web, aplicaciones y servidores.

HBase

Hadoop es un marco interesante, pero su propósito principal sigue siendo el almacenamiento de datos para fines específicos. La mayoría de los usuarios recurren al uso de HBase para poder interactuar con todos esos datos de forma significativa. Apache HBase es un tipo de base de datos distribuida con una base NoSQL que se creó para trabajar con conjuntos de datos masivos, al igual que Hadoop. HBase es una oferta de código abierto que se integra con Apache Hadoop y todo su ecosistema. Puede trabajar tanto con EMRFS (la variación de MapReduce de Amazon S3) como con HDFS (el sistema de archivos propio de Hadoop).

HBase utiliza Apache Phoenix para permitir que se apliquen consultas de tipo SQL a las tablas de HBase a la vez que se procesan todas las órdenes hacia y desde el marco MapReduce. Es escalable, rápido y tolerante a muchos fallos gracias a su estructura que copia bastante el enfoque de Hadoop: los datos se reparten entre varios hosts de un clúster, de modo que ningún fallo de un solo host puede hacer caer todo el sistema.

La introducción a HBase es importante en este contexto ya que Hadoop y HBase se utilizan a menudo en tándem para muchos casos de uso y tipos de proyectos diferentes.

Al mismo tiempo, los métodos de backup y restauración de HBase son diferentes de los que utiliza Hadoop; es algo que repasaríamos más adelante.

Hadoop y la seguridad de los datos

Hadoop ha atravesado una fase de popularidad bastante espontánea en los últimos años, especialmente en el contexto de la introducción de la IA y el ML en forma de chatbots y LLM (Large Language Model) como ChatGPT que se enseñan utilizando conjuntos de datos masivos.

Al mismo tiempo, el tema de la seguridad de Hadoop en su conjunto ha sido bastante problemático desde hace algún tiempo. Hay varias razones que explican ese problema, entre ellas el tamaño medio de los datos (que en la mayoría de los casos cuenta con petabytes y exabytes), la escalabilidad general de la solución (que hace prácticamente imposible implementar algo que funcione para cualquier forma y tamaño de datos), así como la función de replicación de datos incluida.

La replicación de datos es la alternativa original de Hadoop a las copias de seguridad de los datos: crea 3 copias de cada bloque de datos por defecto, lo que hace pensar a algunos usuarios que, en primer lugar, no es necesaria una solución de backup. Lo que suele faltar en este enfoque es la comprensión de que las capacidades de Hadoop sólo funcionan para los conjuntos de datos no estructurados tradicionales en almacenes y similares.

Así que, cuando se trata de modelos ML, datos IoT, datos de medios sociales y otros tipos de datos que difieren de los habituales lagos de datos por los que se conoce a Hadoop, éste puede ofrecer poca protección para esos datos, creando un enorme problema de seguridad para sus usuarios.

También existe el problema de la accesibilidad: los datos replicados por Hadoop no se almacenan por separado del original, lo que los hace tan vulnerables a los problemas y a las filtraciones de datos como el conjunto de datos original. Por ello, existe una demanda de medidas de copia de seguridad de Hadoop, tanto integradas como de terceros.

Sin embargo, antes de pasar a hablar específicamente de las copias de seguridad de Hadoop, es importante hablar un poco más de Hadoop en el contexto de la protección de datos.

Concepciones erróneas sobre Hadoop en lo que respecta a la protección de datos

La adopción generalizada de Hadoop en las empresas ha provocado la proliferación de mecanismos básicos de backup y recuperación de Hadoop implementados a toda prisa. Estas soluciones rudimentarias, a menudo incluidas en las distribuciones de Hadoop o ensambladas por equipos de desarrollo internos, pueden parecer funcionales a primera vista, pero plantean riesgos significativos para la integridad de los datos y la resistencia de la organización, especialmente a medida que los sistemas crecen en tamaño y complejidad.

Cualquier tiempo de inactividad o pérdida de datos resultante debido a recuperaciones fallidas durante un desastre puede tener graves repercusiones para las empresas, empañando su reputación, aumentando los costes y obstaculizando los esfuerzos de comercialización. La mayoría de las desventajas de este enfoque pueden explicarse analizando algunas de las mayores ideas erróneas que se tienen de Hadoop en términos de protección de datos.

Concepto erróneo nº 1 – Utilizar instantáneas de HDFS es una estrategia viable de protección de datos

El Sistema de Archivos Distribuidos de Hadoop utiliza instantáneas para generar copias puntuales de archivos individuales o de directorios enteros. Este enfoque de la protección de datos tiene muchas limitaciones:

La recuperación de datos a partir de instantáneas de HDFS es un proceso engorroso, que requiere la localización manual de archivos, la reconstrucción de esquemas y la recuperación de archivos de datos.
Las instantáneas de HDFS funcionan a nivel de archivo, lo que las hace ineficaces para bases de datos como Hive y HBase, ya que las definiciones de esquema asociadas no se capturan en las copias de seguridad.
Aunque es posible realizar y almacenar varias instantáneas del sistema, cada una de ellas aumenta los requisitos generales del clúster en términos de almacenamiento, lo que puede convertirse en un grave problema a largo plazo.
Dado que las instantáneas residen en los mismos nodos que los datos que protegen, un fallo de un nodo o de un disco puede provocar la pérdida tanto de las instantáneas como de los datos protegidos.

Concepto erróneo nº 2 – Las distribuciones comerciales de Hadoop ofrecen suficientes capacidades de backup

Las distribuciones comerciales de Hadoop suelen incluir herramientas de copia de seguridad integradas. Estas herramientas, aunque ofrecen un nivel básico de funcionalidad de copia de seguridad, pueden no ajustarse a los estrictos RPO y RTO de una organización. Esencialmente, estas herramientas actúan como una interfaz de usuario para las instantáneas HDFS, heredando todas las limitaciones asociadas a las instantáneas HDFS comentadas anteriormente. Además, estas herramientas carecen por lo general de mecanismos de recuperación fáciles de utilizar, lo que convierte la recuperación de datos en un proceso manual y propenso a errores.

Concepto erróneo nº 3 – Las réplicas del sistema de archivos son una medida de protección de datos suficiente para Hadoop

Aunque las réplicas protegen eficazmente los datos frente a fallos de hardware, como interrupciones en los nodos o averías en las unidades de disco, se quedan cortas en la protección frente a escenarios más frecuentes que implican la corrupción de datos. Los errores del usuario, como la eliminación accidental de tablas en Hive, y los fallos de la aplicación pueden provocar la corrupción de los datos, haciendo que las réplicas sean ineficaces a la hora de restaurar la integridad de los datos.

Concepto erróneo nº 4 – Los scripts personalizados para Hadoop son adecuados para tareas de backup y recuperación a largo plazo

Los equipos de desarrollo internos de muchas organizaciones suelen recurrir al desarrollo de scripts personalizados para realizar copias de seguridad de sus bases de datos Hive y HBase, así como de los archivos HDFS. Este enfoque suele implicar dedicar varios meses-hombre a escribir y probar los scripts para garantizar su funcionalidad en todos los escenarios.

Por desgracia, este enfoque en su conjunto es extremadamente difícil de mantener, ya que los scripts personalizados tienen que ser actualizados y revisados de forma regular, ya sea por las actualizaciones de Hadoop o por cualquier otro motivo. Al igual que las instantáneas, los scripts se centran principalmente en la replicación de datos y carecen de mecanismos de recuperación automatizados. Como resultado, la recuperación de datos sigue siendo un proceso manual y propenso a errores.

Además, la ausencia de pruebas regulares puede provocar la pérdida de datos, especialmente cuando el equipo responsable del desarrollo de los scripts deja de estar disponible.

¿Qué se espera de una solución moderna de protección de datos Hadoop?

Las estrategias de recuperación de datos son algo en lo que todo entorno basado en Hadoop tendría que pensar tarde o temprano. Una estrategia de backup y recuperación de Hadoop completa y bien definida es esencial para garantizar una recuperación de datos fiable y rápida, al tiempo que se minimiza la carga sobre los recursos de ingeniería y desarrollo.

Una solución moderna de protección de datos Hadoop debería ser capaz de mantener un equilibrio entre las complejas secuencias de comandos personalizadas y las sofisticadas capacidades de copia de seguridad de los datos. Debería funcionar de forma autónoma, eliminando la necesidad de recursos dedicados y requiriendo unos conocimientos mínimos de Hadoop. Además, debe ser excepcionalmente fiable y escalable para gestionar con eficacia petabytes de datos, cumpliendo los estrictos requisitos internos de cumplimiento de los objetivos de punto de recuperación y de tiempo de recuperación.

Además, la solución en cuestión debe proporcionar una protección integral contra el ransomware, garantizando la integridad de los datos frente a ataques maliciosos. La integración del almacenamiento en la nube es otra característica crucial, que permite la optimización de costes y el almacenamiento flexible de los datos. La solución también debe preservar múltiples copias puntuales de los datos para una recuperación granular, garantizando la disponibilidad de los datos históricos cuando sea necesario.

Además, un software moderno de copia de seguridad y recuperación de Hadoop tiene que dar prioridad a la eficiencia de la recuperación, empleando un conocimiento inteligente de los datos para deduplicar los formatos de big data y agilizar los procesos de recuperación. Al aprovechar las tecnologías avanzadas y la automatización, una solución de este tipo puede salvaguardar los activos de datos críticos y minimizar el impacto de la pérdida o corrupción de datos.

Herramientas y medidas de copia de seguridad de Hadoop integradas

Como hemos mencionado antes, Hadoop no ofrece ninguna forma de realizar una copia de seguridad «tradicional» de los datos, por varias razones. Una de las principales razones es la enorme cantidad de datos con la que suele operar Hadoop: petabytes y exabytes de información no estructurada en una estructura muy poco habitual.

Afortunadamente, eso no quiere decir que Hadoop esté completamente indefenso. Su propia estructura de datos con replicación 3x por defecto hace que esté relativamente a salvo de que pequeñas partes del clúster queden fuera de servicio, ya que los propios datos se almacenan en varias ubicaciones al mismo tiempo.

La mencionada replicación de datos es una de las mayores razones por las que no todos los usuarios de Hadoop se molestan en tomar medidas de copia de seguridad en primer lugar – olvidando por completo que la replicación por sí sola no puede proteger contra la pérdida del clúster u otros problemas a gran escala como los desastres naturales.

DistCp

Hablando de replicación de datos, también existe una herramienta de replicación de datos manual con la que trabajan muchos usuarios de Hadoop – DistCp, o Copia Distribuida. Se trata de una herramienta CLI relativamente sencilla que ofrece la posibilidad de replicar datos de un clúster a otro, creando una especie de «copia de seguridad» que actúa como una salvaguarda más frente a posibles pérdidas de datos.

DistCp puede utilizarse para realizar la copia de clústeres con un comando relativamente sencillo:

bash$ hadoop distcp2 hdfs://fns1:8020/path/loc hdfs://fns2:8020/loc/parth

El comando en cuestión localiza el namenode fns1 con el espacio de nombres bajo /path/loc y lo expande en un archivo temporal. A continuación, el contenido del directorio se divide entre un conjunto de tareas de mapeo antes de que comience el proceso de copia – utilizando el namenode fns2 y la ubicación /loc/path como destino final.

Debe tenerse en cuenta que existen dos versiones de DistCp comúnmente utilizadas – la versión original/legacy y la «segunda» versión llamada DistCp2. Existen dos grandes diferencias entre estas versiones de la herramienta:

La versión heredada de DistCp no era capaz de crear directorios raíz vacíos en la carpeta de destino, pero DistCp2 puede hacerlo sin problemas.
La versión heredada de DistCp no actualizaba ningún atributo de archivo de los archivos que se omitían durante el proceso de copia – ese no es el caso con DistCp2, ya que actualizaría todos los valores, como los permisos y la información del grupo propietario, aunque el archivo en cuestión no se copiara.

Instantáneas HDFS

La alternativa a la replicación de datos para Hadoop cuando se trata de medidas integradas son las instantáneas. Las instantáneas HDFS son copias puntuales de datos con un estado de sólo lectura que son rápidas y eficientes, pero no sin sus propias advertencias.

La creación de instantáneas es instantánea y no afecta a las operaciones regulares de HDFS – ya que se utiliza el orden cronológico inverso para registrar las modificaciones de los datos. Las instantáneas en sí sólo requieren memoria adicional cuando se realizan modificaciones relativas a una instantánea. Además, la función de instantánea no copia bloques en los nodos de datos – los únicos datos que se registran son el tamaño del archivo y la lista de bloques.

Hay algunos comandos básicos que están asociados con la creación de instantáneas HDFS, incluyendo:

Creación de instantáneas HDFS

hdfs dfs -createSnapshot hdfs://fns1:8020/path/loc

Este comando específico también admite un nombre personalizado opcional para la instantánea en cuestión – se utilizaría un nombre estandarizado para la instantánea en cuestión si no se ha detectado el nombre personalizado.

Eliminación de instantáneas HDFS

hdfs dfs -deleteSnapshot hdfs://fns1:8020/path/loc snapshot2023

A diferencia del comando anterior, en este caso el nombre de la instantánea es un argumento no opcional.

Permitir la creación de una instantánea para un directorio

hdfs dfs -allowSnapshot hdfs://fns1:8020/path/loc

Deshabilitar la creación de una Instantánea para un directorio

hdfs dfs -disallowSnapshot hdfs://fns1:8020/path/loc

Por supuesto, existen otros enfoques que pueden utilizarse para salvaguardar los datos de Hadoop de una forma u otra, como la carga dual, el enfoque de gestión de datos que carga toda la información en dos clústeres diferentes al mismo tiempo. Sin embargo, estos enfoques suelen ser extremadamente matizados y requieren amplios conocimientos sobre el tema (así como abundantes recursos) para llevarlos a cabo correctamente.

También debe tenerse en cuenta que las operaciones de copia de seguridad y restauración de HBase no son idénticas a las medidas de copia de seguridad de Hadoop mencionadas en este artículo, a pesar de que la propia HBase se ejecuta sobre HDFS (parte de Hadoop). Las operaciones de copia de seguridad y restauración de HBase son completamente diferentes de las medidas de copia de seguridad y recuperación de Hadoop, con diferentes comandos CLI, diferente enfoque para la creación de copias de seguridad y más.

Metodología para averiguar la mejor solución de copia de seguridad de Hadoop HDFS

Los proveedores de soluciones de copia de seguridad de terceros pueden ofrecer bastante en términos de copia de seguridad de datos Hadoop. Hay múltiples soluciones de copia de seguridad diferentes que ofrecen soporte de copia de seguridad HDFS de una manera u otra – pero la elección de una solución puede ser bastante complicado. Por suerte, podemos ofrecer varios factores diferentes que hemos elegido para mostrar cada solución en comparación con el resto de ellas.

Calificaciones de los clientes

Las valoraciones de los clientes existen para actuar como representante de la opinión media sobre el tema en cuestión: una solución de copia de seguridad, en nuestro caso. Hemos utilizado sitios como Capterra, TrustRadius y G2 para recibir este tipo de información.

Capterra es una plataforma agregadora de reseñas que realiza comprobaciones exhaustivas de todos sus clientes para garantizar la autenticidad de las reseñas. No permite en absoluto que los vendedores eliminen las reseñas de los clientes. El recuento global de reseñas de Capterra supera ya los 2 millones, con casi mil categorías diferentes entre las que elegir.

TrustRadius es una plataforma de reseñas que utiliza extensos procesos de varios pasos para asegurarse de que cada reseña es auténtica y real, y también hay un equipo de investigación propio que revisa las reseñas para que sean detalladas y minuciosas. La plataforma no permite ningún tipo de manipulación de las reseñas de los usuarios por parte del vendedor.

G2 es una notable plataforma de reseñas con más de 2,4 millones de reseñas hasta la fecha. Cuenta con una biblioteca de más de 100.000 vendedores entre los que elegir, y con su propio sistema de validación de reseñas para asegurarse de que cada una de ellas es real y genuina. G2 también dispone de otros servicios entre los que elegir, como seguimiento, inversión, marketing y mucho más.

Características principales y ventajas/desventajas

Se trata de una categoría bastante compleja, que incluye tanto las características como las ventajas/desventajas de la solución. En cierto sentido, son relativamente similares, siendo algunas de las características clave más destacadas de una copia de seguridad Hadoop HDFS media:

Gran escalabilidad debido a la enorme cantidad de datos que manejan las implantaciones de Hadoop.
Alto rendimiento de las operaciones de copia de seguridad/restauración para garantizar copias de seguridad rápidas y recuperaciones rápidas, cuando sea necesario.
Flexibilidad en cuanto a los tipos de datos de los que se puede hacer copia de seguridad, ya sean Namespaces, Despliegues, Pods, Apps, etc.
La coherencia de las instantáneas debe estar siempre presente en una solución Hadoop para garantizar un riesgo mínimo de pérdida de datos y facilitar las operaciones de recuperación en el futuro.
Se recomiendan los análisis detallados, ya que pueden simplificar enormemente la tarea general de gestión de copias de seguridad al proporcionar perspectivas útiles y otros tipos de datos.

Precios

El precio es uno de los factores más importantes de una solución de copia de seguridad, o de cualquier tipo de producto o servicio. Cuando se trata específicamente de soluciones de copia de seguridad (especialmente soluciones de copia de seguridad de Hadoop HDFS) – el precio puede ser fácilmente el factor decisivo para una variedad de empresas. El resultado depende mucho de las necesidades actuales de un cliente, así como de muchos otros factores internos. Es muy recomendable comparar siempre el precio de la solución con su conjunto de características para garantizar la mejor relación calidad-precio para su empresa.

Una opinión personal del autor

Una parte completamente subjetiva de la metodología: la opinión del autor sobre el tema (copias de seguridad HDFS de Hadoop). Esta categoría puede incluir prácticamente cualquier cosa, desde la opinión personal del autor sobre el tema en cuestión hasta alguna información que puede no haber sido conveniente mencionar en otras partes de la metodología.

Soluciones de copia de seguridad de Hadoop de terceros

Existen múltiples opciones posibles de copias de seguridad de terceros para el usuario de Hadoop, incluyendo tanto soluciones de copia de seguridad populares como otras menos conocidas.

Commvault

Commvault intenta cambiar por completo el campo actual de la gestión de datos al no requerir ninguna forma de administración in situ para controlar todo el sistema de protección de datos. Funciona como una plataforma centralizada con copias de seguridad tanto físicas como virtuales, ofreciendo la posibilidad de gestionar todos y cada uno de los aspectos del sistema desde una única ubicación. Todas las capacidades de Commvault están empaquetadas en una interfaz accesible y fácil de usar, sin ningún tipo de complejidad innecesaria.

La compatibilidad con copias de seguridad de datos Hadoop es una de las muchas capacidades diferentes que Commvault puede ofrecer. Las capacidades de copia de seguridad y restauración tanto de HDFS como de HBase están incluidas en el paquete general, con tres tipos de copia de seguridad diferentes (incremental, completa, completa sintética), capacidades de programación de copias de seguridad, restauración granular de datos, múltiples objetivos de restauración, etc.

Valoraciones de los clientes:

Capterra – 4,8/5 puntos con 11 reseñas de clientes
TrustRadius – 8,0/10 puntos con 217 opiniones de clientes
G2 – 4,2/5 puntos con 112 opiniones de clientes

Ventajas:

Commvault prioriza la comodidad del usuario, garantizando que las tareas de configuración rutinarias se ejecuten sin esfuerzo. Este enfoque intuitivo minimiza los requisitos de formación y maximiza la productividad, fomentando una experiencia de usuario sin problemas.
La escalabilidad de Commvault va más allá del crecimiento vertical; se escala horizontalmente sin problemas para satisfacer las demandas en evolución, aprovechando diversas integraciones y soportando una amplia gama de tipos de almacenamiento.
La escalabilidad de Commvault es bastante buena; se adapta bien a algunas infraestructuras de TI intrincadas y avanzadas, proporcionando una protección de datos completa para organizaciones de todos los tamaños. Puede funcionar con algunos marcos de big data como Hadoop.

Carencias:

La elaboración de informes detallados parece ser un reto bastante común para muchas soluciones empresariales de copia de seguridad de datos, incluida Commvault. A pesar de las integraciones específicas que ofrecen informes mejorados, las deficiencias generales de los informes son evidentes en todos los ámbitos.
Aunque Commvault presume de una amplia compatibilidad con contenedores, hipervisores y bases de datos, es crucial reconocer que la compatibilidad universal sigue siendo esquiva. Se aconseja una evaluación exhaustiva de los sistemas compatibles antes de su adopción.
Las consideraciones sobre los costes son especialmente pertinentes para las pequeñas y medianas empresas, ya que los precios de Commvault a menudo superan la media del mercado, lo que puede forzar los presupuestos. Una evaluación meditada de las implicaciones financieras es esencial antes de invertir en Commvault.

Precios (en el momento de redactar este documento):

No hay información oficial sobre precios que pueda encontrarse en el sitio web de Commvault.
Sin embargo, también existe la información no oficial que ofrece el precio de 3.400 dólares a 8.781 dólares al mes por un único dispositivo de hardware.

Mi opinión personal sobre Commvault:

La versatilidad de Commvault brilla por su compatibilidad con una amplia gama de soluciones de almacenamiento, que abarcan entornos físicos y en la nube. Tanto si sus datos residen en una infraestructura local tradicional como en las elásticas extensiones de la nube, Commvault garantiza la protección y la accesibilidad. Su versatilidad es impresionante, con la capacidad de crear copias de seguridad de HDFS de múltiples maneras, lo que lo convierte en un gran contendiente para esta lista de soluciones de copia de seguridad y recuperación de Hadoop.

NetApp

El alcance global de NetApp, con más de 150 oficinas en todo el mundo, garantiza un soporte local de fácil acceso, que proporciona asistencia rápida cuando y donde se necesite. Esta extensa red de centros de asistencia subraya el compromiso de NetApp con la satisfacción del cliente. Una interfaz centralizada sirve como centro neurálgico de las proezas de protección de datos de NetApp, proporcionando una plataforma unificada para supervisar, programar y registrar sus operaciones de backup y recuperación.

La versatilidad de NetApp brilla por su compatibilidad con un amplio espectro de tipos de datos, que abarca aplicaciones, bases de datos, servidores MS Exchange, máquinas virtuales e incluso marcos de gestión de datos como Hadoop. NetApp trabaja con el mencionado DistCp para recibir los datos de las copias de seguridad, ya que utiliza MapReduce para establecer su propio recurso compartido NFS como ubicación de destino de las copias de seguridad para DistCp, actuando de forma similar a un controlador NFS.

Valoraciones de los clientes:

Capterra – 4,5/5 puntos con 8 reseñas
TrustRadius – 9,2/10 puntos con 2 reseñas
G2 – 3,8/5 puntos con 2 reseñas

Ventajas:

Una parte sustancial del proceso de clonación está automatizada, lo que hace que sea notablemente fácil de usar, con un mínimo de ajustes complejos o menús por los que navegar – y lo mismo podría decirse del resto de la solución, también.
Las capacidades de copia de seguridad remota de la solución son especialmente destacables, ya que permiten potencialmente una estrategia de protección de datos sin fisuras.
La compatibilidad con las tareas de backup y restauración de HDFS se realiza a través de la integración con DistCp -configurando un sistema de ficheros de red de NetApp como destino para una tarea de backup de DistCp.

Carencias:

A pesar de sus puntos fuertes, la solución puede verse empañada por un notable número de fallos que pueden entorpecer su rendimiento general.
La solución carece de capacidades de restauración remota para servidores Linux, un inconveniente importante para algunos usuarios.
Además, el servicio de atención al cliente es algo limitado, lo que obliga a los usuarios a depender en mayor medida de los recursos de autoservicio.

Precios (en el momento de escribir este artículo):

Las soluciones de NetApp tienden a variar drásticamente en precio y capacidades.
Para obtener cualquier tipo de información sobre precios, los clientes potenciales deben ponerse en contacto directamente con NetApp para iniciar una prueba o demostración gratuita.
Fuentes no oficiales sugieren que la cuota de suscripción anual de SnapCenter de NetApp comienza en 1.410 $.

Mi opinión personal sobre NetApp:

NetApp puede ofrecer una gestión centralizada de las copias de seguridad, multitud de opciones de programación, amplias funciones orientadas a las copias de seguridad y la capacidad de trabajar con multitud de tipos de almacenamiento. Las copias de seguridad generadas con la solución son fácilmente accesibles desde prácticamente cualquier dispositivo equipado con un navegador web, incluidos ordenadores portátiles y teléfonos móviles. NetApp destaca entre sus competidores por disponer de una red mundial de oficinas, lo que probablemente ayudará a ofrecer un soporte localizado a las empresas de regiones específicas. Es importante reconocer que no se ha elegido una única solución como descripción de las capacidades de backup Hadoop de NetApp, ya que esta función en concreto utiliza varias tecnologías de NetApp que no están vinculadas a una única solución.

Veritas NetBackup

Un incondicional en el ámbito de la protección de datos, Veritas es una entidad venerable con un rico legado en el sector de las copias de seguridad y la recuperación. Veritas puede ofrecer gobernanza de la información, gestión de datos en múltiples nubes, soluciones de copia de seguridad y recuperación, y mucho más. Además, su modelo de despliegue flexible permite a los clientes adaptar sus estrategias de protección de datos a sus necesidades específicas. Veritas puede ofrecer la posibilidad de elegir entre un dispositivo de hardware para una integración perfecta o un software desplegable en el propio hardware del cliente para una flexibilidad y un control máximos.

Veritas NetBackup también puede ofrecer operaciones de copia de seguridad de Hadoop con su plugin sin agente que puede ofrecer multitud de funciones. Este plugin ofrece copias de seguridad tanto completas como incrementales, lo que permite crear copias de datos puntuales en un momento dado. Hay muy pocas limitaciones cuando se trata de restaurar dichos datos, también – un administrador es capaz de elegir la ubicación de restauración, y el plugin también es compatible con la restauración granular si es necesario.

Valoraciones de los clientes:

Capterra – 4,1/5 puntos con 8 reseñas
TrustRadius – 6,3/10 puntos con 159 reseñas
G2 – 4,1/5 puntos con 234 reseñas

Ventajas:

El número total de funciones que Veritas puede ofrecer es elevado en comparación con otros proveedores del mercado de copias de seguridad y recuperación.
Los usuarios elogian la interfaz fácil de usar de la solución, que presenta eficazmente su amplio conjunto de funciones sin obstaculizar la accesibilidad.
El servicio de atención al cliente de Veritas sale razonablemente bien parado en cuanto a su eficacia y capacidad de respuesta.
La versatilidad general de la solución es otro argumento digno de elogio, ya que el software es capaz de trabajar con todo tipo de entornos, incluido Hadoop (a través de un complemento independiente para NetBackup).

Carencias:

A pesar de ser una solución de clase empresarial, Veritas se queda corta en ciertas áreas relativas a las capacidades de automatización.
Además, su precio puede considerarse caro en comparación con algunos de sus competidores.
No hay forma de guardar los informes de copia de seguridad en una ubicación personalizada, y la capacidad general de generación de informes de Veritas es bastante rígida.
La integración de las funciones de la biblioteca de cintas se ve obstaculizada por problemas pendientes de resolver.

Precios (en el momento de la redacción):

Veritas omite intencionadamente información específica sobre precios en su página web oficial, optando en su lugar por un enfoque personalizado.
Los clientes potenciales deben ponerse en contacto directamente con Veritas para obtener detalles sobre precios que se ajusten a sus requisitos específicos y necesidades de implantación.
Esta estrategia individualizada permite a Veritas curar cuidadosamente sus ofertas, asegurando un ajuste perfecto para las circunstancias y preferencias únicas de cada cliente.

Mi opinión personal sobre Veritas:

Veritas se erige como una potencia venerable y digna de confianza en el ámbito de las soluciones de gestión de datos y copias de seguridad. Con un historial probado que abarca varias décadas, Veritas se ha ganado el reconocimiento general como proveedor preferido de copias de seguridad, especialmente entre los sectores que valoran mucho la rica historia y la amplia cartera de productos de una empresa. Reconocido por su rendimiento, Veritas ofrece una variada gama de soluciones y funciones de copia de seguridad, complementada con una interfaz de usuario que se adapta a un amplio espectro de usuarios. Puede incluso soportar estructuras complejas como Hadoop, incluyendo soporte SSL y soporte de autenticación Kerberos.

Dell PowerProtect DD

PowerProtect DD se presenta como una solución integral de protección de datos y almacenamiento, que engloba funciones de copia de seguridad, recuperación ante desastres y deduplicación de datos. Su diseño modular se adapta a organizaciones de todos los tamaños, por lo que es una solución adecuada para una amplia variedad de casos de uso. Dispone de dispositivos para todo tipo de empresas, desde las más básicas hasta las grandes, con una capacidad lógica de hasta 150 Petabytes y un rendimiento de unos 68 Terabytes por hora.

PowerProtect DD se integra perfectamente con los entornos Hadoop a través de un controlador dedicado, DDHCFS, ofreciendo una protección de datos completa y otras muchas ventajas. La solución en sí apenas requiere configuración previa, y utiliza una combinación de su propia tecnología (DD Boost, para una transferencia de datos más rápida) y las capacidades de replicación/impresión de datos de Hadoop para crear y transferir copias de seguridad que se almacenarán en el dispositivo PowerProtect DD.

Valoraciones de los clientes:

TrustRadius – 8,0/10 puntos con 44 reseñas de clientes

Ventajas:

Algunos clientes alaban la fiabilidad del aparato, que puede funcionar 24 horas al día, 7 días a la semana, y estar accesible en todo momento.
El proceso de instalación por primera vez parece ser relativamente sencillo.
Hay un montón de diferentes marcos y tipos de almacenamiento que son compatibles – algunos incluso tienen controladores dedicados, como Hadoop, ofreciendo un montón de características para elegir, combinado con una configuración sin esfuerzo.

Carencias:

La mayoría de las ofertas parecen bastante caras en comparación con el precio medio del mercado.
La velocidad de restauración de datos desde un dispositivo real parece ser relativamente lenta. Esto podría llegar a ser insostenible para grandes conjuntos de datos.
Aunque la solución de gestión del hardware funciona dentro de unos límites aceptables, parece algo simplista en su estructura.

Precios:

No existe información oficial sobre los precios de la mayoría de los productos Dell EMC en el sitio web oficial, y los dispositivos PowerProtect DD no son una excepción.

Mi opinión personal sobre Dell:

PowerProtect DD es ligeramente diferente del resto de opciones de terceros, sobre todo porque se trata de una pieza física de hardware en lugar de un software o plataforma virtual. Se trata de una solución integral de protección de datos y almacenamiento que engloba funciones de copia de seguridad, recuperación ante desastres y deduplicación de datos. Puede trabajar tanto con grandes empresas como con pequeñas compañías, si es necesario. Incluso cuenta con un controlador dedicado para las tareas de recuperación ante desastres de Hadoop llamado DDHCFS – DD Hadoop Compatible File System, que ofrece una protección de datos completa junto con muchas otras ventajas.

Cloudera

Cloudera es una empresa de software estadounidense especializada en la gestión y el análisis de datos empresariales. Su plataforma insignia es la única plataforma nativa de la nube diseñada específicamente para funcionar sin problemas en todos los principales proveedores de nubes públicas y entornos de nubes privadas locales. La plataforma de Cloudera está pensada para empresas que buscan formas diferentes de gestionar sus enormes conjuntos de datos, generar perspectivas y tomar decisiones informadas a posteriori.

Esta plataforma de gestión no se centra en absoluto en la copia de seguridad y la recuperación, ni ofrece una solución de copia de seguridad tradicional. Sin embargo, Hadoop es el marco central de Cloudera en su conjunto, por lo que puede ofrecer algunas capacidades de recuperación ante desastres de HDFS proporcionando los medios para replicar datos de un clúster a otro. Las capacidades de copia de seguridad de Cloudera no son particularmente completas por sí mismas, pero ofrece una serie de funciones útiles además de la capacidad básica de DistCp, como la programación, la verificación de datos, etc. Se trata de un proceso bastante complejo en sí mismo, pero Cloudera ofrece una guía paso a paso sobre este mismo tema, lo que facilita mucho su realización.

Valoraciones de los clientes:

G2 – 4,0/5 puntos con 38 reseñas de clientes

Ventajas:

El servicio de atención al cliente es rápido y eficaz, y ofrece amplios conocimientos sobre las capacidades de la solución.
Una comunidad considerable en torno a la solución facilita la búsqueda de respuestas a diversas preguntas en línea, incluidas algunas de las capacidades menos convencionales del software.
La solución se puede escalar extremadamente bien, lo que la hace aplicable para negocios a pequeña escala, grandes empresas y todo lo intermedio.

Carencias:

El coste global de la solución es bastante elevado, y la oferta más barata posible sigue considerándose bastante cara para la mayoría de las pequeñas empresas.
La documentación de la solución es bastante mediocre, dejando muchos temas y funciones sin explicar para el usuario medio.
La interfaz de usuario de la solución no recibe muchos elogios, muchos usuarios la consideran rígida y poco receptiva.

Precios:

No hay información oficial de precios disponible en el sitio web de Cloudera.
La información de contacto y el formulario de solicitud de demostración son lo único que se puede adquirir de forma pública.

Mi opinión personal sobre Cloudera:

Técnicamente hablando, Cloudera no es una solución de copia de seguridad en sí misma, sino una plataforma de gestión de datos empresariales. Sin embargo, la plataforma en cuestión utiliza Hadoop como marco principal, y hay capacidades de retención de datos que se incluyen en el paquete – aunque en su mayoría están copiando las capacidades de DistCp. Por suerte, Cloudera puede crear programas de replicación de datos, e incluso programas de restauración de datos para eventos potencialmente problemáticos relacionados con los datos en el futuro. -sin embargo, por sí mismo, carece de muchas características que harían que las verdaderas operaciones de copia de seguridad y recuperación fueran, en el mejor de los casos, limitadas, lo que provocaría posibles dificultades de continuidad empresarial, cumplimiento y funcionamiento eficiente en algunas organizaciones.

Las copias de seguridad HDFS de Hadoop y Bacula Enterprise

Bacula Enterprise es una solución de copia de seguridad altamente segura y escalable que ofrece sus capacidades flexibles a través de un sistema de módulos. Existe un módulo de copia de seguridad HDFS independiente que ofrece una copia de seguridad y restauración eficiente del clúster HDFS con múltiples tipos de copia de seguridad (incremental, diferencial, completa) y gestión automática de instantáneas.

El módulo es capaz de filtrar los datos en función de su fecha de creación, lo que hace que sea extremadamente cómodo trabajar con él para un usuario final. También dispone de muchas otras funciones de copia de seguridad, así como de una libertad casi total a la hora de elegir el directorio de restauración para las copias de seguridad de HDFS.

La forma en que funciona este módulo también es sencilla: una operación de copia de seguridad solicita una conexión entre un Hadoop FS y un módulo Hadoop para generar una instantánea del sistema antes de enviarla al demonio de archivos de Bacula. La copia de seguridad completa no necesita acceder a instantáneas anteriores, mientras que tanto la diferencial como la incremental necesitan hacerlo para tomar nota de cualquier diferencia entre la última instantánea y la actual.

También está el hecho de que Bacula Enterprise se distribuye mediante un ventajoso modelo de licencia por suscripción sin límites de volumen de datos. Esta es una ventaja enorme en el contexto de Hadoop, ya que la mayoría de las implantaciones de Hadoop son conjuntos de datos masivos, y realizar copias de seguridad de este tipo de implantaciones encarece bastante el precio en otras soluciones, pero no con Bacula.

Muchas otras capacidades de clase empresarial de Bacula también son aplicables a los datos Hadoop respaldados. Bacula Enterprise es una solución excepcional y versátil adecuada para muchos casos de uso diferentes, incluyendo HPC que utiliza HDFS con frecuencia,

Toda la arquitectura de Bacula es modular y personalizable, lo que facilita la adaptación de la solución a diversos entornos de TI, independientemente de su tamaño. El soporte de infraestructuras distribuidas con balanceo de carga a través de múltiples servidores Bacula Director ayuda a evitar sobrecargas durante periodos de mucha carga. En general, Bacula tiene un historial de trabajo con grandes almacenamientos de datos sin apenas problemas, una cualidad excepcionalmente útil que contribuye a su eficacia en las implantaciones de Hadoop. Bacula también es capaz de formar parte de una estrategia integral de recuperación ante desastres. Éstas son sólo algunas de las razones por las que lo utilizan las mayores organizaciones militares y de defensa del mundo, bancos, la NASA y los Laboratorios Nacionales de EE.UU.

Conclusión

Hadoop es un marco importante, especialmente con tantas empresas que dependen de grandes conjuntos de datos para realizar tareas de ML e IA, entre muchas otras. El uso de «grandes datos» ha crecido y las aplicaciones para su uso han madurado hasta convertirse en soluciones empresariales sofisticadas y de gran valor. Del mismo modo, la demanda de marcos que lo complementen se desarrolla al mismo ritmo.

Sin embargo, con las nuevas estructuras y marcos de datos también surgen nuevos problemas, ya que los protocolos y medidas de seguridad de datos existentes no siempre son compatibles con los sistemas Hadoop. Afortunadamente, Hadoop tiene sus propias capacidades para la replicación de datos y la creación de instantáneas, y también existen múltiples soluciones y plataformas de copia de seguridad de terceros que pueden ofrecer capacidades de copia de seguridad de Hadoop.

Soluciones como Bacula o Veritas serían estupendas para las empresas que buscan una solución «todo en uno» que pueda cubrir las implantaciones de Hadoop y, al mismo tiempo, proteger una amplia gama de datos y tipos de aplicaciones diferentes dentro de la misma infraestructura para lograr una protección de un solo panel de cristal. Cloudera o incluso algunos de los métodos incorporados pueden funcionar para algunas organizaciones con necesidades sencillas de copia de seguridad y recuperación, ya que ofrece una solución algo enfocada a un problema estrecho pero con capacidades muy limitadas fuera de la cobertura de HDFS y HBase.

Los datos de HDFS y HBase pueden protegerse hasta cierto punto con diferentes métodos y enfoques dentro de soluciones de gestión como Cloudera. Pero si se necesitan copias de seguridad y recuperación con algún nivel de sofisticación, entonces se necesitarán soluciones especializadas como Bacula para ofrecer el nivel de servicio necesario.

Sobre el autor

Rob Morrison es el director de marketing de Bacula Systems. Comenzó su carrera de marketing de TI con Silicon Graphics en Suiza, desempeñando con fuerza varios puestos de gestión de marketing durante casi 10 años. En los siguientes 10 años, Rob también ocupó varios puestos de gestión de marketing en JBoss, Red Hat y Pentaho, asegurando el crecimiento de la cuota de mercado de estas conocidas empresas. Se graduó en la Universidad de Plymouth y tiene una licenciatura en Medios Digitales y Comunicaciones, y completó un programa de estudios en el extranjero.

También puede interesarle:

copia de seguridad diferencial

respaldo de servidores

respaldo de base de datos