Checklist para un plan de recuperación ante desastres de su centro de datos
¿Está desarrollando un plan de recuperación ante desastres del centro de datos para su organización? Asegúrese de incluir estos elementos importantes en su planificación, o podría encontrarse con una sorpresa no deseada.
Los planes de recuperación ante desastres, o DRP (Disaster Recovery Plan), existen en archivos de todo el mundo. Lamentablemente, muchos de ellos se desarrollan como parte de un ejercicio de memoria, simplemente porque “TI debería tener un DRP”. Muchas organizaciones no han reconsiderado su plan de recuperación ante desastres en ubicaciones de centros de datos desde su inicio, y mucho menos han probado los procesos que implementa.
Los desastres son más comunes y de naturaleza más diversa de lo que muchos profesionales de TI esperan. Cada uno de nosotros podría calificar nuestra vulnerabilidad a una tormenta tropical, un tornado o una fusión nuclear inducida por un tsunami y (dependiendo de la ubicación) considerar baja la posibilidad de tales desastres y, por lo tanto, concluir que la planificación de DR (Disaster Recovery) no es importante. Pero, ¿qué sucederá en el caso de un apagón, una falla grave de Internet, el robo del equipo central o un simple aumento en las temperaturas del centro de datos causado por una unidad de aire acondicionado defectuosa? ¿Está su resiliencia de TI a la altura?
La creación de un plan de recuperación del centro de datos eficaz y preciso es clave para lograr ese objetivo. Sin embargo, se necesita mucho para crear un plan efectivo. Hemos creado una lista de verificación del plan de recuperación ante desastres de TI para garantizar que pueda minimizar el riesgo y el tiempo de inactividad mientras maximiza el tiempo de actividad.
¿Qué es un plan de recuperación del centro de datos?
Un plan de recuperación del centro de datos (DRP, por sus siglas en inglés) es un esquema estratégico de lo que pretende hacer para mantener a su negocio a la vanguardia de problemas importantes que podrían resultar en una pérdida de datos, energía o conectividad.
¿Por qué necesita un plan de recuperación ante desastres?
Entonces, ¿por qué es importante tener un plan de recuperación ante desastres del centro de datos? En pocas palabras, sin un plan de este tipo, se vuelve difícil evitar el tiempo de inactividad no deseado o la pérdida de datos.
Beneficios
Los beneficios de tener un plan de recuperación ante desastres del centro de datos deben ser claros: puede evitar o minimizar el tiempo de inactividad relacionado con desastres naturales, fallas de hardware y otras amenazas. Puede restaurar la conectividad rápidamente cuando se pierde y evitar la pérdida de datos.
Tener un DRP puede ser la diferencia entre tener un mal mes y cerrar el negocio.
Objetivos del plan de recuperación ante desastres
Un plan de recuperación ante desastres consiste en adoptar una postura proactiva frente a las amenazas muy reales a las que se enfrenta su organización hoy en día, lo que incluye minimizar el riesgo, maximizar el tiempo de actividad y mantener el cumplimiento de la industria. Tu DRP debe considerar todas estas posibilidades y ofrecer una solución que pueda implementarse para recuperarse ante cualquier evento incapacitante.
Minimizar el riesgo
Uno de los objetivos principales de cualquier plan de recuperación ante desastres es minimizar el riesgo. Sin embargo, para hacer eso, primero deberá comprender su nivel de riesgo y las amenazas que enfrenta su centro de datos. Una evaluación de riesgos es un primer paso crítico aquí.
Maximice el tiempo de actividad
El tiempo de actividad es una medida de la disponibilidad de su centro de datos. Los cortes de energía, las fallas de hardware y las fallas de red que afectan la conectividad degradan esa medición. Su plan de recuperación ante desastres debe centrarse en maximizar el tiempo de actividad de varias maneras, desde cambiar a sitios alternativos que no se hayan visto afectados por el desastre hasta reparar rápidamente el hardware dañado.
Mantenga el cumplimiento de la industria
¿Qué normativas debes cumplir ante un desastre, falla de hardware o pérdida de conectividad? ¿Y qué tendrá que hacer para garantizar el cumplimiento?
Lista de verificación del plan de recuperación ante desastres de TI
Es posible que los primeros pasos del proceso DRP no se encuentren en las páginas del propio DRP. Más bien, abarcan algunos elementos de un Plan de Continuidad Comercial (BCP), que incorpora un DRP, para proporcionar una mejor comprensión de dónde se encuentra su DRP dentro del esquema de planificación de su organización. Los planes de recuperación ante desastres se activan cuando hay algún tipo de problema y se ocupan principalmente de restaurar el servicio, mientras que un BCP incorporará evaluaciones de riesgo e impacto comercial, junto con medidas de prevención.
Estos ejercicios de establecimiento de objetivos y revisiones comerciales ayudan a garantizar que todas las partes interesadas estén de acuerdo con la definición de una recuperación exitosa y que la empresa esté invirtiendo adecuadamente en la preparación y recuperación para que esto suceda. También aseguran que las mejores prácticas de recuperación ante desastres del centro de datos se incorporen desde el principio.
El DRP y los procesos circundantes implican las siguientes acciones clave.
1. Evaluar la tolerancia al tiempo de inactividad
Antes de que pueda planificar la recuperación, necesita saber cuáles son las expectativas. Para una empresa que depende de software de misión crítica en tiempo real, unos pocos segundos de tiempo de inactividad son costosos, por lo que las expectativas de recuperación y la inversión en preparación serán altas. Para empresas más pequeñas o menos centradas en la tecnología, las interrupciones más prolongadas pueden ser aceptables y una solución DR menos robusta y costosa puede ser suficiente.
Por supuesto, la tolerancia al tiempo de inactividad de la red a menudo cambia con el tiempo; por ejemplo, a medida que el negocio crece, los productos o servicios evolucionan, o se incorporan clientes con mayores expectativas. Actualice la comprensión de las expectativas del equipo de DR para que el plan pueda modificarse en consecuencia.
2. Hacer inventario
Antes de hacer cualquier otra cosa, es fundamental hacer un inventario. ¿Qué sistemas existen? ¿Cuál es el escenario probable si un sistema deja de funcionar? ¿Su organización implementa la redundancia del centro de datos para ayudar a protegerse contra cortes de energía o fallas de hardware?
3. Identifique las deficiencias
También necesitará conocer las debilidades de su centro de datos. ¿Cuáles son sus puntos débiles estratégicos? Algunos de los principales desafíos del centro de datos incluyen descuidos en el diseño del centro de datos, fallas en el suministro de energía y problemas ambientales que agotan los recursos energéticos.
4. Definir objetivos de recuperación
A continuación, debe determinar su RTO y RPO. Vamos a desglosarlos por ti:
Objetivo de tiempo de recuperación (RTO)
Su objetivo de tiempo de recuperación (RTO – Recovery Time Objective) tiene que ver con la cantidad de tiempo que necesita para recuperar las aplicaciones.
Objetivo de punto de recuperación (RPO)
RPO (Recovery Point Objective) indica la antigüedad de los archivos que necesita recuperar para que se reanuden las operaciones normales.
Estas métricas de recuperación son extremadamente similares en naturaleza a las métricas de fallas de red como MTBF, MTTR y MTTF.
5. Llevar a cabo una evaluación de riesgos
Realice una evaluación de riesgos completa para su centro de datos. ¿Cuáles son las amenazas más probables que enfrentará y qué probabilidad hay de que ocurran? Vaya más allá de la planificación para desastres naturales: ¿cuál es la probabilidad de que se enfrente a la exposición a la radiación o a los explosivos?
6. Asignar roles, responsabilidades
Una parte clave de la estrategia de recuperación de su centro de datos es asegurarse de que todos entiendan su papel en el proceso. ¿Quién es responsable de qué? ¿Quién lidera y quién informa a quién? Tenga funciones y responsabilidades claramente definidas y asegúrese de que su gente las tenga claras.
7. Resumen Prevención Mitigación
¿Qué medidas tomará en términos de prevención y mitigación? El uso de fuentes de alimentación ininterrumpidas es fundamental, pero ¿qué más está haciendo para mitigar los riesgos que enfrenta?
8. Definir sitios de recuperación ante desastres
Los sitios de recuperación ante desastres son ubicaciones externas donde se almacenan datos y equipos de repuesto para restaurar la conectividad y las comunicaciones ante un desastre. ¿Dónde están esos sitios y qué funciones desempeñan?
9. Esquema de procedimientos de respuesta
¿Qué procedimientos existen para que su equipo los siga en caso de que ocurra un desastre? ¿Qué debe hacer primero su gente? ¿Qué pasos deberían tomar a continuación? Sus procedimientos de respuesta deben proporcionar a su equipo un marco paso a paso a seguir en lo que respecta a la comunicación, los procedimientos de respaldo de datos y las actividades posteriores al desastre, como las comunicaciones con los clientes y el trato con los proveedores.
10. Diseñe un plan de comunicación de crisis
La comunicación es esencial durante un desastre. Asegúrese de que su gente sepa quién está a cargo de las comunicaciones, qué información debe comunicarse y cuándo deben realizarse esas comunicaciones. Acople su plan de comunicación de crisis con sus procedimientos de respuesta y roles/responsabilidades para mayor claridad y comprensión.
11. Realizar exámenes de práctica
Finalmente, asegúrese de realizar simulacros y pruebas de práctica. Así como su clase participó en simulacros de incendio durante la escuela, su equipo necesita practicar qué hacer ante un posible desastre.
Modele diferentes tipos de desastres y agregue eventos inesperados a la mezcla; las personas que faltan en el plan de comunicación, las interrupciones en los sitios de recuperación de desastres y similares ayudarán a su equipo a aprender a pensar con rapidez y garantizar que, cuando ocurra un desastre real, puedan afrontar los golpes.
Asóciese con un líder confiable en soporte de TI global
Cuando ocurra una calamidad, ¡asegúrate de tener al socio adecuado de tu lado! Park Place Technologies ha sido un proveedor confiable de servicios de soporte de TI durante más de 30 años.
Nuestros servicios administrados de infraestructura ofrecen una manera fantástica de poner la salud de sus sistemas de TI críticos en piloto automático. Alternativamente, comience su relación con nuestro equipo comenzando con garantías de mantenimiento de hardware del centro de datos o servicios profesionales como nuestras manos remotas y aumento de personal de TI.
Póngase en contacto con nuestro equipo hoy para saber cómo nuestra cartera de soluciones de TI puede facilitarle la vida.