Gestión de la Disponibilidad

Nuestras vidas, tanto personales como profesionales, dependen cada vez más de la tecnología. Ésta nos permite acceder a la información y a los servicios a una velocidad que ni siquiera podríamos haber soñado hace unos pocos años.

Nuestro ritmo de vida se acelera y exigimos como clientes una disponibilidad absoluta de nuestros proveedores tecnológicos. Y como proveedores de servicios TI nos enfrentamos al reto de evolucionar sin  margen de error, pues nuestros sistemas han de encontrarse a disposición del cliente prácticamente 24/7.

La Gestión de la Disponibilidad es responsable de optimizar y monitorizar los servicios TI para que estos funcionen ininterrumpidamente y de manera fiable, cumpliendo los Acuerdos de Nivel de Servicios SLAs y todo ello a un coste razonable.

Interrelaciones: Debe existir una estrecha relación en la Gestión de la Disponibilidad y otros procesos TI con el objetivo de que: Los planes de disponibilidad se ajusten a las necesidades reales del negocio y a la capacidad de la organización TI. Se disponga de toda la información necesaria sobre la infraestructura TI, interrupciones del servicio y estadísticas de uso.

Todo el proceso debe ser monitorizado para asegurar que: Los planes de disponibilidad responden a los objetivos preestablecidos. Se cumplen los niveles de disponibilidad acordados en los Acuerdos de Nivel de Servicio SLA. Se ha establecido una colaboración adecuada con el resto de procesos TI. 

Es fundamental conocer las necesidades reales de los clientes para así poder: Acordar niveles de disponibilidad acordes a sus procesos de negocio. Determinar el impacto de una interrupción del servicio TI en sus actividades.        

Planificación: La Gestión de la Disponibilidad debe: Elaborar planes de disponibilidad a corto y medio plazo. Colaborar con el diseño del servicio para asegurar su disponibilidad presente y futura. Participar en la preparación de los planes de recuperación del servicio para optimizar la disponibilidad.

Mantenimiento: La Gestión de la Disponibilidad es la responsable de: Colaborar en las actividades de recuperación del servicio. Gestionar las interrupciones del servicio para su mantenimiento y actualización. Minimizar, en la medida de lo posible, el impacto de las posibles interrupciones del servicio.    

Ahora bien…Continuando con la explicación de los procesos que apoyan la Gestión de la Disponibilidad. La Gestión de la Disponibilidad debe supervisar todo el proceso: Estableciendo métricas claras que permitan medir objetivamente la disponibilidad de los diferentes servicios TI. Elaborando informes para los clientes y organización TI con información detallada sobre disponibilidad, número de fallos del sistema, tiempo medio de parada, tiempo medio entre fallos, etc…   

Métodos y técnicas: La Gestión de la Disponibilidad tiene a su disposición una serie de métodos y técnicas estándar para la prevención, monitorización y medición de la disponibilidad y fiabilidad. Estos métodos pueden ser: 

  • Análisis de Impacto de Fallo de un Componente (CFIA)
  • Árbol de Fallos (FTA)
  • Análisis de Riesgos y Vulnerabilidades (CRAMM)

¡Más adelante definiremos estos términos con mayor detalle!      

El objetivo primordial de la Gestión de la Disponibilidad es asegurar que los servicios TI estén disponibles y funcionen correctamente siempre que los clientes y usuarios deseen hacer uso de ellos en el marco de los Acuerdos de Nivel de Servicios SLAs en vigor.

Las responsabilidades de la Gestión de la Disponibilidad incluyen:

  • Determinar los requisitos de disponibilidad en estrecha colaboración con los clientes.
  • Garantizar el nivel de disponibilidad establecido para los servicios TI.
  • Monitorizar la disponibilidad de los sistemas TI.
  • Proponer mejoras en la infraestructura y servicios TI con el objetivo de aumentar los niveles de disponibilidad.
  • Supervisar el cumplimiento de los Acuerdos de Nivel Operativo OLAs y Contratos UCs acordados con proveedores internos y externos.

En la Gestión de la Disponibilidad. ¿Cuales son los  indicadores clave sobre los que se sustenta el proceso de Gestión de la Disponibilidad?

Esos indicadores son:

  • Disponibilidad: porcentaje de tiempo sobre el total acordado en que los servicios TI han sido accesibles al usuario y han funcionado correctamente.
  • Fiabilidad: medida del tiempo durante el cual los servicios han funcionado correctamente de forma ininterrumpida.
  • Capacidad de mantenimiento: capacidad de recuperar el servicio en caso de interrupción.
  • Capacidad de Servicio: determina la disponibilidad de los servicios internos y externos contratados y su adecuación a los OLAs y UCs en vigor. 

La disponibilidad depende del correcto diseño de los servicios TI y de los Acuerdos de Nivel de Servicios (SLA) que buscan garantizar que la organización TI mantenga disponible dichos servicios, otros factores son la fiabilidad de los Elementos de Configuración CIs involucrados (datos, software, hardware, telecomunicaciones, etc…), su correcto mantenimiento y la calidad de los servicios internos y externos acordados con terceros y con personal técnico de los diferentes niveles de soporte.

Ahora bien…Continuando con el proceso de Gestión de la Disponibilidad, podemos decir que: Los principales beneficios de una correcta gestión, de la Gestión de la Disponibilidad son:

  • Cumplimiento de los niveles de disponibilidad acordados.
  • Se reducen los costes asociados a un alto nivel de disponibilidad.
  • El cliente percibe una mayor calidad de servicio.
  • Se aumentan progresivamente los niveles de disponibilidad.
  • Se reduce el número de incidentes.

La Gestión de la Disponibilidad no es la excepción, en cuanto a dificultades, al momento de poner en práctica las actividades del proceso. Las principales dificultades con las que se encuentra la Gestión de la Disponibilidad son:

  • No se monitoriza correctamente la disponibilidad real del servicio.
  • No existe compromiso con el proceso dentro de la organización TI.
  • No se dispone de las herramientas de software y personal adecuado.
  • Los objetivos de disponibilidad no están alineados con las necesidades del cliente.
  • Falta de coordinación con los otros procesos (Gestión de la continuidad, gestión de cambios, gestión de problemas, gestión de la capacidad, etc…) 
  • Los proveedores internos y externos no reconocen la autoridad del Gestor de la Disponibilidad por falta de apoyo de la dirección.

Es indispensable cuantificar los requisitos de disponibilidad para la correcta elaboración de los Acuerdos de Nivel de Servicio SLAs.

La disponibilidad propuesta debe encontrase en línea tanto con las necesidades reales del negocio como con las posibilidades de la organización TI.

Para llevar a cabo eficientemente esta tarea es necesario que la Gestión de la Disponibilidad:

  • Identifique las actividades clave del negocio.
  • Cuantifique los intervalos razonables de interrupción de los diferentes servicios dependiendo de sus respectivos impactos.
  • Establezca los protocolos de mantenimiento y revisión de los servicios TI.
  • Determine las franjas horarias de disponibilidad de los servicios TI (24/7, 12/5, …).

La correcta planificación de la disponibilidad permite establecer unos niveles de disponibilidad adecuados tanto en lo que respecta a las necesidades reales del negocio como a las posibilidades de la organización TI. El documento que debe recoger los objetivos de disponibilidad presentes y futuros y qué medidas son necesarias para su cumplimiento es el Plan de Disponibilidad.

Este plan debe contener:

  • La situación actual de disponibilidad de los servicios TI. Obviamente esta información debe ser actualizada periódicamente.
  • Herramientas para la monitorización de la disponibilidad.
  • Métodos y técnicas de análisis a utilizar.
  • Definiciones relevantes y precisas de las métricas a utilizar.
  • Planes de mejora de la disponibilidad.
  • Expectativas futuras de disponibilidad.

Aunque hayamos realizado un correcto diseño de los servicios según el Plan de Disponibilidad y se hayan tomado todas las medidas preventivas necesarias, tarde o temprano, nos habremos de enfrentar a interrupciones del servicio. En esos casos es necesario recuperar el servicio lo antes posible para que no tenga un efecto indeseado sobre los niveles de disponibilidad acordados.

Aunque la responsabilidad de restaurar el servicio corresponde a la Gestión de Incidencias y las actividades de recuperación han de ser coordinadas por el Centro de Servicios, la Gestión de la Disponibilidad debe prestar su asesoramiento mediante planes de recuperación que tengan en cuenta:

  • Las necesidades de disponibilidad del negocio.
  • Las implicaciones del incidente en la infraestructura TI y los procesos necesarios para restaurar el servicio.

Gestión de las interrupciones de mantenimiento: Independientemente de las interrupciones del servicio causadas por incidencias, es habitualmente necesario interrumpir el servicio para realizar labores de mantenimiento y/o actualización. Estas interrupciones programadas pueden afectar a la disponibilidad del servicio y por lo tanto han de ser cuidadosamente planificadas para minimizar su impacto.

En aquellos casos en que los servicios no son 24/7 es obvio que, siempre que ello sea posible, deben aprovecharse las franjas horarias de inactividad para realizar las tareas que implican una degradación o interrupción del servicio. Si el servicio es 24/7 y la interrupción es necesaria se debe:

  • Consultar con el cliente acerca de la franja horaria en la que la interrupción del servicio afectará menos a sus actividades de negocio.
  • Informar con antelación suficiente a todos los agentes implicados.
  • Incorporar dicha información a los Acuerdos de Nivel de Servicio SLAs

Uno de los aspectos esenciales para obtener altos niveles de fiabilidad y disponibilidad es una correcta Gestión de la Seguridad.

Los aspectos relativos a la seguridad deben ser tomados en cuenta en todas las etapas del proceso de Gestión de la Disponibilidad.

Es tan importante determinar cuándo el servicio estará disponible como el “quién y cómo” va a utilizarlo. La disponibilidad y seguridad son interdependientes y cualquier fallo en una de ellas afectará gravemente a la otra.

Es imprescindible que la Gestión de la Disponibilidad realice diagnósticos periódicos sobre la disponibilidad de los sistemas y servicios.

Hay que evaluar la capacidad de servicio de los proveedores internos y externos. Esto le permite a la Gestión de la Disponibilidad adelantarse a posibles fallos que puedan afectar a servicios críticos de la organización cliente.    

La monitorización de la disponibilidad del servicio y la elaboración de los informes correspondientes son dos de las principales actividades de la Gestión de la Disponibilidad.

Desde el momento de la interrupción del servicio hasta su restauración el incidente pasa por distintas fases que deben ser analizadas por separado:

  • Tiempo de detección: es el tiempo que transcurre desde que ocurre el fallo hasta que la organización TI tiene constancia del mismo.
  • Tiempo de respuesta: es el tiempo que transcurre desde la detección del problema hasta que se realiza un registro y diagnóstico del incidente.
  • Tiempo de reparación/recuperación: periodo de tiempo utilizado para reparar el fallo o encontrar una solución temporal al mismo y devolver el sistema a la situación anterior a la interrupción del servicio.

Es importante determinar métricas que permitan medir con precisión las diferentes fases del ciclo de vida de la interrupción del servicio. El cliente debe conocer estas métricas y dar su conformidad a las mismas para evitar malentendidos. 

Algunos de los parámetros que suele utilizar la Gestión de la Disponibilidad y que debe poner a disposición del cliente en los informes de disponibilidad correspondientes incluyen:

  • Tiempo Medio de Parada (Downtime o (Mean Time To Repair – MTTR): Es el tiempo promedio de duración de una interrupción del servicio, e incluye el tiempo de detección, respuesta y resolución.
  • Tiempo Medio entre Fallos (Uptime o (Medium Time Between Failures – MTBF): Es el tiempo medio durante el cual el servicio está disponible sin interrupciones.
  • Tiempo Medio entre Incidencias (Mean-Time-Between-System-Incidents – MTBSI): Es el tiempo medio transcurrido entre incidentes, que es igual a la suma del Tiempo Medio de Parada y el Tiempo Medio entre Fallos. El Tiempo Medio entre Incidentes es una medida de la fiabilidad del sistema.

La Gestión de la Disponibilidad elabora informes de seguimiento con la información recopilada sobre disponibilidad, fiabilidad, capacidad de mantenimiento y cumplimiento de los Acuerdos de Nivel Operativo OLAs y los Contratos UCs.

La Gestión de la Disponibilidad evalúa el impacto de las políticas de seguridad informática en la disponibilidad de los servicios TI.

La Gestión de la Disponibilidad asesora a la Gestión de Cambios sobre el posible impacto que pueda tener un cambio en la disponibilidad de los servicios TI, la Gestión de la Disponibilidad debe estar representada en el Comité Asesor de Cambios CAB, para permitir una adecuada gestión de la disponibilidad y de los cambios que deben ser aprobados. 

El Análisis de Impacto de Fallo de un Componente (Component Failure Impact Analysis CFIA). Es un método mediante el cual se identifica el impacto que tiene en la disponibilidad de los servicios TI el fallo de cada Elemento de Configuración CIs involucrado. Es evidente que este método requiere una Base de Datos de Gestión de la Configuración CMDB correctamente actualizada. 

El Análisis de Árbol de Fallos (Failure Tree Analysis FTA) tiene como objetivo estudiar cómo se “propagan” los fallos a través de la infraestructura TI para comprender mejor su impacto en la disponibilidad del servicio.

El Análisis de Riesgos y Vulnerabilidades (Risk Analysis and Management Method CRAMM) tiene como objetivo identificar los riesgos y vulnerabilidades a los que está expuesta la infraestructura TI, con el objetivo de adoptar contramedidas que los reduzcan o que permitan recuperar rápidamente el servicio en caso de interrupción del mismo.

La Gestión de la Disponibilidad interactúa con los procesos:

Gestión de Incidentes y Problemas

Gestión de la Seguridad 

Gestión de Capacidad 

Gestión de Niveles de Servicio y

Gestión del Cambio

Estos procesos intercambian información con la Gestión de la Disponibilidad para ayudar con una eficiente gestión en la entrega de servicios y mantener los niveles acordados.

La Gestión de la Disponibilidad debe elaborar periódicamente informes sobre su gestión que incluyan información relevante tanto para los clientes como para el resto de la organización TI. Estos informes deben incluir:

  • Técnicas y métodos utilizados para la prevención y el análisis de fallos.
  • Información estadística sobre:
  • Tiempos de detección y respuesta a los fallos.
  • Tiempos de reparación y recuperación del servicio.
  • Tiempo medio de servicio entre fallos.
  • Disponibilidad real de los diferentes servicios.
  • Cumplimiento de los SLAs en todo lo referente a la disponibilidad y fiabilidad del servicio.
  • Cumplimiento de los OLAs y UCs en todo lo referente a la capacidad de servicio prestada por los proveedores internos y externos.