Operación del Servicio

Uno de los aspectos esenciales en la Operación del Servicio es la búsqueda de un equilibrio entre estabilidad y capacidad de respuesta.

La estabilidad es necesaria pues los clientes requieren disponibilidad y muestran resistencias al cambio. Por otro lado las necesidades de negocio cambian rápidamente y eso requiere habitualmente rapidez en las respuestas. Para evitar los problemas de inestabilidad es conveniente adoptar una actitud proactiva que permita dar respuestas a las nuevas necesidades de negocio de una forma progresiva. La actitud reactiva provoca que los cambios sólo se implementen cuando la organización TI se ve obligada a responder a estímulos externos lo que usualmente provoca un estado de “urgencia” que no es conducente a una correcta planificación del cambio.

Los principales objetivos de la fase de Operación del Servicio incluyen:

  • Coordinar e implementar todos los procesos, actividades y funciones necesarias para la prestación de los servicios acordados con los niveles de calidad aprobados.
  • Dar soporte a todos los usuarios del servicio.
  • Gestionar la infraestructura tecnológica necesaria para la prestación del servicio.

Los principales procesos asociados directamente a la Fase de Operación del Servicio son:

  • Gestión de Eventos: responsable de monitorizar todos los eventos que acontezcan en la infraestructura TI con el objetivo de asegurar su correcto funcionamiento y ayudar a prever incidencias futuras.
  • Gestión de Incidencias: responsable de registrar todas las incidencias que afecten a la calidad del servicio y restaurarlo a los niveles acordados de calidad en el más breve plazo.
  • Petición de Servicios TI: responsable de gestionar las peticiones de usuarios y clientes que habitualmente requieren pequeños cambios en la prestación del servicio.
  • Gestión de Problemas: responsable de analizar y ofrecer soluciones a aquellos incidentes que por su frecuencia o impacto degradan la calidad del servicio.
  • Gestión de Acceso a los Servicios TI: responsable de garantizar que sólo las personas con los permisos adecuados pueda acceder a la información de carácter restringido.

Una vez que el servicio está operando es necesario monitorizar todos los sucesos importantes que se produzcan para poder anticiparse a los problemas, resolverlos o incluso prevenirlos. Esta función representa una tarea en sí misma y por tanto constituye un proceso independiente dentro del ciclo de vida: la Gestión de Eventos.

A efectos de la operación del servicio, se denomina evento a todo suceso detectable que tiene importancia para la estructura de la organización TI, para la prestación de un servicio o para la evaluación del mismo. Ejemplos típicos de eventos son las notificaciones creadas por los servicios, los elementos de configuración CIs o las herramientas de monitorización y control.

Los eventos no tienen por qué ser siempre negativos o extraordinarios, también pueden ser rutinarios. De hecho, podemos distinguir varios tipos de eventos dependiendo de su impacto:

  • Eventos que indican que el servicio está operando con normalidad (Informativo)
  • Eventos que indican una excepción (el servicio puede NO estar disponible)
  • Eventos que indican una operación inusual pero no excepcional (Alerta) (NO hay caída del servicio pero se requiere una pronta revisión), y que requieren una monitorización exhaustiva.

La Gestión de Eventos, además de detectar y notificar los sucesos, se encarga de clasificarlos y dimensionar su impacto en el servicio. Llegado el caso, se ocupa también de documentar el evento y derivarlo al proceso correspondiente para que tome medidas:

  • A la Gestión de Incidencias, en caso de que el evento suponga una interrupción no planificada del servicio o fallos en uno o más CIs.
  • A la Gestión de Problemas, si una incidencia se repite a menudo y no se conoce la causa que la provoca.

Flujo del proceso: La Gestión de Eventos: Proporciona información de entrada a otros procesos de la fase de operación: Gestión de Incidencias y Gestión de Problemas. Contribuye a la Mejora Continua del Servicio enviando nuevas RFCs a la Gestión de Cambios.

Monitorización y Seguimiento: El proceso de Gestión de Eventos debe ser controlado para: Asegurar que se lleven a cabo las tareas programadas. No existan duplicaciones a la hora de notificar un mismo evento. No se pasan por alto eventos significativos ni se sobredimensionan eventos insignificantes.

Aparición del evento: El proceso se inicia cuando ocurre el suceso y sea detectado. 

Notificación: La existencia del suceso es notificada a través de: Una herramienta de gestión que analiza periódicamente los Elementos de Configuración CIs. El propio CI genera un informe al darse unas determinadas condiciones definidas previamente.

Detección y filtrado: La notificación llega a un agente o herramienta de gestión que: Lee la notificación. Interpreta los datos relacionados con el suceso. Decide si el evento se comunica o no a la herramienta de gestión.

Clasificación: Las categorías en las que se suelen clasificarse los eventos incluyen, como mínimo: Informativo, Alerta o excepción.

Correlación: Se interpreta el evento, teniendo en cuenta: Categorización (Informativo, Alerta o excepción) y nivel de prioridad. Existencia de otros eventos similares, especialmente en los mismos CIs. Acciones asociadas al evento. ¿Representa una excepción? ¿Se necesitan más datos?

Disparadores: Hay varios tipos de disparadores: Disparadores de Incidentes y de Cambios. Disparadores procedentes de una RFC aprobada o rechazada. Notificaciones por teléfono móvil. Scripts automatizados y disparadores de bases de datos.

Opciones de respuesta: Entre las más comunes están: Registro de eventos, respuesta automática o alerta para intervención humana, emisión de una solicitud de cambio (RFC) y apertura de un registro o vinculación con un registro previo.

Revisión de acciones: Se revisan todas las excepciones o eventos importantes para: Determinar si se han tratado correctamente. Comprobar que se hace un recuento de tipos de eventos.

Cierre: Una vez terminada todas las acciones de respuesta asignadas al suceso, se da por cerrado el evento.

El principal objetivo de la Gestión de Eventos, en su función de monitorizar todos los sucesos importantes, consiste en detectar y escalar condiciones de excepción para así contribuir a una operación normal del servicio:

  • Proporcionando puntos de entrada para varios procesos de la fase de Operación, por ejemplo, Gestión de Incidencias
  • Posibilitando la comparación entre el rendimiento real del servicio con los estándares de diseño y los SLAs.
  • Contribuyendo a la Mejora Continua del Servicio mediante informes de mejora.

Algunas de las ventajas que una correcta Gestión de Eventos aporta a la organización TI son:

  • Ayuda a la detección temprana de incidentes, llegando incluso a evitar que éstos se manifiesten a los usuarios.
  • Además, la coordinación directa con otros procesos hace posible que éstos reaccionen con mayor rapidez, resultando en una mayor eficiencia de toda la organización TI.
  • Posibilita la monitorización automatizada de determinadas actividades. 
  • Proporciona la base para las operaciones automatizadas, que incrementan la eficiencia y descargan de trabajo a los recursos humanos que, así, pueden ser empleados en otras tareas como diseñar nuevas funcionalidades, etc…

Entre los principales desafíos que pueden obstaculizar la labor de la Gestión de Eventos encontramos:

  • Dificultades en la obtención de fondos para contratar las herramientas necesarias y el esfuerzo necesario para configurarlas y explotar sus beneficios.
  • Los niveles de filtrado no son adecuados, bien por exceso (se gestionan eventos sin impacto real en el servicio) o por defecto (algunos eventos de importancia no se detectan hasta que es demasiado tarde)
  • No existe suficiente compromiso con la Gestión de Eventos en otros procesos del ciclo de vida, ocasionando retrasos en la respuesta a los eventos.
  • Adquirir las habilidades necesarias exige tiempo y dinero.

Clasificación de eventos: No todos los eventos son iguales ya que no tienen la misma importancia para el servicio ni la infraestructura TI y por tanto, no deben tratarse de la misma manera. Existen tres clases de eventos diferenciados según su importancia:  

Evento Informativo: Se asigna a aquellos eventos que no requieren, en principio, ninguna respuesta y que por tanto no representan una excepción, ejemplo, notificación de un correo nuevo.

Evento de Alerta. Se asigna a aquellos eventos que indican que el servicio se aproxima a un umbral. Su objetivo es notificar a las personas, herramientas o procesos apropiados para que revisen la situación y tomen las medidas necesarias para evitar que se produzca una excepción, ejemplo, uso de CPU 85%

Eventos de Excepción. Se asigna a los eventos cuando indican que el servicio está operando de manera irregular: los SLAs y OLAs se han incumplido, etc. Las excepciones pueden representar un fallo total, un cese en una funcionalidad o una disminución del rendimiento. Sin embargo, no tienen por qué ser errores, ejemplo, Apache no se ejecuta correctamente, señal que la pagina esta caida.