Gestión de Problemas

Las funciones principales de la Gestión de Problemas son:

  • Investigar las causas subyacentes a toda alteración, real o potencial, del servicio TI.
  • Determinar posibles soluciones a las mismas.
  • Proponer las peticiones de cambio (RFC) necesarias para restablecer la calidad del servicio.
  • Realizar Revisiones Post-Implementación (PIR) para asegurar que los cambios han surtido los efectos buscados sin crear problemas de carácter secundario.

La Gestión de Problemas puede ser:

  • Reactiva: Analiza los incidentes ocurridos para descubrir su causa y propone soluciones a los mismos.
  • Proactiva: Monitoriza la calidad de la infraestructura TI y analiza su configuración con el objetivo de prevenir incidentes incluso antes de que éstos ocurran.

Gestión Proactiva: Su objetivo es prevenir accidentes antes de que estos ocurran, para ello: Monitoriza toda la infraestructura TI, analiza tendencias y mantiene informada a toda la organización.

Gestión de Incidentes: La Gestión de Incidentes es la más estrecha colaboradora de la Gestión de Problemas pues estos están habitualmente originados por: incidentes recurrentes de los que se desconocen sus causas e incidentes aislados con un alto impacto en la calidad del servicio que no han podido ser asociados a algún error conocido.

Registro y Clasificación de Problemas: Identificación de Problemas, clasificación según tipo, urgencia, impacto y prioridad del problema y asignación de recursos.

Diagnosis: Los objetivos principales del proceso de análisis son: Determinar las causas del problema y convertir el problema en un error conocido y proporcionar soluciones temporales a la Gestión de Incidentes p0ara minimizar el impacto del problema hasta que se implemente los cambios necesarios que lo resuelvan definitivamente.

Solución: Se deben investigar diferentes soluciones para el error evaluado en cada momento: El posible impacto de las mismas en la infraestructura TI, los costos asociados  y sus consecuencias sobre los SLAs. 

RFC: Si la Gestión de Problemas considera que: no es conveniente demorar la solución definitiva al problema, las soluciones temporales son insuficientes y beneficios del cambio justifican los costos, entonces se elevara una Petición de Cambio (RFC) a la Gestión de Cambios para su implementación.

Gestión de Cambios: Es responsabilidad de la Gestión de Cambios: Aprobar o rechazar cada RFC, supervisar la implantación del cambio y evaluar los resultados. 

PIR: La revisión Post-Implementación: Evalúa el impacto de la RFC, cierra el problema si los resultados han sido positivos e informa a la Gestión de Incidentes.    

Base de Datos de Errores Conocidos: La Base de Datos de errores complementa la Base de Datos de Problemas incorporando información sobre: Las posibles soluciones al problema, las RFCs solicitadas a la Gestión de Cambios  y los resultados del PIR.

Base de Datos de Problemas: Esta base de datos contiene información esencial sobre: La naturaleza de los problemas y los incidentes relacionados, causas y síntomas de los mismos, los elementos de configuración involucrados y soluciones temporales.

Base de Datos de Incidentes: La base de datos de incidentes debe: asociar a cada incidente las soluciones temporales proporcionadas por la Gestión de Problemas, relacionar, si es posible, los incidentes con errores conocidos y aportar datos imprescindibles para la identificación, clasificación, análisis y diagnosis de los problemas, tanto para la gestión reactiva como proactiva.

Monitorización y Seguimiento: Todo el proceso debe ser controlado mediante la: Emisión de informes de rendimiento, análisis de la infraestructura TI y monitorización de la calidad de productos y servicios. 

Interrelaciones: Debe existir una estrecha colaboración entre los diferentes procesos TI y la Gestión Proactiva de Problemas, en particular: Es imprescindible la existencia de una CMDB actualizada que permita analizar la infraestructura TI. La comunicación con la Gestión de la Capacidad, Disponibilidad y Niveles de Servicio permite analizar tendencias y prevenir la aparición de futuros problemas.

Como se explicó en la sección de Gestión de Incidencias, esta última tiene como objetivo exclusivo el restablecer lo más rápidamente la calidad del servicio y no el determinar cuáles han sido los orígenes y causas del mismo.

Cuando algún tipo de incidente se convierte en recurrente o tiene un fuerte impacto en la infraestructura TI, es la función de la Gestión de Problemas el determinar sus causas y encontrar posibles soluciones.

Cabe diferenciar entre:

  • Problema: causa subyacente, aún no identificada, de una serie de incidentes o un incidente aislado de importancia significativa.
  • Error conocido: Un problema se transforma en un error conocido cuando se han determinado sus causas.

Los principales conceptos involucrados en el proceso de Gestión de Problemas y su relación con la Gestión de Incidencias son: 

Incidencias: Cualquier interrupción o reducción de calidad del servicio. 

Gestión Proactiva: Análisis de la infraestructura y detección de incidencias potenciales.

Entre las funciones principales de la Gestión de Problemas figuran:

  • Identificar, registrar y clasificar los problemas.
  • Dar soporte a la Gestión de Incidencias, proporcionando información y soluciones temporales o parches.
  • Analizar y determinar las causas de los problemas y proponer soluciones.
  • Elevar RFCs a la Gestión de Cambios para llevar a cabo los cambios necesarios en la infraestructura TI.
  • Realizar un seguimiento post-implementación de todos los cambios para asegurar su correcto funcionamiento.
  • Realizar informes que documenten no sólo los orígenes y soluciones a un problema sino que también sirvan de soporte a la estructura TI en su conjunto.
  • Analizar tendencias para prevenir incidentes potenciales.

Los principales beneficios de una correcta Gestión de Problemas:

  • Un aumento de la calidad general de los servicios TI.
  • Se minimiza el número de incidentes.
  • Los incidentes se solucionan más rápidamente y, generalmente, en la primera línea de soporte TI, ahorrando recursos e innecesarios escalados.
  • La documentación desarrollada es de gran utilidad para la Gestión de la Capacidad, Disponibilidad y Niveles de Servicio.

Las principales dificultades a la hora de implementar la Gestión de Problemas se resumen en:

  • Establecer una estrecha colaboración entre la Gestión de Incidencias y la de Problemas. Sin ésta, la Gestión de Incidencias no dispondrá de toda la información necesaria para la rápida solución de los incidentes y la Gestión de Problemas carecerá de la información necesaria para determinar, clasificar y resolver los problemas.
  • Mantener actualizadas las bases de datos asociadas requiere un compromiso por parte de todos los agentes implicados y la supervisión de los responsables de la infraestructura TI.
  • Aumento de los costes por la contratación de personal especializado, aunque estos se vean sobradamente compensados por los beneficios derivados.

El principal objetivo del Control de Problemas es conseguir que estos se conviertan en Errores Conocidos para que el Control de Errores pueda proponer las soluciones correspondientes.

El Control de Problemas se compone en esencia de tres fases:

  • Identificación y Registro 
  • Clasificación y Asignación de Recursos 
  • Análisis y Diagnostico: Error Conocido  

Identificación y Registro: Una de las tareas principales de la Gestión de Problemas es identificar los mismos. Las principales fuentes de información utilizadas son:

  • La Base de Datos de Incidencias: en principio, cualquier incidente del que no se conocen sus causas y que se ha cerrado mediante un workaround (solución temporal) es potencialmente un problema.
  • Análisis de la infraestructura TI: en colaboración con la Gestión de Disponibilidad y de Capacidad, la Gestión de Problemas debe analizar los diferentes procesos y determinar en qué aspectos se debe reforzar los sistemas y estructuras TI para evitar futuros problemas.
  • Deterioro de los Niveles de Servicio: el descenso del rendimiento puede ser una indicación de la existencia de problemas subyacentes que no se hayan manifestado de forma explícita como incidentes.

La clasificación del problema engloba desde las características generales de éste, tales como si es un problema de hardware o software, qué áreas funcionales se ven afectadas y detalles sobre los diferentes elementos de configuración (CIs) involucrados en el mismo.

Un factor esencial es la determinación de la prioridad del problema, que al igual que en el caso de los incidentes, se determina tanto a partir de la urgencia (demora aceptable para la solución del problema) como de su impacto (grado de deterioro de la calidad del servicio).

Una vez clasificado el problema y determinada su prioridad, se deben asignar los recursos necesarios para su solución.

Los objetivos principales del proceso de análisis son:

  • Determinar las causas del problema.
  • Proporcionar soluciones temporales a la Gestión de Incidencias para minimizar el impacto del problema hasta que se implementen los cambios necesarios que lo resuelvan definitivamente.

Es esencial tener en cuenta que no siempre el origen del problema es un error de hardware o software. Es frecuente que el problema esté causado por:

  • Errores de procedimiento.
  • Documentación incorrecta.
  • Falta de coordinación entre diferentes áreas.

Una vez que el Control de Problemas ha determinado las causas de un problema, es responsabilidad del Control de Errores el registro del mismo como error conocido.

Identificación y Registro de Errores: El registro de los errores conocidos es de vital importancia para la Gestión de Incidencias, pues debe llevar asociado, siempre que esto sea posible, algún tipo de solución temporal que permita minimizar el impacto de los incidentes asociados.

Análisis y Solución: Se deben investigar diferentes soluciones para el error evaluando en cada momento:

  • El posible impacto de las mismas en la infraestructura TI.
  • Los costes asociados.
  • Sus consecuencias sobre los SLAs.

En algunos casos en los que el impacto del problema puede tener consecuencias graves en la calidad del servicio, puede emitirse una RFC de emergencia para su procesamiento urgente por la Gestión de Cambios.

Una vez determinada la solución óptima al problema y antes de elevar una RFC a la Gestión de Cambios han de tenerse en cuenta las siguientes consideraciones:

  • ¿Es conveniente demorar la solución? Ya sea porque se prevén cambios significativos en la infraestructura TI a corto plazo o por el escaso impacto del problema en cuestión.
  • ¿Es la solución provisional aportada suficiente para mantener unos niveles de calidad de servicios aceptable?
  • ¿Los beneficios justifican los costes asociados?

Revisión Post-Implementación y Cierre: Antes de dar el problema por resuelto y cambiar su estado a “cerrado” se debe analizar el resultado de la implementación de la RFC elevado a la Gestión de Cambios (PIR).

Si los resultados de esta PIR son los deseados y se pueden cerrar todos los incidentes relacionados con este problema, se considera concluido el proceso y se emiten los informes correspondientes. Por último, es indispensable actualizar la Base de Datos de Errores Conocidos (KEDB) para futuras ocasiones.

Adicionalmente, en el caso de problemas de carácter grave, todo el proceso se somete a una Revisión de Problemas Graves para prevenir la reaparición del problema.

Gestión de Configuraciones: Es indispensable disponer de una Base de Datos de Configuraciones actualizada para determinar qué elementos de la configuración (CIs) están relacionados con el problema en curso de investigación.

Es frecuente que el origen del problema provenga de la incompatibilidad entre diferentes elementos de Hardware y/o Software que pueden ser rápidamente solucionados descargando nuevas versiones de los controladores, firmware, etc. O por ejemplo, que existan “bugs” (errores de software) bien conocidos de los que se pueda encontrar información en Internet.

Gestión de Cambios: Cuando un problema se convierte en un error conocido la Gestión de Problemas debe elevar una RFC a la Gestión de Cambios con el objetivo de que el problema subyacente se resuelva definitivamente.

Tras la implementación del cambio la Gestión de Problemas debe llevar a cabo una revisión Post-Implementación (PIR) antes de cerrar definitivamente el problema. 

Gestión de Incidentes: Es la fuente principal de información de la Gestión de Problemas. La Base de Datos de Incidentes ofrece valiosa información sobre los posibles orígenes del problema.

Por otro lado, la Gestión de Problemas da soporte a la Gestión de Incidentes ofreciendo soluciones temporales que permitan minimizar el impacto de los incidentes en la calidad del servicio. 

Gestión de Disponibilidad: La Gestión  de la Disponibilidad aporta información de gran importancia a la Gestión de Problemas que ayuda a determinar cuándo y cómo se ha interrumpido o deteriorado el nivel de servicio.

Por otro lado la Gestión de Problemas da soporte a la Gestión de Disponibilidad informando de las causas asociadas a la falta de acceso y poniendo en marcha medidas encaminadas a remediarlas.

Gestión de Capacidad: Muchos problemas tiene su origen en una falta de capacidad de la infraestructura TI, es por tanto indispensable que exista una estrecha colaboración entre la Gestión de la Capacidad y la de problemas.

La Gestión de la Capacidad juega un papel esencial en la Gestión de Problemas Proactiva, pues ayuda a determinar las necesidades futuras de la infraestructura TI e impedir que se deterioren los futuros niveles de servicio.

Gestión de Niveles de Servicio: La Gestión de Problemas necesita de la colaboración de la Gestión de Niveles de Servicio para determinar el impacto real de un problema específico sobre la calidad del servicio.

Una gestión proactiva requiere conocer en profundidad los SLAs acordados con los clientes y determinar si estos pueden sobrecargar algunos componentes de la infraestructura TI. Por otro lado la Gestión de Problemas ha de trabajar siempre con el objetivo último de que se cumplan adecuadamente los SLAs. 

La correcta elaboración de informes permite evaluar el rendimiento de la Gestión de Problemas y aporta información de vital importancia a otras áreas de la infraestructura TI.

Entre la documentación generada cabría destacar:

  • Informes de Rendimiento de la Gestión de Problemas: donde se detalle el número de errores resueltos, la eficacia de las soluciones propuestas, los tiempos de respuesta y el impacto en la Gestión de Incidencias
  • Informes de Gestión Proactiva: donde se especifiquen las acciones ejercidas para la prevención de nuevos problemas y los resultados de los análisis realizados sobre la adecuación de las estructuras TI a las necesidades de la empresa.
  • Informes de Calidad de Productos y Servicios: donde se evalúe el impacto en la calidad del servicio de los productos y servicios contratados y que eventualmente pueda permitir adoptar decisiones informadas sobre cambios de proveedores, etc.