Métricas clave en el manejo de incidentes de TI | MTTR, MTBF

Estas métricas le permiten tomar decisiones basadas en datos para impulsar sus operaciones de IT.

En este blog conoceremos las métricas: Tiempo Medio de reparación (MTTR) y tiempo medio entre fallas(MTBF), ambas son importantes métricas de industria que en conjunto con otras, nos ayudan a mejorar nuestros procesos de manejo de incidentes, mismos que son vitales para mantener el SLA de los servicios empresariales.

Este es el segundo artículo de la serie “Métricas clave en el manejo de incidentes de IT”, en el primero aprendimos la importancia de las mediciones y KPIs en IT, además del uso e implementación de las métricas MTTD y MTTA.


 

MTBF: Tiempo medio entre fallas.

Ilustración Original.

 

¿Qué es MTBF?

Es una métrica de interés técnico y comercial sobre los servicios, debido a que representa la estabilidad y disponibilidad de los servicios.

MTBF por su traducción del inglés (Mean Time Between Failures), es el tiempo medio entre fallas, y representa el tiempo medio que un servicio se mantiene estable y disponible desde una falla, hasta que ocurre una nueva falla.

 

Objetivo de la métrica:

Métrica es utilizada como referencia de la fiabilidad de un sistema, a diferencia de las métricas MTTR esta, entre mas alto sea su valor, más estable y confiable es el sistema/servicio.

 

Fórmula:

Tiempo total de operaciones normales/ Numero de incidentes

 

Ejemplo:

Se detecta y registra un incidente sobre el sistema Core de un banco, al minuto 10 inicia un proceso de reparación en el servidor virtual, se solventa un problema relacionado con el uso del datastore, se inicia el servidor y se realizan pruebas de funcionamiento, se da por reparado el servicio/sistema. Diez días después el sistema vuelve a fallar, se repara y 15 días mas tarde vuelve a fallar por la misma o diferente razón.

  • El tiempo medio entre fallas es la suma total de las horas en operación del sistema dividido entre 3 (3 incidentes en el periodo).
 

MTTR: Tiempo medio para reparar, recuperar y resolver.

 

¿Qué es MTTR?

Esta métrica en su forma mas básica significa tiempo medio para reparar, sin embargo, tiene otras variantes muy importantes que también estaremos aclarando a continuación.

 

MTTR : Tiempo medio para reparar.

Es el tiempo medio que toma reparar un sistema de una falla técnica, este tiempo comprende el tiempo de reparación y pruebas, el reloj de esta métrica inicia cuando se comienza a reparar la falla y se detiene hasta que el sistema vuelve a estar 100% funcional.

 

Objetivo de la métrica:

Esta es una métrica de mantenimiento y reparación, el objetivo principal es mantenerla lo más baja posible y revisar los tiempos y procesos de reparación de los equipos de trabajo para lograr mayor eficiencia.

 

Fórmula:

Tiempo total invertido en reparaciones / Numero de reparaciones.

 

Ejemplo:

Se detecta y registra un incidente sobre el sistema Core de un banco, al minuto 10 inicia un proceso de reparación en el servidor virtual, se solventa un problema relacionado con el uso del datastore, se inicia el servidor y se realizan pruebas de funcionamiento, se da por reparado el servicio/sistema.

  • El tiempo que tomo la reparación que inicio en el minuto 10 hasta que el sistema volvió a estar disponible es el tiempo medio para reparar.

 


MTTR : Tiempo Medio para Recuperar

Es el tiempo medio que toma realizar todas las acciones necesarias para que un sistema/servicio vuelva a estar disponible luego de una falla, el reloj de esta métrica inicia desde el minuto 0 cuando el sistema se afecta y se detiene hasta que el sistema vuelve a estar 100% funcional y disponible.

 

Objetivo de la métrica:

Esta es una métrica de alto nivel, le permite analizar la estabilidad y confiabilidad de sus servicios/sistemas además de la velocidad total de sus procesos de respuesta a incidentes. Al igual que la métrica anterior, esta debe mantenerse lo más baja posible, y en caso de tener valores elevados se deben investigar y evaluar todos los procedimientos que incluye el manejo de los incidentes para determinar necesidades de mejora.

 

Formula:

Tiempo total de las caídas / Numero de incidentes

 

Ejemplo:

Se detecta y registra un incidente sobre el sistema Core de un banco, al minuto 10 inicia un proceso de reparación en el servidor virtual, se solventa un problema relacionado con el uso del datastore, se inicia el servidor y se realizan pruebas de funcionamiento, se da por reparado el servicio/sistema.

  • El tiempo medio de recuperación, incluye el tiempo que tomo detectar, reparar, probar y restablecer el servicio.

 

 


 

 

MTTR : Mean Time to Resolve

Es el tiempo medio que toma detectar, diagnosticar, reparar y resolver un incidente desde su causa raíz asegurando que este no volverá a repetirse, el reloj de esta métrica inicia desde el minuto 0 cuando el sistema se afecta y se detiene hasta que se ha investigado y dado resolución definitiva a la causa raíz del mismo.

 

Objetivo de la métrica:

Esta métrica tiene impacto directo en la satisfacción/experiencia del cliente, debido a que asegura la estabilidad de los servicios, además de poner a pruebas los equipos de IT retándolos a resolver problemas a largo plazo de manera sostenible. Al igual que la métrica anterior, debe mantenerse lo mas baja posible.

 

Formula:

Tiempo completo de resolución de incidentes / Numero de incidentes

 

Ejemplo:

Se detecta y registra un incidente sobre el sistema Core de un banco, al minuto 10 inicia un proceso de reparación en el servidor virtual, se solventa un problema relacionado con el uso del datastore, se inicia el servidor y se realizan pruebas de funcionamiento, se da por reparado el servicio/sistema. El estudio de la causa raíz detecto que uno de los discos del datastore esta dañado a nivel fisco, se compró, configuro e instalo un nuevo disco para solventar.

  • El tiempo medio para resolver inicia en el minuto 0 del incidente y termina hasta que se han realizado todas las gestiones y actividades técnicas necesarias para dar resolución definitiva

 

 


 

 

Importante

  • A lo largo de esta serie de dos blogs hemos estudiado diferentes métricas con impacto en: las operaciones de IT, comercial y de experiencia del cliente, cada una de ellas es relevante y han servido de referencia en la industria de la informática y otras industrias por mas de 60 años.

    Es importante registrar los datos necesarios para calcular estas métricas en fuentes de información seguras que nos permitan aplicar inteligencia de negocios, y generar decisiones basadas en datos que nos ayuden a hacer más eficientes nuestros procesos y equipos de trabajo de respuesta a incidentes.

     

 


 

Fuente:

Pagina en portal web, MTBF, MTTR, MTTA, and MTTF understanding a few of the most common incident metrics, Atlassian.

Recuperado el 23/07/2021

 

Pagina en portal web, MTTR and MTBF what are they and what are their diferences, OPServices.

Recuperado el 23/07/2021

 

 

 

Autor

Otros articulos