Métricas clave en el manejo de incidentes de TI | MTTD, MTTA

MTTD y MTTA una serie de métricas que se utilizan para sintetizar la información sobre la eficacia y productividad de las acciones que se lleven a cabo en un negocio con el fin de poder tomar decisiones.

En este artículo conoceremos algunas métricas importantes en la gestión de incidentes: Tiempo Medio para Detectar o Mean Time To Detect (MTTD) y Tiempo Medio de Reconocimiento o Mean Time to Acknowledge (MTTA), ambas son importantes métricas de industria que en conjunto con otras, nos ayudan a mejorar nuestros procesos de manejo de incidentes, mismos que son vitales para mantener el SLA de los servicios empresariales.

Este es el primer artículo de la serie “Métricas clave en el manejo de incidentes de TI”.

Previamente a conocer sobre las métricas MTTD y MTTA es importante conocer la importancia de medir, a continuación se da detalle de algunos puntos del por qué debemos medir:


Medir es eficiencia:

Las mediciones acertadas y en el momento oportuno evitan costos innecesarios y conducen hacia direcciones más correctas en el desarrollo de las tareas facilitando la toma de decisiones.

Medir es seguridad:

Al transcurrir el tiempo, las mediciones que realizamos suministran una valiosa información permitiendo desarrollar proyectos más acertados, mejorar costos y satisfacer mejor las necesidades.

Medir es desarrollo:

Muchos fenómenos serían imposibles de analizar y, por consiguiente, de estudiar, si no existiera algún medio para observarlos o medirlos. En el terreno de la investigación, es permanente la búsqueda por encontrar nuevos sistemas o medios que permitan observar, registrar y relacionar con alguna magnitud de medición el objeto bajo estudio.

 

¿Qué son los Medidores de Rendimiento o Key Performance Indicators (KPI)?

Son una serie de métricas que se utilizan para sintetizar la información sobre la eficacia y productividad de las acciones que se lleven a cabo en un negocio con el fin de poder tomar decisiones y determinar aquellas que han sido más efectivas a la hora de cumplir con los objetivos marcados en un proceso o proyecto concreto.


¿Qué es el Tiempo Medio para Detectar (MTTD)?

El tiempo medio para detectar mide qué tan rápido se identifica un incidente mayor. Un MTTD corto indica que la mesa de servicio detecta rápidamente los incidentes mayores. Su fórmula incluye el tiempo promedio necesario para detectar las anomalías o los incidentes mayores.

La fórmula de MTTD es la siguiente:

Número de Incidentes Detectados / Tiempo total de Ejecución.

Número de incidentes detectados:
Es la cantidad total de alarmas generadas para un dispositivo.

Tiempo Total de Ejecución:
Es el tiempo total transcurrido para que la herramienta detecte el incidente. En algunos casos hay alarmas que se generan al instante otras tienen un tiempo de espera de aproximadamente 5 minutos o menos dependiendo de la métrica que se está monitoreando.

¿Qué es el Tiempo Medio de Reconocimiento (MTTA)?

El tiempo medio de reconocimiento (MTTA) es el tiempo medio que tarda una organización en responder a quejas, interrupciones o incidentes en todos los departamentos. El MTTA se utiliza para rastrear la capacidad de respuesta de un equipo de soporte y la eficiencia del sistema de alerta.

Las respuestas lentas pueden reducir la efectividad de los trabajadores cuando los sistemas internos enfrentan problemas y cuestan dinero a las organizaciones. Al rastrear y minimizar el MTTA, las organizaciones pueden optimizar sus procesos, mejorar la satisfacción del cliente y aumentar las ganancias.

MTTA es una medida útil para monitorear la capacidad de respuesta. Si un equipo tarda demasiado en responder y sufre de fatiga por alerta, esta métrica ayudará a resaltar el problema.

La fórmula para calcular el MTTA es la siguiente:

(Hora de la Alerta Generada – Tiempo Transcurrido al Acknowledge) / Número Total de Incidentes

Hora de la Alerta Generada:
Estos datos se obtienen de la hora en la que se generó la alerta en nuestra herramienta.

Tiempo Transcurrido al Acknowledge:
Es el tiempo que transcurrió desde que la alerta se generó y el equipo comenzó a gestionar la misma.

Número Total de Incidentes:
Es la cantidad total de alarmas generadas para un dispositivo.

Ambos KPI ayudarán al departamento de IT y a la organización a medir el tiempo que toma la herramienta en detectar la alerta y lo que toma el equipo de NOC en gestionar la alerta recibida. Permitiendo así analizar puntos de mejora en el proceso de gestión de alertas.

 

Bibliografía

Morales, Eliezer. (14 de Marzo de 2018). La importancia de las mediciones, Kratos. La importancia de las mediciones

Una guía completa sobre la gestión de incidentes mayores basada en ITIL. Articulo web recuperado el 07/15/2021 de Guía definitiva: Gestión de incidentes mayores | ITIL – ManageEngine ServiceDesk Plus

Otros articulos