Ingeniería del Caos — El valor de la resiliencia en tu operación TI

TurinGears
2 min readJul 6, 2021

--

Chaos Engineering es una disciplina tecnológica que permite comprobar la resiliencia de tus servicios ante eventos catastróficos

Realizamos el lanzamiento de nuestra nueva plataforma de transacciones de pago, en la que trabajamos muchos meses para desarrollar y desplegar. Nos preocupamos que el servicio pudiera escalar en caso de haber un pico de peticiones. Estábamos confiados que no tendríamos ningún problema de demanda de servicio, ya que nos apoyamos en una solución en la nube.

Un día de muy alta demanda de peticiones, una de las zonas de disponibilidad en la nube pierde conexión. El flujo de peticiones se redirige a otras zonas de disponibilidad, tal cual como fue diseñado. Como consecuencia de la alta demanda y sumado al menor número de zonas de disponibilidad, la plataforma colapsó dejando el sistema sin posibilidad de realizar transacciones durante 2 horas. Las pérdidas se estimaron en unos pocos millones de pesos; sin embargo, el mayor daño se produjo en nuestra reputación.

Es muy común que las soluciones se diseñen bajo premisas de eventos individuales, como podrían ser un pico de demandas extraordinarias o la caída de una zona de disponibilidad, pero no ante la combinación de eventos poco probables pero que conllevan daños muy significativos.

La ingeniería del caos es una disciplina que se enfoca en evaluar cómo la interacción de eventos extraordinarios afecta la performance de la operación.

En el mercado existen soluciones de simulación para implementar la práctica de Chaos Engineering. De esta manera, puedes simular eventos y diferentes combinaciones de los mismos para detectar puntos de fallos con el fin de robustecer tu operación y asegurar que se cuenta con una arquitectura de alta resiliencia.

En TurinGears creemos en el valor de asegurar arquitecturas de alta resiliencia a través de pruebas de Chaos Engineering. Confiarse en que eventos catastróficos nunca sucederán puede ser muy costoso como le sucedió a buena parte de las principales webs de todo el mundo, como la de Amazon, Twitch, New York Times, HBO Max, Hulu, Spotify, Reddit , que a raíz de la caída de uno de sus CDNs dejaron de funcionar dejando a miles de millones de usuarios sin servicios

¿No estás seguro que tus arquitecturas son de alta resiliencia? Contáctanos.

--

--

TurinGears
0 Followers

Desarrollamos soluciones basadas en Data Mesh con tecnologías opensource, cloud y otras plataformas que se interconectan con sistemas de clientes