En Shopify tenemos frecuentemente ráfagas masivas (2-5x) de tráfico que presionan nuestra infraestructura incluyendo nuestros clusters de Kafka. Hemos logrado hacer nuestros clusters más resilientes a estas oleadas regionales de tráfico redirigiendo porciones de tráfico a clusters más desocupados durante incidentes. En esta charla voy mostrarles nuestra infraestructura de Kafka que corre en Kubernetes sobre la plataforma de Google Cloud. Después voy a explicar nuestra solución para hacer failovers usando DNS y librerías de clientes personalizadas. Finalmente vamos a revisar escenarios reales donde este sistema nos salvó de cortes mayores.

Mira la grabacion y las slides del meetup.