06/01/2022 - RI-433 - Indisponibilidade produto unico|check
Alinhados aos nossos princípios de parceria e transparência com todos os nossos clientes, informamos, abaixo, mais detalhes referentes ao incidente ocorrido no dia 06/jan. Reforçamos que nossos esforços são para que a operação do seu sistema aconteça sempre com a máxima prontidão, performance e as tecnologias mais eficientes do mercado embasadas na Privacidade dos Dados e Segurança da Informação.
A monitoração detectou que um dos servidores do cluster do ambiente ficou indisponível e isso engatilhou o processo de failover manual do ambiente, que falhou pois ao realizá-lo sobrecarregamos a camada de API. O processo de failover exige que as conexões para a API sejam removidas do cluster problemático e apontadas para o cluster substituto. Esse processo é realizado em etapas, cliente por cliente, e sobrecarrega o fluxo de failover forçando o Onboarding a derrubar novas conexões dos clientes.
Impacto
O unico|check ficou indisponível para os clientes da unico durante um período de aproximadamente 24 minutos e degradado em torno 35 minutos, totalizando 59 minutos.
FAQ:
Tempo de resposta das requisições
Houveram requisições aguardando o processamento durante o momento do incidente. Após a restauração dos serviços, os itens foram processados.
11:07h - Alarme evidenciando problemas no node 03 do cluster.
11:13h - Time atuando no ambiente e investigando o problema.
11:21h - Devido a degradação e lentidão da aplicação foi necessário a parada total do ambiente, ocasionando o enfileiramento das requisições.
11:45h - Início do retorno gradativo do processamento da aplicação.
12:06h - Aplicação normalizada e sendo monitorada pela equipe.
12:33h - Operação assistida do ambiente.
Passos para Estabilização
Durante o incidente, devido ao failover ter sobrecarregado as APIs do BioCore, foi necessário cortar a conectividade com os clientes para conseguir ter tempo de estabilizar o ambiente novamente.
Refatorar a forma como as conexões são feitas do API Core para o MMA. Essa refatoração já foi desenvolvida, porém não entrou em produção devido ao freezing de final de ano e também da sensibilidade do ambiente devido aos incidentes do meio de dezembro de 2021. A previsão de entrada em produção até 17 de Janeiro de 2022;
Evoluir o health check para que o failover não seja “tão sensível” gerando chaveamento por falso positivo;
Avaliar a possibilidade de criação de shards do cluster do ambiente.
Todas as soluções adotadas pelo nosso time visam solucionar o ocorrido de tal forma que o incidente não volte a ocorrer.
Estamos sempre à disposição para ajudarmos com qualquer tipo de dúvida ou sugestões para melhorarmos o nosso processo interno, nosso produto e o suporte a nossos clientes.