Indisponibilidade do produto unico|check (Biometria)
Incident Report for unico
Postmortem

06/01/2022 - RI-433 - Indisponibilidade produto unico|check

Alinhados aos nossos princípios de parceria e transparência com todos os nossos clientes, informamos, abaixo, mais detalhes referentes ao incidente ocorrido no dia 06/jan. Reforçamos que nossos esforços são para que a operação do seu sistema aconteça sempre com a máxima prontidão, performance e as tecnologias mais eficientes do mercado embasadas na Privacidade dos Dados e Segurança da Informação. 

Causas

A monitoração detectou que um dos servidores do cluster do ambiente ficou indisponível e isso engatilhou o processo de failover manual do ambiente, que falhou pois ao realizá-lo sobrecarregamos a camada de API. O processo de failover exige que as conexões para a API sejam removidas do cluster problemático e apontadas para o cluster substituto. Esse processo é realizado em etapas, cliente por cliente, e sobrecarrega o fluxo de failover forçando o Onboarding a derrubar novas conexões dos clientes.

Impacto

O unico|check ficou indisponível para os clientes da unico durante um período de aproximadamente 24 minutos e degradado em torno 35 minutos, totalizando 59 minutos.

FAQ:

  • Quais/quantos serviços foram impactados? Desde quando? Por quanto tempo?
    O produto unico|check foi impactado entre as 11h07 e 12h06, totalizando 59 minutos de impacto no ambiente.
  • Métricas impactadas?

Tempo de resposta das requisições

  • Clientes impactados ou somente fluxos internos?
    Todos os clientes do produto.
  • Tivemos itens aguardando processamento?

Houveram requisições aguardando o processamento durante o momento do incidente. Após a restauração dos serviços, os itens foram processados.

Linha do Tempo

11:07h - Alarme evidenciando problemas no node 03 do cluster.

11:13h - Time atuando no ambiente e investigando o problema.

11:21h - Devido a degradação e lentidão da aplicação foi necessário a parada total do ambiente, ocasionando o enfileiramento das requisições.

11:45h - Início do retorno gradativo do processamento da aplicação.

12:06h - Aplicação normalizada e sendo monitorada pela equipe.

12:33h - Operação assistida do ambiente.

Passos para Estabilização

 Durante o incidente, devido ao failover ter sobrecarregado as APIs do BioCore, foi necessário cortar a conectividade com os clientes para conseguir ter tempo de estabilizar o ambiente novamente.   

Resolução

Refatorar  a forma como as conexões são feitas do API Core para o MMA. Essa refatoração já foi desenvolvida, porém não entrou em produção devido ao freezing de final de ano e também da sensibilidade do ambiente devido aos incidentes do meio de dezembro de 2021. A previsão de entrada em produção até 17 de Janeiro de 2022;

Evoluir o health check para que o failover não seja “tão sensível” gerando chaveamento por falso positivo;

Avaliar a possibilidade de criação de shards do cluster do ambiente.

FAQ da Resolução:

  • Como/quando vamos reprocessar itens represados?
    Não houveram mensagens represadas nesse incidente.
  • Eu, cliente, vou ter impactos na mesa de análise ou em outros fluxos e processos?
    Não houve impacto e/ou aumento no número de divergências.

 

Todas as soluções adotadas pelo nosso time visam solucionar o ocorrido de tal forma que o incidente não volte a ocorrer.

Estamos sempre  à disposição para ajudarmos com qualquer tipo de dúvida ou sugestões para melhorarmos o nosso processo interno, nosso produto e o suporte a nossos clientes.

Posted Jan 10, 2022 - 18:49 GMT-03:00

Resolved
Ambiente restabelecido, time segue monitorando.
Posted Jan 06, 2022 - 12:33 GMT-03:00
Update
Ambiente restabelecido, time segue monitorando.
Posted Jan 06, 2022 - 12:33 GMT-03:00
Identified
Os serviços foram reestabelecido mas devido ao fluxo de solicitações represadas alguma lentidão poderá ser observada no ambiente.
Posted Jan 06, 2022 - 12:06 GMT-03:00
Update
Identificamos o problema e já aplicações a correção, os clientes estão sendo retornados gradativamente.
Posted Jan 06, 2022 - 11:58 GMT-03:00
Investigating
Estamos investigando a causa da indisponibilidade do produto unico|check (Biometria).
Posted Jan 06, 2022 - 11:44 GMT-03:00
This incident affected: Unico Check (Score de autenticação, Token biométrico, Liveness, Análise, Documentação, Webhooks).