Indisponibilidade do produto unico|check (Biometria)
Incident Report for unico
Postmortem

19/01/2022 - RI-474 - Indisponibilidade produto unico|check

Alinhados aos nossos princípios de parceria e transparência com todos os nossos clientes, informamos, abaixo, mais detalhes referentes ao incidente ocorrido 19/jan. Reforçamos que nossos esforços são para que a operação do seu sistema aconteça sempre com a máxima prontidão, performance e as tecnologias mais eficientes do mercado embasadas na Privacidade dos Dados e Segurança da Informação. 

Causas

O unico|check apresentou indisponibilidade na madrugada do dia 19/01, o problema foi causado por falha na operação do license server que atende ao ambiente de Biometria.

Impacto

   O unico|check ficou indisponível por 3 horas e 19 minutos na madrugada do dia 19/01/2022.

FAQ

  1. Quais/quantos serviços foram impactados? Desde quando? Por quanto tempo?

O unico|check ficou indisponível entre 3h54 e 7h13, totalizando 3h19 de impacto no ambiente.

  1. Métricas impactadas?

Serviço de biometria totalmente indisponível para os clientes.

  1. Clientes impactados ou somente fluxos internos?

Todos os clientes do produto.

  1. Tivemos itens aguardando processamento?

Devido a natureza da falha as requisições enviadas pelos clientes eram retornadas com erro, sendo assim não houve item para serem reprocessados.

Linha do Tempo

03:54 - Início da indisponibilidade.

07:00 - Detecção do problema.

07:08 - Início da ação paliativa com o chaveamento para DR.

07:13 - Serviço restabelecido devido a ação paliativa.

07:54 - License server restabelecido.

08:09 - Chaveamento do licenciamento para o cluster principal.

Passos para Estabilização

Chaveamento do servidor de licenciamento das API’s e do motor biométrico para o cluster de DR.

Resolução

Realizamos a desativação do serviço de atualização automática nos servidores, de forma que as atualizações só ocorram em janelas programadas,

Como identificamos o subdimensionamento da infraestrutura do servidor, realizamos uma GMUD para aplicar melhorias na infraestrutura do mesmo. 

Melhoramos a observabilidade de nossos sistemas para que falhas como essa sejam mitigadas.

FAQ da Resolução:

  • Como/quando vamos reprocessar itens represados?
    Não houveram mensagens represadas nesse incidente.
     
  • Eu, cliente, vou ter impactos na mesa de análise ou em outros fluxos e processos?
    Não houve impacto e/ou aumento no número de divergências.

Importante:

Todas as soluções adotadas pelo nosso time visam solucionar o ocorrido de tal forma que o incidente não volte a ocorrer.

Estamos sempre  à disposição para ajudarmos com qualquer tipo de dúvida ou sugestões para melhorarmos o nosso processo interno, nosso produto e o suporte a nossos clientes.

Posted Jan 21, 2022 - 15:41 GMT-03:00

Resolved
As 03:54 Registramos uma falha nos servidores de licença que atendem ao ambiente de biometria, ocasionando indisponibilidade em nossas APIs.

Devido a uma falha em nossos sistemas de monitoramento, o incidente foi identificado por volta das 07h e totalmente sanada por volta das 07h13.

Estamos trabalhando na melhoria contínua dos nossos sistemas de monitoramento para mitigarmos eventos dessa natureza futuramente.
Posted Jan 19, 2022 - 04:00 GMT-03:00