Intermitencia unico | doc
Incident Report for unico
Postmortem

05/01/2022 - RI-427 - Intermitência no unico|doc

Alinhados aos nossos princípios de parceria e transparência com todos os nossos clientes, informamos, abaixo, mais detalhes referentes ao incidente ocorrido no dia 05 de janeiro. Reforçamos que nossos esforços são para que a operação do seu sistema aconteça sempre com a máxima prontidão, performance e as tecnologias mais eficientes do mercado embasadas na Privacidade dos Dados e Segurança da Informação. 

Causas

  • A análise comportamental (AI) da ferramenta de antivírus detectou que o firewall do Windows estava com acesso permissivo e então ativou a política de proteção, bloqueando o acesso à porta da aplicação.

Onde ocorreu falha?

  • Falha de política de firewall;

 Impacto

  • Grande parte dos clientes experimentou indisponibilidade ao acessar a instância do unico|doc (https://seu.acesso.io/instancia). Após um período de tentativa de carregamento da página de login era exibido o erro 502 Bad Gateway.
    A indisponibilidade teve duração de 1h07, tendo início as 9h58 e término as 11h05. O ambiente ficou em operação assistida até as 11h25.

Linha do Tempo

09:58 - A ferramenta de monitoração começou a notificar alertas de indisponibilidade de alguns portais do Unico | Doc;

10:14 - Os alarmes escalaram e teve início ao war room;

10:30 - As equipes de engenharia identificaram que os erros 502 não eram experimentados para todos os clientes e observou-se que uma regra de bloqueio  de países no Cloud Armor (GCP) havia sido implementada 30 minutos mais cedo, as 10h do mesmo dia, em uma atividade planejada pela equipe de Segurança;

10:32 - Os times de engenharia (software e infraestrutura) com o time de Segurança removeu a regra de bloqueio de países (rollback) mas não houve efeito e o erro persistiu;

10:40 - Iniciado uma série de testes de Redes onde pode ser observado que a porta de comunicação web do unico|doc estava fechada;

10:44 - Uma nova frente de investigação foi aberta para conferência do antivírus do ambiente, culminando em sua desativação temporária, os erros começaram a diminuir;

10:50 - Contatado que o firewall do Windows foi habilitado e ele estava causando o bloqueio da porta de comunicação da aplicação;

11:05 - Configurada uma regra de liberação de firewall para a porta da aplicação e assim a aplicação voltou a responder normalmente;

11:15 - Reabilitamos a regra de bloqueio de países, uma vez que essa não foi a causadora do impacto;

11:25 -  Fim do acompanhamento da normalização do ambiente e a operação seguiu normalmente.

 

Passos para Estabilização 

  • Interromper o serviço do antivírus.

Resolução

  • Adicionada regra de liberação da porta da aplicação em todos os servidores da solução;
  • Configuração de monitoração específica para a porta da aplicação.

Todas as soluções adotadas pelo nosso time visam solucionar o ocorrido de tal forma que o incidente não volte a ocorrer.

Estamos sempre  à disposição para ajudarmos com qualquer tipo de dúvida ou sugestões para melhorarmos o nosso processo interno, nosso produto e o suporte a nossos clientes.

Posted Jan 06, 2022 - 12:00 GMT-03:00

Resolved
O problema foi resolvido, mais detalhes serão disponibilizados em breve. Pedimos desculpas pelo ocorrido e agradecemos a compreensão.
Posted Jan 05, 2022 - 11:25 GMT-03:00
Monitoring
Aplicamos a correção, estamos monitorando.
Posted Jan 05, 2022 - 11:09 GMT-03:00
Identified
Identificamos o problema e estamos aplicando a correção.
Posted Jan 05, 2022 - 11:01 GMT-03:00
Investigating
Estamos verificando uma intermitência no Unico | DOC
Posted Jan 05, 2022 - 10:15 GMT-03:00
This incident affected: Unico Doc (Unico Doc).