10 pontos por xguru 2020-07-16 | 1 comentários | Compartilhar no WhatsApp
  • Pretende publicar, na primeira quarta-feira de cada mês, um relatório de disponibilidade reunindo explicações sobre os incidentes ocorridos, detalhes técnicos e medidas de correção

  • O objetivo é compartilhar tudo com transparência para que não seja apenas um simples relatório de erro, mas algo com que qualquer pessoa possa aprender a partir dessa experiência

  • A resposta do GitHub aos erros de site que têm se tornado mais frequentes recentemente

  • 5/5 (interrupção de 2 min 24 s)

Ocorreu quando o ID auto-increment de uma tabela específica do MySQL ultrapassou o valor máximo do tipo Integer

Será enviado um alerta quando o tamanho da PK ultrapassar 70%, e foi adicionado um linter para que o framework de testes verifique int/bigint

  • 5/22 (interrupção de 5 min 09 s)

Durante uma manutenção periódica, o novo servidor MySQL Primary em execução caiu. O tráfego foi desviado às pressas para o Primary original, mas como ele recebeu tráfego de escrita durante os 6 segundos em que esteve fora do ar, foram necessárias 4 horas para restaurar a partir da réplica e 1 hora para reconfigurar o cluster.

Para minimizar o tempo de recuperação, a automação de failover continua em testes

  • 6/19 (interrupção de 51 min)

Ocorreu porque uma mudança introduzida para melhorar os testes A/B passou a ter dependência de arquivos de outra aplicação gerados dinamicamente. Durante o deploy, a criação desse arquivo falhou e acabou acionando o rate limit.

As configurações de testes A/B e multivariados foram alteradas para serem armazenadas em cache internamente

1 comentários

 
xguru 2020-07-16

Havia uma suspeita de que, depois da aquisição pela MS, os erros aumentaram bastante.

(Talvez eles também tenham ficado incomodados porque isso acabava levando à ideia de “será que o Azure não é instável?”)

Em resposta, anunciaram uma medida bem direta: publicar relatórios de disponibilidade de forma transparente.

Acho que as empresas brasileiras também deveriam aprender com esse tipo de abordagem.

É um assunto um pouco diferente, mas, ao comparar os “relatórios de transparência” de empresas estrangeiras e nacionais, há uma diferença enorme em qualidade e quantidade.

Relatório de transparência (Transparency Report): compartilhamento de dados que mostram o impacto das políticas e medidas de governos e empresas sobre privacidade, segurança e uso de informações

Relatório de transparência do Google: https://transparencyreport.google.com/?hl=ko

Relatório de transparência do Facebook: https://transparency.facebook.com/

Relatório de transparência do Naver: https://privacy.naver.com/transparency/transparency_report_statistic/…

Relatório de transparência do Kakao: https://privacy.kakao.com/transparency/statistic

Não basta apenas listar os dados;

acho que o próprio relatório deve ser elaborado de forma a mostrar bem os princípios e convicções da empresa.