10 pontos por princox 28 일 전 | 5 comentários | Compartilhar no WhatsApp

Falha no Claude Code, retrospectiva de Boris Cherny: “Não foi erro de uma pessoa, foi um problema de processo”

Boris Cherny (@bcherny), criador do Claude Code, deixou um comentário curto, mas marcante, sobre a indisponibilidade do serviço Claude ocorrida em 31 de março.
“Erros acontecem. O importante, como equipe, é reconhecer que isso não é culpa de uma pessoa específica — é um problema de processo, cultura ou infraestrutura. Neste caso, havia uma etapa manual de deploy que deveria ter sido automatizada. A equipe aplicou algumas melhorias de automação, e outras ainda estão em andamento.”

O que aconteceu?

De 31 de março às 17:45 UTC até 1º de abril às 05:52 UTC, ocorreu uma falha com aumento acentuado de timeouts no Claude Opus 4.6 e no Sonnet 4.6. Segundo o Downdetector, às 8h30 (PT) mais de 2.400 usuários relataram problemas, a maioria relacionada ao Claude Chat.
A causa, segundo o próprio Cherny, foi uma etapa manual de deploy em um processo de implantação com automação insuficiente.

O que chama atenção não é a falha em si, mas a forma de reagir

O comentário de Cherny reflete diretamente a filosofia de postmortem sem culpabilização (blameless postmortem) discutida na cultura de engenharia. Isso mostra que a equipe do Claude Code está colocando em prática um princípio há muito enfatizado em culturas de SRE (Site Reliability Engineering), como no Google e na Netflix — “quando se pune a pessoa, o problema fica escondido; é preciso corrigir o sistema”.

Em serviços de IA que crescem rapidamente, uma única etapa manual de deploy pode levar a uma falha de grande escala. O fato de reconhecer isso publicamente e responder com automação é um ponto que vale ser lembrado tanto por equipes pequenas quanto por grandes serviços.
Referência
∙ Segundo a página oficial de status do Claude (status.claude.com), a falha foi completamente resolvida.
∙ Tweet original: https://x.com/bcherny/status/2039210700657307889​​​​​​​​​​​​​​​​

5 comentários

 
snowhare 28 일 전

O resumo no Hacker News é o mais estranho de todos. Só o título está correto, e o primeiro trecho bate com o conteúdo traduzido, mas o restante é o que outras pessoas comentaram no X, e a explicação dada como contexto também é outra. Como o texto original era um tuíte curto, parece que acabaram colando informações erradas ao conteúdo.

 
runableapp 28 일 전

Imagino que o resumo no GeekNews seja assim porque usa um LLM, certo?

E agora no x.com parece que a maioria das pessoas já tem o selo azul. Lembro que antes era algo dado só a pessoas “oficiais” ou algo assim, mas pelo visto todo mundo acabou aderindo ao plano pago.

 
click 27 일 전

Para escrever textos longos, é preciso colocar aquela etiqueta, então todo mundo acaba usando isso para blog ou para fazer anúncios.
Na época do Twitter, pelo que me lembro, era um selo de verificação gratuito que o próprio Twitter dava para figuras públicas e não tinha nenhuma função especial.

 
runableapp 27 일 전

Entendi. Obrigado pela resposta.

 
princox 28 일 전

Em vez de caminho do vazamento, talvez fosse melhor escrever circunstâncias do vazamento... mas não consigo editar o texto.