- O problema da saída de engenheiros sêniores não é de fluxo de informação, mas sim da estrutura de incentivos da gestão, e um sistema de remuneração otimizado para desempenho trimestral entra em conflito fundamental com a retenção de talentos, que exige investimento de longo prazo
- Quando 1 engenheiro sênior sai, o custo total chega a US$ 500 mil a US$ 1 milhão, e custos de contratação, vaga em aberto, onboarding e perda de conhecimento tácito (
tribal knowledge) ficam dispersos em vários orçamentos e passam despercebidos - No caso de uma empresa de processamento de pagamentos que ignorou um alerta 14 meses antes, houve uma perda de US$ 3,47 milhões na Black Friday, embora o custo original da correção fosse de apenas US$ 80 mil
- 6 intervenções estruturais (contabilização do custo de saída, rastreamento de incidentes, executivos no on-call, refletir retenção na remuneração, conselho consultivo técnico, remuneração equivalente para a trilha de IC) são apresentadas como soluções para realinhar incentivos
- Essas intervenções só funcionam quando a liderança reconhece a retenção como um problema econômico e tem disposição para aceitar mudanças estruturais; implementações meramente formais podem até gerar efeito contrário
Por que o comportamento não muda mesmo quando a informação circula
> "The constraint is not information flow. It is economics."
- Este texto é a parte 2 de uma série sobre saída de engenheiros e continua o cenário após o problema de assimetria de informação abordado na parte 1, Por que seus melhores engenheiros estão fazendo entrevistas em outro lugar
- Na parte 1, foi explicado por que engenheiros sêniores saem, e a causa central era uma estrutura em que os problemas não chegam até a liderança, mesmo quando existem
- Mas este texto leva essa hipótese um passo adiante
- Trata do que acontece quando o fluxo de informação é de fato melhorado
- A conclusão, ao contrário da intuição, é que na maioria dos casos nada muda
- As organizações introduzem vários mecanismos para perceber os problemas
- Implementação de reuniões 1:1 skip-level
- Operação de canais de feedback anônimo
- Realização de pesquisas de retenção por consultores externos
- Como resultado, os engenheiros comunicam os problemas com muita clareza
- A dívida técnica está corroendo o moral
- A expertise está sendo ignorada nas decisões de arquitetura
- O peso do on-call está em um nível insustentável
- A liderança ouve isso e concorda com a cabeça
- Reconhece os problemas
- Diz que vai reajustar prioridades
- Mas, quando o trimestre vira, as decisões são repetidas exatamente como antes
- As metas trimestrais são cumpridas da mesma forma
- E essa forma é ignorar de novo os problemas que acabaram de ouvir
- Neste ponto, o texto deixa o ponto central claro
- O problema não é falta de informação
- O problema é a estrutura econômica, isto é, o desenho dos incentivos
O problema central: a estrutura de incentivos dos executivos
- Exemplo do cálculo de decisão que um VP of Engineering enfrenta em outubro
- Faltam 3 meses para a revisão de desempenho trimestral, e 6 meses para o vesting das ações do engenheiro
- Um engenheiro sênior de plataforma faz o seguinte pedido
- Quer refatorar o sistema de autenticação por 6 semanas
- A dívida técnica se acumulou e a estrutura ficou frágil
- Dois pesquisadores de segurança já sinalizaram risco
- Mas a situação atual é ambígua
- Não houve incidente real, não há reclamações de clientes nem impacto na receita
- O que existe é apenas o alerta do engenheiro de que “se não consertarmos agora, isso vai virar uma crise”
- Para o VP, existem duas opções
- Opção A: aprovar a refatoração
- Aceitar uma redução de 6 semanas na velocidade de desenvolvimento de funcionalidades
- Surgimento da possibilidade de não atingir os OKRs do trimestre
- Ter de explicar ao CEO por que o roadmap atrasou por causa de “trabalho técnico que o cliente não vê”
- Risco de abalar o cronograma de lançamento de funcionalidades já prometido pela equipe de vendas
- Como resultado, existe possibilidade de impacto negativo direto no bônus de fim de ano
- A recompensa dessa escolha só virá 12 a 18 meses depois: esse engenheiro sênior permanece na empresa porque “seu julgamento técnico é respeitado”
- Opção B: priorizar funcionalidades
- Reconhecer que a dívida técnica é “importante”, mas empurrá-la para “o próximo trimestre”
- Lançar o roadmap planejado como está, atingir os OKRs e receber o bônus
- O engenheiro sênior fica por enquanto. Porque suas stock options ainda não tiveram vesting
- Se o sistema de autenticação quebrar depois, isso vira problema de um trimestre futuro
- Se o engenheiro sair 6 meses depois, considera-se que é possível substituir com uma contratação
- Opção A: aprovar a refatoração
- Nessa estrutura, a Opção B sempre vence — até finalmente fracassar
- A B vence até que ocorra uma falha em um sistema central durante o lançamento do produto, 5 engenheiros sêniores saiam em 18 meses, e o CFO comece a perguntar por que a empresa está gastando US$ 1,4 milhão por ano com recontratações
- Porque se trata de um desalinhamento fundamental
- A estrutura de remuneração dos executivos é otimizada para desempenho em ciclos trimestrais
- Mas retenção de engenheiros e redução de dívida técnica exigem investimento de longo prazo
- Melhorar apenas o fluxo de informação não é suficiente para fechar essa lacuna
- A solução é o redesenho da própria estrutura econômica
Why the Math Favors Dysfunction - Fazendo as contas, a disfunção é inevitável
-
Os custos ocultos agem de forma invisível, fazendo com que agentes racionais ajam de maneira irracional
-
Quando 1 engenheiro sênior com salário anual na faixa de $200.000 sai, o custo total real é calculado em $500.000 a mais de $1.000.000
- A maioria dos executivos acha esse número exagerado quando o ouve, mas não é. O método de cálculo é o seguinte
-
Custo direto de substituição: $85.000-$100.000
- Taxa de recrutamento: com taxa de 20-25% de recrutadores externos, no caso de um engenheiro de 200 mil dólares, isso dá $40.000-$50.000
- Se for feito internamente (job boards, ferramentas de sourcing, salário de recrutadores), fica em $15.000-$20.000
- Bônus de contratação: em um mercado competitivo, é preciso $20.000-$40.000 para garantir um candidato sênior
- É especialmente indispensável quando a pessoa muda de empresa deixando participação acionária para trás na atual
- Custo de mudança: em caso de mudança doméstica, $10.000-$30.000; internacional é mais alto
- Taxa de recrutamento: com taxa de 20-25% de recrutadores externos, no caso de um engenheiro de 200 mil dólares, isso dá $40.000-$50.000
-
Custo da vaga em aberto (Vacancy): $50.000-$100.000
- A contratação de um engenheiro sênior leva em média 3-6 meses
- Durante o período em que a vaga fica aberta, o trabalho desse engenheiro não desaparece, e dois custos ocorrem ao mesmo tempo
- Um é a queda de produtividade da equipe devido à redistribuição do trabalho, e o outro é o custo de oportunidade gerado pelo abandono de trabalho
- Custo de redistribuição do trabalho: $25.000-$40.000:
- Cerca de 60% do trabalho do engenheiro que saiu é distribuído entre os membros restantes da equipe
- Não se trata de uma realocação livre de recursos, mas de uma queda de produtividade
- Engenheiros que já estão com a carga no limite agora precisam fazer code review em áreas que não dominam, responder perguntas sobre sistemas que não desenvolveram e manter serviços que não entendem completamente
- Se 3 engenheiros absorvem 20% de carga extra cada um, eles não estão simplesmente trabalhando 20% a mais; há uma redução da eficiência total por troca de contexto
- Isso provoca uma perda de produtividade de 10-15% por engenheiro durante o período da vaga em aberto
- Cálculo do custo de redistribuição do trabalho
- Número de engenheiros absorvendo o trabalho × taxa de queda de produtividade × período da vaga em aberto (meses) × (salário médio / 12)
- Em um cenário típico: 3 engenheiros × 12% de queda de produtividade × 4 meses × ($180.000 / 12) = $21.600
- Se o engenheiro que saiu atuava em uma área de alta especialização, como infraestrutura, segurança ou plataforma, o valor sobe para $30.000–$40.000
- Custo do abandono de trabalho: $25.000-$60.000:
- Os 40% restantes não são redistribuídos, mas adiados ou totalmente abandonados
- Melhorias de plataforma, redução de dívida técnica, evolução de arquitetura, documentação e mentoria não estão ligadas diretamente ao lançamento de funcionalidades, mas evitam crises futuras — e são silenciosamente removidas do roadmap
- O custo imediato do abandono de trabalho (Work Abandonment) é calculado como o valor salarial equivalente do trabalho que não foi realizado
- 40% do trabalho do engenheiro que saiu não é executado durante o período da vaga em aberto
- A fórmula é 40% × 4 meses × ($200.000 / 12) = $26.667
- Mas o custo real não termina de imediato
- O trabalho adiado passa a gerar custos acumulados ao longo dos trimestres seguintes
- Por exemplo
- Se a otimização de banco de dados planejada por um engenheiro sênior de infraestrutura for adiada
- o desempenho das queries se degrada gradualmente
- e, no fim, passa a exigir uma resposta emergencial muito maior que o escopo original do trabalho
- Se as revisões de arquitetura feitas por esse engenheiro forem interrompidas
- as decisões técnicas passam a ser tomadas
- sem a expertise que poderia filtrar previamente erros caros
- Se a otimização de banco de dados planejada por um engenheiro sênior de infraestrutura for adiada
- O custo mensurável do abandono de trabalho é
- o valor do “trabalho que deveria ter sido feito, mas não foi”
- A fórmula conservadora é a seguinte
- (proporção do trabalho abandonado × salário anual / 12) × meses da vaga em aberto
- (40% × $200.000 / 12) × 4 meses = $26.667
- A faixa realista do custo de abandono de trabalho é de $25.000–$60.000
- variando conforme a proporção de trabalho preventivo versus trabalho voltado a funcionalidades
- Custo total da vaga em aberto (Combined Vacancy Cost): $50.000–$100.000
- É o resultado da soma de duas parcelas: custo de redistribuição do trabalho de $25.000–$40.000 + custo de abandono de trabalho de $25.000–$60.000
- Esse número reflete apenas os impactos diretos e mensuráveis gerados por uma vaga em aberto durante 4 meses
- O cálculo em si é conservador
-
Custo de onboarding e adaptação: $100.000-$125.000
- Produtividade de um novo engenheiro sênior: cerca de 25% no 1º mês, 50% nos meses 2-3, 75% nos meses 4-5, atingindo produtividade total no 6º mês
- 1º mês: perda de 75% de produtividade = ($200.000 / 12 meses) × 0,75 = $12.500
- Meses 2~3: perda de 50% de produtividade = ($200.000 / 12 meses) × 0,50 × 2 = $16.667
- Meses 4~5: perda de 25% de produtividade = ($200.000 / 12 meses) × 0,25 × 2 = $8.333
- Total da lacuna de produtividade nos primeiros 6 meses: $37.500
- Custo de pessoal para onboarding: o novo engenheiro sênior consome 10-15 horas por semana de outros engenheiros no 1º mês, e 5-8 horas por semana nos meses 2-3
- 1º mês: 12 horas por semana × 4 semanas × $90 por hora = $4.320
- Meses 2~3: 6 horas por semana × 8 semanas × $90 por hora = $4.320
- Custo de pessoal para onboarding com base em $90/hora: $8.640
- Ou seja, há uma perda de $46.140 nos primeiros 6 meses
- Mas como a maioria dos engenheiros seniores leva cerca de 1 ano para atingir o mesmo nível de expertise de domínio do engenheiro anterior, a estimativa fica em $92.000-$125.000
- Produtividade de um novo engenheiro sênior: cerca de 25% no 1º mês, 50% nos meses 2-3, 75% nos meses 4-5, atingindo produtividade total no 6º mês
-
Perda de conhecimento tácito (Tribal Knowledge): $100.000-$300.000
- É o item mais difícil de quantificar, mas aparece como erros nos trimestres seguintes
- Coisas que o engenheiro que saiu sabia:
- quais partes da base de código são frágeis e exigem mudanças cuidadosas
- quais clientes têm requisitos especiais e por quê
- quais decisões de arquitetura foram trade-offs intencionais versus dívida técnica
- quais são as 3 linhas realmente importantes em um serviço de 10.000 linhas
- por que uma determinada query de banco de dados parece ineficiente, mas foi escrita assim (uma otimização “óbvia”, descoberta 3 anos antes sob uma condição específica, causava corrupção de dados)
- Erros causados pela falta de contexto: um novo engenheiro otimiza uma query “lenta” e interrompe o fluxo de trabalho principal dos 2 maiores clientes da empresa
- 2 dias para identificar o problema ($4.615), 1 semana para implementar a correção adequada ($7.692), além da recuperação do relacionamento com o cliente
- Custo de um único incidente: cerca de $12.000-$15.000, ocorrendo 3-5 vezes no primeiro ano por engenheiro sênior que saiu
- Atraso na tomada de decisão: uma pergunta que o engenheiro que saiu respondia em 30 segundos agora exige 3 horas de arqueologia de código, busca no histórico do Slack e conversas do tipo “alguém sabe por que isso foi feito assim?”
- Se isso ocorrer 2 vezes por semana durante 6 meses: $14.040
- Projetos adiados ou abandonados: só o engenheiro que saiu entendia o suficiente do sistema de autenticação para implementar com segurança a integração de SSO
- Esse projeto atrasa 6-9 meses; se o SSO era necessário para um contrato enterprise de $500.000, o custo do atraso é mensurável
- Estimativa conservadora para essa perda de conhecimento interno: $100.000 a $300.000 ao longo dos 12 meses após a saída
-
Custo total por saída de engenheiro
- Substituição direta: $85.000-$100.000
- Custo da vaga em aberto: $50.000-$100.000
- Adaptação e onboarding: $92.000-$125.000
- Perda de conhecimento interno: $100.000-$300.000
- Total conservador: $327.000-$625.000
- Total realista incluindo atraso de projetos e custo de oportunidade: $500.000-$1.000.000
-
Esses custos se distribuem por todo o orçamento e ficam escondidos no ruído: os custos de contratação ficam no orçamento de RH, a perda de produtividade não é rastreada, e a evaporação do conhecimento interno não aparece nos relatórios trimestrais
- Adiar dívida técnica e priorizar funcionalidades gera resultados imediatos e visíveis: demos para a equipe comercial, anúncios de lançamento do marketing, relatórios do CEO ao conselho etc.
- É o fenômeno que economistas chamam de problema do "sapo fervido":
- A saída de cada funcionário parece suportável, o adiamento do trabalho técnico parece racional, e os trade-offs trimestrais também parecem justificáveis quando vistos isoladamente
- Quando o padrão fica evidente (rotatividade anual de 18% entre engenheiros sêniores, acúmulo de dívida técnica, falhas em cascata nos sistemas), a organização já passou a aceitar a disfunção como algo normal
Como é a recuperação (Recovery)
- 14 meses antes do desastre da Black Friday, um engenheiro sênior de plataforma de uma empresa de médio porte de processamento de pagamentos levantou preocupações específicas
- “O sistema de processamento de transações não vai suportar o tráfego esperado das festas de fim de ano”
- Enviou uma proposta detalhada indicando a necessidade de sharding do banco de dados e otimização de filas: estimativa de 6 semanas de tempo de engenharia e custo de infraestrutura de $80.000
- A proposta foi rebaixada em prioridade pelo VP of Product:
- Considerou-se que o lançamento de outros dois recursos era mais importante
- Nas revisões trimestrais, elogiaram sua “capacidade de identificar problemas potenciais com antecedência”, mas a proposta de arquitetura foi deixada de lado no Jira
- Quatro meses depois, esse engenheiro foi para uma concorrente com aumento de 15%, e a reposição exigiu 3 meses de busca e $47.000 em custos de contratação, além de mais 5 meses até atingir plena produtividade
- Nesse intervalo, mais 2 engenheiros sêniores saíram: 1 por frustração com dívida técnica e 1 por aceitar externamente um cargo de Principal Engineer que não existia internamente
- Aquele alerta inicial só voltou a ser discutido em uma revisão de arquitetura 9 meses depois
- Nessa altura, a memória organizacional sobre o contexto da proposta e como resolvê-la já havia desaparecido
- Um engenheiro júnior recebeu a tarefa de “investigar alternativas”
- No dia da Black Friday, o desastre começou às 9h47 da manhã com o pico de transações
- Às 10h23, o banco de dados passou a rejeitar solicitações de escrita
- O gargalo era exatamente o mesmo ponto apontado 14 meses antes, e a falha fez com que $2,5M em transações deixassem de ser processadas
- A recuperação levou 5 horas
- O custo da expansão emergencial de infraestrutura foi de $180.000, e 3 engenheiros passaram o feriado inteiro em horas extras para implementar mudanças arquiteturais permanentes
- Em 3 de dezembro, um postmortem liderado pelo CTO foi enviado à diretoria com um novo item
- Foi adicionada a seção “Previously Raised Concerns”, registrando o alerta inicial daquele engenheiro, a decisão de não priorizá-lo e a posterior saída de pessoal
- O CFO calculou o custo total
- Custo da saída de engenheiros (3 sêniores): custo mensurável de $235.000 por pessoa
- Recrutamento $47.000 + bônus de contratação $30.000 + custo da vaga em aberto $83.000 (média de 4 meses) + onboarding e ramp-up $75.000
- Total de $705.000
- Custo da perda de conhecimento tribal: $2,2M
- O entendimento sobre a estrutura do banco de dados, modos de falha e soluções anteriores desapareceu da organização
- Foi preciso redescobrir o problema, pesquisar novamente a solução e implementá-la em situação de emergência
- Essa lacuna de conhecimento transformou uma migração planejada em resposta a uma crise
- Custos de investigação, tentativas equivocadas, acionamento emergencial de fornecedores e atendimento aos lojistas foram se acumulando
- Custo das transações que falharam:
- Valor do processamento de pagamentos que falhou: $2,5M
- Como a taxa era de 2,9%, a perda direta de receita foi de $72.500, mas havia obrigação contratual de processar todas as transações
- Por isso, houve multa por violação de SLA de $180.000 devido às falhas de processamento, além de $45.000 em suporte a lojistas e custos de prevenção de churn
- Custo emergencial de infraestrutura: $180.000
- Expansão emergencial do banco de dados (réplicas adicionais de leitura, instâncias atualizadas e custo de suporte acelerado do fornecedor)
- Reconfiguração do load balancer e otimização de CDN para suportar o tráfego previsto 14 meses antes
- Custo de recuperação e ações posteriores: $87.000
- 3 engenheiros sêniores trabalharam 72 horas no fim de semana do feriado com taxa de hora extra de 2,5x: $51.923
- 2 semanas de trabalho de acompanhamento da equipe de engenharia em geral: $38.462
- Custo total do incidente: $3,47M
- Custo preventivo originalmente proposto: $80.000 (incluindo 6 semanas de trabalho de engenharia de 1 engenheiro sênior e custo de infraestrutura)
- Na primeira página do postmortem estava escrito $3,47M vs $80.000, e esse número mudou o rumo da conversa
- Em resposta às perguntas do conselho, o CEO solicitou uma análise de retenção
- A taxa anual de saída de engenheiros sêniores era de 34% ao ano (mais do que o dobro da média do setor para empresas lucrativas)
- Nas entrevistas de desligamento antes arquivadas sem revisão da diretoria, surgiu um padrão consistente
- Engenheiros talentosos saíam quando preocupações técnicas eram reconhecidas, mas não colocadas em prática
- 4 medidas de melhoria foram implementadas ao longo de 18 meses:
- O CFO passou a acompanhar o custo de saída nos relatórios trimestrais junto com o custo de aquisição de clientes — de repente, o custo médio de saída de $235.000 passou a aparecer em documentos do mesmo tipo que decisões de gasto em marketing
- Todos os executivos passaram a participar de uma rotação trimestral de on-call — o VP of Product que havia rebaixado o trabalho no banco de dados recebeu, logo na primeira semana, um relatório de 23 páginas, das quais 19 tratavam de dívida técnica apontada nos 6 meses anteriores
- O comitê de remuneração adicionou um fator de retenção de talentos à remuneração variável dos executivos: manter 90% dos engenheiros sêniores ao ano passou a valer 25% do cálculo do bônus
- Foram criadas trilhas de carreira de IC para Staff e Principal alinhadas, em nível e remuneração, aos cargos de diretor e VP
- Depois de 18 meses, a taxa anual de saída de engenheiros sêniores dessa empresa de pagamentos caiu para 9%
- Mais importante ainda foi a mudança no processo de revisão de arquitetura:
- Propostas de dívida técnica agora incluem custo calculado de falha
- A diretoria passou a perguntar rotineiramente: “Se adiarmos isso, qual é o risco de saída de engenheiros?”
- O engenheiro de plataforma que havia levantado a preocupação original com o banco de dados voltou como Principal Engineer
- Com salário 40% maior do que quando saiu — contratado especificamente para liderar a expansão da infraestrutura
- O retorno desse engenheiro, junto com a mudança demonstrada pelos números, simboliza que o cálculo econômico da organização realmente mudou
Seis intervenções que de fato funcionaram
-
Intervenções estruturais que realinham incentivos, não coleta de informações nem atividades de empatia, mas redesenho econômico
-
Hierarquia de impacto
- As 6 intervenções podem parecer pesadas, mas a dificuldade de implementação e o tempo para gerar valor não são os mesmos; a ordem importa
- Forma de obter resultados mais rápidos: intervenções que exigem apenas o consentimento mínimo da organização
- Contabilidade do custo de atrito (#1): só exige aprovação do CFO e tempo de um analista financeiro
- Rastreamento de incidentes causados por alertas ignorados (#2): só exige mudança no processo de SRE. Não requer orçamento nem reorganização estrutural, apenas documentação sistemática de postmortems
- Ambos podem ser iniciados em até 30 dias e fornecem evidências quantificadas para batalhas mais difíceis
- Intervenções de médio prazo: exigem mudança cultural, mas não reestruturação de compensação
- Rotação de on-call para executivos (#3): funciona quando um executivo vivencia diretamente as consequências de adiar melhorias de infraestrutura, e então a política se estabelece naturalmente
- Conselho técnico consultivo com autoridade (#5): só funciona quando a liderança realmente aceita a possibilidade de suas decisões serem revertidas, e abordagens piloto em pequena escala fracassam em poucos trimestres
- Cronograma de implementação de 3 a 6 meses: porque exige não só mudança de política, mas também construção de confiança
- Intervenções estruturais: exigem aprovação do conselho ou do comitê de remuneração e levam 6 a 12 meses, mas oferecem a mudança mais profunda
- Inclusão de métricas de retenção no sistema de compensação (#4): quando o bônus executivo depende da retenção de engenheiros seniores, dívida técnica vira uma prioridade estratégica da noite para o dia
- Garantia de equivalência para a trilha IC (#6): quando um Staff Engineer pode receber salário de nível executivo sem gerenciar equipe, torna-se estruturalmente possível reter expertise técnica
- Intervenção mínima viável: combinar dois elementos de camadas diferentes
- Contabilidade do custo de atrito (resultado rápido) + métrica de retenção na remuneração (mudança estrutural)
- A primeira constrói o business case; a segunda faz com que agir seja racional para a liderança
- Empresas em crise: implementar resultados rápidos imediatamente + desenhar mudanças estruturais em paralelo
- Empresas com sinais precoces de alerta: começar com medição (contabilidade de custos, rastreamento de incidentes) + usar os dados resultantes para justificar intervenções mais profundas
-
1. Contabilidade do custo de atrito (Cost-of-Attrition Accounting)
- Tornar visível o que é invisível: calcular o custo total de cada saída de engenheiro sênior
- Custo médio de recrutamento de $35,000
- Cerca de 6 meses até atingir produtividade total (50% do salário anual de um engenheiro sênior)
- Atrasos em projetos causados por perda de conhecimento
- Custo de oportunidade de decisões de arquitetura que só aquele engenheiro entendia
- Acompanhar esses números mensalmente e incluí-los no mesmo dashboard executivo de CAC e métricas de receita
- Uma empresa de serviços financeiros, ao rastrear o custo trimestral de atrito, encontrou
- Q1: saída de 2 seniores, $400,000
- Q3: custo anual projetado de $900,000
- Quando o CFO apresentou isso junto com o orçamento anual de engenharia de $3M
- A pergunta do CEO mudou de “por que eles saíram?” para “quanto é preciso para evitar isso?”
- Como resultado, investiram $400,000 em redução de dívida técnica e ajuste de remuneração
a taxa de saída de seniores caiu 43% e o investimento se pagou totalmente em apenas dois trimestres
- Tornar visível o que é invisível: calcular o custo total de cada saída de engenheiro sênior
-
2. Rastrear incidentes ocorridos por causa de alertas ignorados
- Alterar o template de postmortem para adicionar uma seção obrigatória chamada "Alertas prévios (Prior Warnings)"
- Exigir que o responsável verifique alertas anteriores sobre esse modo de falha em Jira, Slack, notas de revisão de arquitetura e e-mails
- Itens a documentar: quando o alerta foi levantado, por quem, qual ação foi proposta e por que a prioridade foi reduzida
- Calcular o custo do incidente: impacto na receita por downtime, carga sobre o suporte ao cliente e horas de engenharia gastas na recuperação
- Depois de adotar essa abordagem, uma empresa de healthtech
- descobriu em 6 meses que 70% dos incidentes em produção haviam sido previstos com antecedência
- engenheiros levantaram preocupações, mas a liderança reduziu a prioridade da correção para focar no desenvolvimento de funcionalidades
- custo total em 1 ano: US$ 1,8 milhão em incidentes evitáveis
- quando a liderança confirmou que, em 14 dos 16 incidentes graves, os alertas técnicos estavam corretos, percebeu a gravidade do padrão
- uma vez comprovado que as previsões eram consistentemente corretas, o comportamento mudou
-
3. Rotação de on-call para executivos
- Todos os executivos (incluindo produto, VPs e diretores) fazem 1 semana de on-call por trimestre
- Política de escalonamento:
- se o engenheiro de on-call considerar que o alerta está relacionado a uma correção anteriormente tratada como baixa prioridade ou a trabalho técnico adiado
- deve reportar diretamente à pessoa responsável por aquela decisão, independentemente da hora ou do dia
- Isso oferece um aprendizado experiencial mais forte do que qualquer dashboard
- Exemplo: um VP of Product recebeu 17 chamados em 5 dias por causa do mesmo problema de pool de conexões de banco de dados que os engenheiros haviam marcado 7 meses antes como uma correção “bom ter”
- O problema havia sido classificado como P3, e o VP priorizou o lançamento de 3 funcionalidades no lugar
- Depois de 5 chamadas seguidas às 3 da manhã, mudou para P0 e foi corrigido em 8 dias
- Mais tarde, esse VP admitiu: “eu achava que os engenheiros exageravam sobre fadiga de alerta. Não exageravam”
-
4. Incorporar métricas de retenção de talentos na remuneração executiva
- Reestruturar a compensação variável da liderança para que 25% dependam da taxa de retenção de engenheiros seniores
- Definição de “sênior”: mais de 2 anos de casa, avaliação de desempenho acima das expectativas ou responsabilidade por sistemas críticos
- Definição de meta: 90% de retenção anual de engenheiros seniores
- Se ficar abaixo da meta, o bônus é reduzido proporcionalmente
- Se superar a meta, o bônus é multiplicado
- Exemplo: uma empresa SaaS Series B implementou essa estrutura em 2021
- Atrito anual de engenheiros seniores em 28%
- Resistência inicial da liderança: “não podemos controlar se alguém recebe uma oferta melhor”
- Resposta do CEO: “então estamos admitindo que só competimos com salário. Ou melhoramos isso, ou aceitamos o impacto na remuneração”
- Em 1 ano, a taxa de atrito caiu para 11%
- O padrão das entrevistas de desligamento mudou: engenheiros que saíam passaram a mencionar saídas por oportunidade (promoção para principal em empresa maior, fundação de startup, mudança) em vez de saídas por disfunção (preocupações técnicas ignoradas, falta de crescimento, cultura tóxica)
- Quando a liderança passou a ter senso de responsabilidade pela retenção, bater a meta de bônus acabou se tornando a parte mais fácil
-
5. Conselho técnico consultivo (TAB) com poder real
- Formar um comitê com 5 engenheiros seniores eleitos pela organização de engenharia (não nomeados pela liderança)
- Reuniões trimestrais com o C-level
- Um único poder: vetar 1 decisão da liderança por trimestre
- Exigência: ao vetar, é obrigatório apresentar uma alternativa por escrito com justificativa técnica, custo estimado e análise de risco
- A liderança só pode anular o veto com aprovação do CEO e justificativa documentada
- Exemplo: uma empresa de infraestrutura blockchain criou o TAB no início de 2020
- Em 2 anos, exerceu o veto 2 vezes
- Primeiro veto: bloqueou a decisão de construir um framework proprietário de consenso e propôs ampliar um protocolo open source existente. Estimativa de 18 meses de desenvolvimento economizados
- Segundo veto: impediu o lançamento de uma migração de banco de dados sem testes abrangentes de rollback. A análise pós-implementação estimou que o TAB evitou um incidente de corrupção de dados de US$ 2 milhões
- O verdadeiro impacto foi mais sutil: antes de fechar decisões técnicas, a liderança começou a perguntar “o TAB aprovaria isso?”
- A ameaça de veto mudou a qualidade das propostas antes mesmo de elas chegarem ao TAB
- Engenheiros relataram que o julgamento técnico finalmente passou a importar nas decisões da liderança
-
6. Trilha IC (contribuidor individual) com equivalência de remuneração
-
Definir claramente o caminho de progressão de carreira IC: Staff Engineer, Principal Engineer, Distinguished Engineer
- As faixas de remuneração devem corresponder respectivamente aos níveis de Director, VP e SVP
-
Critérios de promoção: impacto técnico, liderança de arquitetura e efeito multiplicador sobre a eficiência do trabalho de outros engenheiros, e não tamanho da equipe ou estrutura de reporte
-
Exemplo: uma empresa de fintech perdeu 3 engenheiros de nível Staff em 6 meses
-
Mesmo padrão nas entrevistas de desligamento: "sem se tornar gerente, é impossível chegar à remuneração de L7. Não quero gerenciar, quero continuar sendo desenvolvedor"
- A empresa implementa uma trilha de IC com equivalência de remuneração
- Em 1 ano: 2 engenheiros que antes estavam fazendo entrevistas foram promovidos a Principal, 3 ICs sêniores foram contratados de concorrentes sem uma trajetória de carreira semelhante, a evasão técnica sênior caiu 62%
- Mais importante ainda, os engenheiros que permaneceram na empresa evitaram erros de arquitetura estimados em US$ 3 milhões
- Decisões que engenheiros júnior ou de nível pleno não conseguiam contestar por falta de especialização ou autoridade
Caminhos de implementação (Implementation Paths)
- O cronograma de implementação varia de acordo com a gravidade da situação da organização
-
Empresa em situação de crise (taxa de saída de seniores >20%, ocorrência recente de incidente grave)
- Semanas 1-2: calcular o custo real de saída em 12 meses (incluindo custos de contratação, tempo de adaptação de produtividade, atraso de projetos e perda de conhecimento escasso), analisar padrões em entrevistas de desligamento, mapear incidentes de produção a alertas antes ignorados
- Semanas 3-4: apresentar as descobertas ao CFO e ao CEO, mostrar o padrão (preocupação técnica levantada → prioridade reduzida → saída de engenheiro → incidente ou custo), quantificar a perda total, propor intervenção imediata
- Semanas 5-8: iniciar a rotação de on-call da liderança executiva (a mudança cultural mais rápida), começar a acompanhar o custo de saída (construindo um caso contínuo para mudança), criar um piloto de TAB com 3 engenheiros, começar a acompanhar o custo mensal de saída no dashboard executivo
- Semanas 9-12: apresentar ao conselho mudanças na estrutura de compensação, vincular o bônus da liderança à retenção, anunciar publicamente a trilha de carreira IC, comunicar com transparência o que mudou e por quê
-
Empresa com sinais de alerta precoce (taxa de saída de 12-18%, engenheiros mencionam preocupações em 1:1)
- Meses 1-2: começar a acompanhar o custo de saída e construir o caso econômico, pesquisar os engenheiros sobre risco de retenção e o que os faria ficar, identificar as 3 preocupações mais citadas
- Meses 3-4: testar com um piloto a rotação de on-call da liderança sênior e do executivo responsável, iniciar um piloto de TAB, usar ambos para trazer à tona dívida técnica e atrito organizacional, documentar o custo do trabalho adiado
- Meses 5-6: implementar mudanças permanentes na estrutura de compensação, formalizar a autoridade do TAB, publicar os critérios da trilha de carreira IC e as faixas de remuneração, definir explicitamente a retenção de engenheiros seniores como meta executiva
Quando isso não funciona
- Essas intervenções falham de forma previsível em 3 cenários, e não reconhecer isso só faz perder tempo
-
1. Modelo de negócios projetado desde o início para rotatividade
- Empresas de consultoria e prestadores de serviço esperam 20-40% de rotatividade anual
- O modelo de negócios incorpora o custo de substituir pessoas ao preço, e as taxas cobradas são definidas partindo do pressuposto de conhecimento organizacional limitado
- Estratégias de retenção de talentos projetadas para empresas de produto não fazem sentido onde a rotação de clientes induz uma saída natural e a trilha para sócio gera intencionalmente pressão de up-or-out
- Da mesma forma, startups em estágio inicial antes do product-market fit podem experimentar saída de engenheiros que sinaliza um pivô necessário, não um fracasso de retenção
- Se a empresa está mudando de direção de forma fundamental a cada 6 meses, baixa retenção pode significar realocação adequada de talentos, não disfunção sistêmica
-
2. Quando só fingem implementar (Implementation Theater)
- Intervenções meramente formais produzem resultado pior do que não intervir
- Um TAB sem poder real de veto vira uma válvula de escape para dispersar as preocupações dos engenheiros
- Quando se investe tempo em propostas sistematicamente ignoradas, só aumenta a frustração
- A rotação de on-call de executivos, sem conexão com a correção das causas raiz, gera empatia performática sem responsabilização
- Um VP chamado para problemas que ele não pode priorizar nem resolver só aprende que os engenheiros reclamam com frequência
- A contabilidade do custo de saída que é calculada, mas nunca aparece no dashboard executivo nem nas discussões de compensação, continua sendo uma discussão teórica
- Intervenções implementadas pela metade mostram que a liderança está apenas fingindo se importar, sem vontade real de fazer mudança estrutural
-
3. Ausência de pré-requisitos culturais
- Essas intervenções exigem pré-requisitos culturais que faltam em muitas organizações: a liderança precisa querer mudança real de comportamento, e não gestão de reputação
- Se os executivos veem a retenção de engenheiros como um problema de PR, e não econômico, vão implementar apenas as intervenções mais visíveis (conselhos consultivos, listening tours) e evitar as mais custosas (reestruturação de compensação, poder real de veto)
- Teste de diagnóstico: proponha vincular 25% da remuneração variável da liderança à retenção de engenheiros seniores
- Se a liderança imediatamente apresentar “por que isso não funciona na nossa empresa”, você encontrou a resposta
- Eles querem uma solução sem custo pessoal
- Se a liderança imediatamente apresentar “por que isso não funciona na nossa empresa”, você encontrou a resposta
- Uma empresa que não está pronta para dar poder de veto aos engenheiros, vincular a remuneração executiva à retenção e refletir o custo de saída nas revisões financeiras trimestrais não está pronta para mudança estrutural
- Ela apenas reconhece as preocupações, recomenda “mais estudos” e se satisfaz com relatórios de consultoria pegando poeira enquanto engenheiros seniores continuam saindo
- As intervenções funcionam quando a liderança reconhece que um custo anual de rotatividade de US$ 1,4 milhão é maior do que o custo das medidas necessárias para evitá-lo
- Sem esse reconhecimento, nenhum conselho consultivo substitui o alinhamento econômico
O novo cálculo econômico
- À medida que a empresa de infraestrutura blockchain liderada pelo autor cresceu de 10 para 187 engenheiros em 3 anos,
- ela manteve a taxa anual de saída de engenheiros seniores em média de 6%, bem abaixo dos 35% a 40% típicos de empresas de hiper crescimento
- A causa desse resultado não foi benefício ou dispositivo cultural, mas sim o redesenho da estrutura de incentivos
- Gerentes intermediários eram recompensados por trazer riscos técnicos à tona cedo, e não por fazer parecer que tudo estava sob controle
- Postmortems exigiam documentação de alertas anteriores; alertas ignorados passavam a fazer parte da avaliação de desempenho de quem havia reduzido sua prioridade
- A liderança técnica tinha poder de veto sobre decisões de arquitetura. Nós o usamos 2 vezes, e a simples possibilidade de exercer esse veto já elevou a qualidade geral das propostas
- A trilha de carreira IC existia desde a fundação; o não gestor mais sênior ganhava mais do que a maioria dos diretores
- Custo do sistema: cerca de US$ 400.000 por ano em ajustes de compensação, overhead de governança e priorização de dívida técnica que atrasou parte das funcionalidades
- Economia gerada:
- US$ 2,1 milhões em custos de saída evitados (aplicando o padrão do setor de 35% de saída ao quadro de engenheiros seniores)
- Além disso, houve uma economia difícil de medir, mas significativa, em decisões de arquitetura que não se transformaram em incidentes de milhões de dólares porque engenheiros seniores tinham poder de interrompê-las
A verdade incômoda
- A maioria das empresas não implementa essas intervenções até que seja forçada por circunstâncias inevitáveis
- Esse fator de pressão costuma ser catastrófico: um incidente de produção que custa milhões de dólares, uma saída em massa que paralisa equipes essenciais ou um concorrente levando embora metade do seu núcleo de engenharia ao oferecer justamente o que você recusou — respeito ao julgamento técnico
- A essa altura, em vez de prevenção, você passa a viver de reparação de danos
- A recuperação é cara. Os melhores engenheiros, que poderiam evitar a próxima crise, já foram embora
- Seus substitutos são talentosos, mas não têm conhecimento organizacional suficiente para saber que alertas fazer, acelerando o loop de destruição
- A questão não é se essas intervenções funcionam; as evidências são claras
- Empresas que alinham incentivos da liderança com retenção, dão poder significativo aos engenheiros e tratam rotatividade como questão econômica apresentam consistentemente melhores resultados em retenção, taxa de incidentes e saúde técnica de longo prazo
- Se engenheiros experientes estão saindo e as soluções convencionais não funcionam, o problema pode não ser comunicação, mas sim economia
10 comentários
A diretoria ouve isso e concorda com a cabeça
Reconhece o problema
Diz que vai ajustar as prioridades
> É aqui que trava
Verdade inconveniente +
A gerência que realmente precisa tomar a decisão, mesmo lendo este texto, não vai entender
Concordo.
Isso mesmo
É realmente raro encontrar um texto que traga soluções. Obrigado.
Estou vendo pelo celular, e parece que, por algum problema de alinhamento, há algumas listas no texto em que aparece apenas uma letra por linha. Além disso, quando entra um pouco mais de profundidade, o comprimento das linhas fica dramaticamente curto.
Corrigi. Obrigado por avisar.
Sim, no iOS 26.1 x Safari também acontece o mesmo problema.
Eu também quero fazer refatoração
Mostre-me o incentivo, e eu lhe mostrarei o resultado. - Charlie Munger