Como empresas de tecnologia medem o impacto da IA no desenvolvimento de software

(newsletter.pragmaticengineer.com)

16 pontos por GN⁺ 2025-09-22 | Ainda não há comentários. | Compartilhar no WhatsApp

Em meio à ampla adoção de ferramentas de codificação com IA e ao aumento dos custos, empresas de tecnologia conhecidas estão organizando, em métricas em várias camadas, como quantificam na prática a utilidade da IA
O ponto central é uma abordagem híbrida que acompanha ao mesmo tempo métricas básicas de engenharia já existentes (ex.: throughput de PR, taxa de falha em mudanças) e métricas específicas de IA (ex.: taxa de uso da IA, tempo economizado, CSAT)
Destaca-se uma mentalidade experimental que extrai tendências e correlações por meio de segmentação por nível de uso de IA por equipe/indivíduo/coorte e de comparações antes e depois
É necessário um desenho equilibrado que monitore continuamente qualidade, manutenibilidade e experiência do desenvolvedor junto com métricas de velocidade, para evitar o aumento da dívida técnica e os efeitos colaterais de benefícios de curto prazo
No longo prazo, prevê-se a expansão da medição para telemetria remota de agentes e até áreas de trabalho não relacionadas à programação; no fim, a pergunta se resume a: “a IA está tornando melhor aquilo que já é importante (qualidade, velocidade de lançamento no mercado e experiência do desenvolvedor)?”

O debate sobre o impacto da IA e a lacuna de medição

Como se vê com frequência no LinkedIn e em outros lugares, há uma enxurrada de afirmações de que a IA está mudando a forma como as empresas desenvolvem software
- Continuam surgindo reportagens de que grandes volumes de código gerado por IA — como Google 25%, Microsoft 30% — estão sendo implantados como código real de produção
- Enquanto alguns fundadores afirmam que a IA pode substituir engenheiros juniores, a pesquisa da METR mostra a possibilidade de distorção da percepção do tempo e queda de produtividade
A mídia simplifica o impacto da IA para “quanto código foi escrito”, mas, como resultado, o setor passa a enfrentar o risco de acumular a maior dívida técnica da história
Embora houvesse consenso de que LOC (linhas de código) não é uma métrica adequada de produtividade, ela voltou a ganhar espaço por causa da facilidade de medição, encobrindo valores essenciais como qualidade, inovação, velocidade de lançamento e confiabilidade
Atualmente, muitos líderes de engenharia estão tomando decisões importantes sobre ferramentas de IA sem saber claramente o que funciona e o que não funciona
- Segundo o LeadDev 2025 AI Impact Report, 60% dos líderes apontam a “falta de métricas claras” como o maior desafio
- Os líderes no campo demonstram insatisfação entre a pressão por resultados e executivos obcecados por LOC, e a lacuna entre a informação necessária e a medição real continua se ampliando
O autor pesquisa ferramentas para desenvolvedores há mais de 10 anos e, desde 2021, atua em consultoria de ganho de produtividade e medição do impacto da IA
- Depois de entrar como CTO da DX, passou a colaborar com centenas de empresas e liderar análises de DevEx, eficiência e impacto da IA
No início de 2025, com base em dados de mais de 400 empresas, ele foi coautor do AI Measurement Framework
- Trata-se de um conjunto recomendado de métricas necessárias para adoção de IA e medição de impacto, construído com base em pesquisa de campo e análise de dados
Neste texto, ele analisa como 18 empresas de tecnologia medem de fato o impacto da IA e compartilha:
- exemplos reais de métricas de Google, GitHub, Microsoft e outras
- formas de uso para identificar o que funciona
- metodologia de medição do impacto da IA
- definições e guia de métricas de impacto da IA

1. Métricas reais de 18 empresas

Casos de 18 empresas como Google, GitHub, Microsoft, Dropbox, Monzo, Atlassian, Adyen, Booking.com e Grammarly são compartilhados em imagem
Embora as empresas adotem abordagens diferentes, em comum elas se concentram em alguns grupos centrais de métricas
1. Métricas de uso (Adoption & Usage)
- DAU/WAU/MAU: quase todas as empresas acompanham usuários ativos diários, semanais e mensais das ferramentas de IA
- Intensidade de uso/eventos de uso: Google, eBay e outras detalham desde escrita de código e respostas em chat até agentic actions
- CSAT da ferramenta de IA: várias empresas, como Dropbox, Webflow e Grammarly, também fazem pesquisas de satisfação
2. Métricas de produtividade (Throughput & Time Savings)
- Throughput de PR (PR throughput): várias empresas, como GitHub, Dropbox, Webflow e CircleCI, acompanham essa métrica em comum
- Tempo economizado (Time savings): medição do tempo semanal economizado por engenheiro (Dropbox, Monzo, Toast, Xero e outras)
- Tempo de ciclo de PR: usado por Microsoft, CircleCI, Xero, Grammarly e outras
3. Métricas de qualidade/estabilidade (Quality & Reliability)
- Change Failure Rate: a métrica de qualidade mais comum em empresas como GitHub, Dropbox, Adyen, Booking.com e Webflow
- Manutenibilidade do código/percepção de qualidade: GitHub, Adyen e CircleCI avaliam isso em conexão com DevEx
- Bugs/taxa de reversão: Glassdoor (número de bugs), Toast (PR revert rate)
4. Métricas de experiência do desenvolvedor (Developer Experience)
- Satisfação do desenvolvedor/pesquisas (DevEx, DXI): usadas por Atlassian, Webflow, CarGurus, Vanguard e outras
- Bad Developer Days (BDD): a Microsoft mede atrito de forma original com o conceito de “dias ruins do desenvolvedor”
- Carga cognitiva e friction do desenvolvedor: Google, eBay e outras
5. Métricas de custo e investimento (Spend & ROI)
- Gasto com IA (total & per developer): algumas empresas acompanham custos, como nos casos de Dropbox, Grammarly e Shopify
- Capacity worked (taxa de utilização): a Glassdoor mede quanto a ferramenta foi usada em relação ao seu potencial máximo
6. Métricas de inovação/experimentação (Innovation & Experimentation)
- Innovation ratio / velocity: GitHub, Microsoft e Webflow transformam a velocidade de inovação em métrica
- Número de testes A/B: a Glassdoor usa a quantidade mensal de testes A/B como métrica principal
Métricas de resultado, como tempo economizado, throughput de PR, taxa de falha em mudanças, usuários engajados e taxa de inovação, são acompanhadas em paralelo com métricas de comportamento de uso
A composição das métricas varia de acordo com as prioridades e o contexto do produto de cada organização, e não existe uma única métrica universal

2. Base sólida: o núcleo da medição de impacto da IA

Escrever código com IA não muda os critérios de um bom software. Qualidade, manutenibilidade e velocidade continuam sendo essenciais
- Por isso, métricas existentes como Change Failure Rate, throughput de PR, tempo de ciclo de PR e experiência do desenvolvedor (DevEx) continuam sendo importantes
Métricas totalmente novas são desnecessárias
- A pergunta importante é: “A IA está melhorando aquilo que já era importante?”
- Se você ficar em métricas superficiais como LOC ou taxa de aceitação, não conseguirá entender corretamente o impacto da IA
São necessárias novas métricas-alvo para entender exatamente o que está acontecendo no uso de IA
- É possível identificar onde, quanto e de que forma a IA está sendo usada e aplicar isso em decisões sobre orçamento, rollout de ferramentas, segurança e compliance
As métricas de IA mostram coisas como:
- Quantos e quais tipos de desenvolvedores estão adotando ferramentas de IA?
- Quanto trabalho, e que tipos de trabalho, a IA está impactando?
- Qual é o custo?
As principais métricas de engenharia mostram coisas como:
- Se a equipe está fazendo ship mais rápido
- Se a qualidade e a confiabilidade estão melhorando ou piorando
- Se a manutenibilidade do código está caindo
- Se as ferramentas de IA estão reduzindo atritos no fluxo de trabalho dos desenvolvedores
No caso da Dropbox
- Métricas de IA
  - DAU/WAU (usuários ativos diários e semanais)
  - CSAT da ferramenta de IA (satisfação)
  - Tempo economizado por engenheiro
  - Gastos com IA
- Métricas centrais (usando o Core 4 Framework)
  - Change Failure Rate
  - throughput de PR
- Resultados
  - Usuários regulares semanais de IA = 90% de todos os engenheiros (acima da média do setor, de 50%)
  - Usuários regulares de IA tiveram aumento de 20% em PRs mesclados + redução na Change Failure Rate
  - Mais importante do que a taxa de adoção em si é verificar se há contribuição real para o desempenho da organização, da equipe e do indivíduo

3. Desdobrando métricas por nível de uso de IA

São feitas várias análises comparativas para entender que mudanças a IA traz para a forma de trabalho dos desenvolvedores
- Comparação entre usuários e não usuários de IA
- Comparação das principais métricas de engenharia antes e depois da adoção de ferramentas de IA
- Acompanhamento do mesmo grupo de usuários (cohort analysis) para observar mudanças após a adoção de IA
Segmentar os dados (slicing & dicing) para identificar padrões
- Análise por atributos como função, tempo de casa, região e linguagem principal
- Exemplo: juniores passam a abrir mais PRs, enquanto seniores ficam mais lentos por terem maior peso em revisões
- Isso permite identificar grupos que precisam de treinamento e suporte adicionais e grupos em que o uso de IA gera mais efeito
- Caso da Webflow
  - No grupo de desenvolvedores com 3 anos ou mais de empresa, o ganho de tempo com uso de IA foi o maior
  - Com ferramentas como Cursor e Augment Code, houve aumento de 20% no throughput de PR (comparando usuários de IA vs. não usuários)
Necessidade de uma baseline sólida
- Organizações sem uma base de métricas de produtividade de desenvolvedores têm dificuldade para medir o impacto da IA
- Com o Core 4 Framework (usado por Dropbox, Adyen, Booking.com etc.), é possível estabelecer rapidamente uma linha de base
  - Consulte o template e guia
- Use em conjunto dados do sistema, dados de amostragem de experiência e pesquisas regulares para fazer comparações mais confiáveis
Acompanhamento contínuo e mentalidade experimental são essenciais
- Medição pontual não tem muito significado; é preciso acompanhar séries temporais para identificar tendências e padrões
- O ponto em comum entre empresas bem-sucedidas: definem objetivos concretos e validam hipóteses com dados
- Sem depender cegamente dos dados, mantêm uma mentalidade experimental orientada por objetivos

4. Cautela com manutenibilidade, qualidade e experiência do desenvolvedor

O desenvolvimento assistido por IA ainda é uma área nova
- Faltam dados que comprovem o impacto na qualidade e na manutenibilidade do código no longo prazo
- O principal desafio é equilibrar o ganho de velocidade no curto prazo com o risco de dívida técnica no longo prazo
É preciso acompanhar conjuntamente métricas que se contrabalançam
- A maioria das empresas acompanha ao mesmo tempo Change Failure Rate e throughput de PR
- Quando a velocidade sobe, mas a qualidade cai, isso funciona como um sinal imediato de problema
- Métricas adicionais para monitorar qualidade e manutenibilidade
  - Change confidence: grau de confiança do desenvolvedor na estabilidade do código durante o deploy
  - Code maintainability: facilidade para entender e modificar o código
  - Perception of quality: percepção dos desenvolvedores sobre a qualidade do código e as práticas da equipe
É necessário combinar métricas de sistema e métricas autorrelatadas
- Dados de sistema: throughput de PR, frequência de deploy etc.
- Dados autorrelatados: confiança na mudança, manutenibilidade etc. → sinais fundamentais para evitar impactos negativos de longo prazo
Recomenda-se fazer pesquisas regulares de experiência do desenvolvedor (DevEx)
- Com o exemplo de pesquisa, é possível acompanhar a correlação entre qualidade, manutenibilidade e uso de IA
- Feedback não estruturado também é útil para identificar problemas existentes e discutir soluções
O significado real de experiência do desenvolvedor (DevEx)
- Não é um conceito de benefícios como “pingue-pongue e cerveja”, e sim a remoção de atritos em todo o processo de desenvolvimento
- O objetivo é garantir eficiência em todo o processo de planejamento → desenvolvimento → testes → deploy → operação
- Ferramentas de IA podem reduzir atritos na escrita de código e nos testes, mas também correm o risco de adicionar novos atritos em revisão, resposta a incidentes e manutenção
Insight de campo (Shelly Stuart, da CircleCI)
- Métricas de output (throughput de PR) mostram o que está acontecendo, mas a satisfação do desenvolvedor mostra a sustentabilidade
- A adoção de IA pode causar desconforto inicial, por isso acompanhar a satisfação é uma ferramenta essencial para distinguir atrito de curto prazo vs. valor de longo prazo
- 75% das empresas também acompanham CSAT/satisfação das ferramentas de IA → foco em construir uma cultura de desenvolvimento sustentável, mais do que apenas velocidade

5. Métricas únicas e tendências interessantes

Microsoft: Bad Developer Day (BDD)
- Conceito para medir em tempo real a fricção e o nível de fadiga no trabalho cotidiano
- Resposta a incidentes e conformidade, custo de alternância entre reuniões e e-mails, e tempo gasto em sistemas de gestão de trabalho são fatores que tornam o dia ruim
- Em equilíbrio com a atividade de PRs (indicador substituto do tempo de programação), o dia é avaliado como bom se houver um tempo mínimo garantido para programar, mesmo com algumas tarefas de baixo valor
- Objetivo: verificar se as ferramentas de IA estão reduzindo a frequência e a gravidade dos BDDs
Glassdoor: medição de experimentos e taxa de uso de ferramentas
- Acompanha, pelo número mensal de testes A/B, se a IA está aumentando a velocidade de inovação e experimentação
- Em paralelo, adota uma estratégia de formar power users como evangelistas internos de IA
- Capacity worked (taxa de utilização): mede o uso real em relação ao uso potencial da ferramenta para identificar o ponto de saturação da adoção e decidir sobre realocação de orçamento
Queda da Acceptance Rate
- Antes era uma métrica central de IA, mas tem escopo limitado por observar apenas o momento em que a sugestão é aceita
- Não reflete manutenibilidade, ocorrência de bugs, reversão de código nem a percepção de produtividade do desenvolvedor
- Hoje já não é muito usada como métrica principal, mas há exceções:
  - GitHub: usa para melhorar o Copilot e apoiar decisões de produto
  - T-Mobile: estima em que medida o código gerado por IA é efetivamente incorporado à produção
  - Atlassian: usa como métrica auxiliar de satisfação do desenvolvedor e qualidade das sugestões
Análise de custos e investimentos
- A maioria das empresas não acompanha ativamente o custo de uso para evitar desmotivar os desenvolvedores
- A Shopify adota a abordagem de celebrar os desenvolvedores com maior consumo de tokens por meio do AI Leaderboard
- ICONIQ 2025 State of AI Report: previsão de que o orçamento corporativo para produtividade com IA em 2025 dobre em relação a 2024
  - Algumas empresas estão migrando para um modelo de reduzir o orçamento de contratação e realocá-lo para ferramentas de IA
Ausência de telemetria de agentes
- Atualmente quase não há medição, mas a possibilidade de adoção nos próximos 12 meses é alta
- Com a expansão de workflows de agentes autônomos, cresce a necessidade de medir comportamento, precisão e taxa de regressão
Falta de medição de atividades não relacionadas à codificação
- Hoje a medição está limitada ao suporte à escrita de código; sessões de planejamento no ChatGPT ou tratamento de issues no Jira raramente entram na conta
- Em 2026, com a expansão do uso de IA para todas as etapas do SDLC, a medição também precisará evoluir
- Atividades concretas, como code review e varredura de vulnerabilidades, são mais fáceis de medir; tarefas abstratas são mais difíceis
- Espera-se uma ampliação do escopo das medições autorrelatadas (“Quanto tempo você economizou com IA esta semana?”)

6. Como o impacto da IA deve ser medido?

AI Measurement Framework
- Desenvolvido com Abi Noda, coautor do DevEx Framework
- Elaborado com base em dados de campo de cerca de 400 empresas e em pesquisas sobre produtividade de desenvolvedores ao longo dos últimos 10 anos
- Combina métricas de IA com métricas centrais para avaliar conjuntamente velocidade, qualidade, manutenibilidade e experiência do desenvolvedor (DevEx)
- Uma métrica isolada (por exemplo, proporção de código gerado por IA) funciona bem como headline, mas não é um meio suficiente de medir resultados
É necessário combinar dados qualitativos e quantitativos
- Só é possível obter uma compreensão multidimensional ao coletar tanto métricas de sistema (volume de PRs, DAU/WAU, frequência de deploy etc.) quanto métricas autorrelatadas (CSAT, economia de tempo, percepção de manutenibilidade etc.)
- Muitas empresas usam DX para coleta e visualização de dados, embora também seja possível construir sistemas customizados
Métodos de coleta de dados
- Dados de sistema (quantitativos): API de administração das ferramentas de IA (uso, gasto, tokens, taxa de aceitação) + métricas de SCM, JIRA, CI/CD, build e gestão de incidentes
- Pesquisas regulares (qualitativas): pesquisas trimestrais ou semestrais para identificar tendências de longo prazo, como DevEx, satisfação, confiança em mudanças e manutenibilidade, que são difíceis de captar por métricas de sistema
- Amostragem de experiência (qualitativa): inserção de perguntas curtas durante o workflow (ex.: logo após enviar um PR, “Você usou IA?”, “Este código foi fácil de entender?”)
Prioridades de execução
- Pesquisas regulares são o ponto de partida mais rápido: é possível obter dados iniciais em 1 a 2 semanas
- Assim como o nível de precisão necessário para instalar uma cortina é diferente do necessário para lançar um foguete, decisões de engenharia também podem ser valiosas com um grau de precisão suficiente para indicar a direção
- Depois, a confiabilidade aumenta ao combinar outros métodos de coleta para validação cruzada
Recursos adicionais
- Glossário de métricas comuns de IA (Google Sheet): resumo de definições, formas de cálculo e métodos de coleta
- Imagens de exemplo de métricas de IA e produtividade de desenvolvedores
  - AI & Developer Productivity Metrics Part 1
  - AI & Developer Productivity Metrics Part 2
Pontos a considerar na aplicação interna
- Em vez de perseguir taxa de adoção ou uma métrica isolada, é preciso verificar se está melhorando a capacidade de entregar software de alta qualidade rapidamente aos clientes
- Pergunta central:
  > “A IA está melhorando o que já é importante — qualidade, velocidade de lançamento e experiência do desenvolvedor?”
- Perguntas a tratar em reuniões de liderança:
  - O que define desempenho de engenharia na nossa organização?
  - Temos dados de desempenho de antes da adoção de ferramentas de IA? Se não, como vamos estabelecer rapidamente uma baseline?
  - Não estamos confundindo atividade de IA com impacto da IA?
  - Estamos equilibrando velocidade, qualidade e manutenibilidade?
  - Já é possível ver o impacto na experiência do desenvolvedor?
  - Estamos operando um modelo de medição em múltiplas camadas que inclua tanto dados de sistema quanto dados autorrelatados?

7. Como a Monzo mede o impacto da IA

Introdução inicial
- A primeira ferramenta foi o GitHub Copilot. Incluído na licença do GitHub e integrado naturalmente ao VS Code, passou a ser usado por todos os engenheiros
- Depois, testaram em paralelo várias ferramentas como Cursor, Windsurf e Claude Code, enquanto continuavam investindo com foco no Copilot
Filosofia de avaliação de ferramentas de IA
- Em um ecossistema de ferramentas que muda rapidamente, a experiência direta é indispensável
- Só dá para entender o desempenho quando os membros da equipe aplicam IA diariamente em código real e até criam e usam eles mesmos os arquivos de configuração dos agentes
- A avaliação combina métricas objetivas (uso, desempenho) e pesquisas subjetivas (satisfação com DX)
Efeitos e valor percebido
- Os engenheiros sentem que, com a IA, ficou mais fácil fazer busca e resumo de documentação e entendimento de código, além de reduzir a carga cognitiva
- Em um mercado competitivo por talentos, não oferecer as melhores ferramentas aumenta o risco de perda de desenvolvedores → disponibilizar ferramentas em si já é uma estratégia de retenção de talentos
Dificuldades de medição
- Os números fornecidos pelos vendors se limitam a métricas restritas, como taxa de aceitação, e é difícil entender o impacto real no negócio
- Também é praticamente impossível validar isso com precisão por meio de testes A/B
- É difícil consolidar dados de uso de várias ferramentas (GitHub, Gemini, Slack, Notion etc.) → limitações de telemetria e vendor lock-in são os principais obstáculos
- Como resultado, por enquanto a percepção dos desenvolvedores é o principal sinal
Áreas em que funciona bem
- Grande resultado em migração: percepção de redução de 40% a 60% no trabalho de alteração de código
- Em tarefas repetitivas e manuais, como comentários de modelos de dados, o LLM faz o rascunho inicial e o engenheiro revisa → grande economia de trabalho em escala
Lições inesperadas
- Falta de noção sobre custos de LLM: ao ver a fatura baseada no uso real de tokens, a necessidade de otimização ficaria muito mais evidente
- Exemplo: a revisão automática de código do Copilot consome muitos tokens e entrega pouco resultado, então vem desativada por padrão e foi alterada para um modelo opt-in quando necessário
Áreas em que a IA não é usada
- Dados de clientes: é proibido aplicar IA tanto a dados brutos quanto a dados desidentificados
- Em áreas com dados sensíveis, a prioridade máxima é evitar o risco de vazamento de dados
Filosofia da equipe de plataforma
- Fornecer guardrails: preparar um ambiente de uso seguro, incluindo proteção de dados
- Compartilhar casos: divulgar com transparência casos de sucesso e fracasso, além de experiências no uso de prompts
- Enfatizar a dualidade: compartilhar tanto os aspectos positivos quanto os negativos para manter uma visão equilibrada
- Relembrar os limites dos LLMs: destacar que a IA tem limitações como os humanos, para evitar confiança excessiva

Conclusão e implicações

Medir o impacto da IA ainda é uma área muito nova
- Não existe uma “melhor metodologia” no setor
- Até empresas de porte e mercado semelhantes, como Microsoft e Google, usam métricas diferentes
- Cada empresa tem sua abordagem própria e seu próprio “flavor”
É comum medir métricas conflitantes ao mesmo tempo
- Exemplo representativo: acompanhar juntos a taxa de falha de mudanças (confiabilidade) e a frequência de PRs (velocidade)
- Como implantar rápido só faz sentido se não prejudicar a confiabilidade, é preciso medir os dois eixos com equilíbrio
Medir o impacto de ferramentas de IA é um desafio semelhante ao de medir a produtividade de desenvolvedores
- Medir produtividade é um problema com o qual o setor vem lidando há mais de 10 anos
- Não dá para explicar a produtividade de uma equipe com uma única métrica, e otimizar uma métrica específica não necessariamente aumenta a produtividade real
- Em 2023, a McKinsey anunciou que havia “resolvido” a forma de medir produtividade, mas Kent Beck e o autor adotaram uma posição cética em relação a isso → artigo de contestação
Ainda não há uma solução clara, mas é preciso experimentar
- Até que a medição de produtividade seja totalmente resolvida, também será difícil resolver completamente a medição do impacto das ferramentas de IA
- Mesmo assim, é preciso continuar experimentando e tentando novas abordagens para responder à pergunta: “Como as ferramentas de coding com IA mudam a eficiência diária e mensal de indivíduos, equipes e empresas?”

Como empresas de tecnologia medem o impacto da IA no desenvolvimento de software

O debate sobre o impacto da IA e a lacuna de medição

1. Métricas reais de 18 empresas

1. Métricas de uso (Adoption & Usage)

2. Métricas de produtividade (Throughput & Time Savings)

3. Métricas de qualidade/estabilidade (Quality & Reliability)

4. Métricas de experiência do desenvolvedor (Developer Experience)

5. Métricas de custo e investimento (Spend & ROI)

6. Métricas de inovação/experimentação (Innovation & Experimentation)

2. Base sólida: o núcleo da medição de impacto da IA

No caso da Dropbox

3. Desdobrando métricas por nível de uso de IA

4. Cautela com manutenibilidade, qualidade e experiência do desenvolvedor

5. Métricas únicas e tendências interessantes

6. Como o impacto da IA deve ser medido?

7. Como a Monzo mede o impacto da IA

Conclusão e implicações

Leituras relacionadas

Ainda não há comentários.