Engenharia probabilística e o funcionário 24/7

(timdavis.com)

2 pontos por GN⁺ 1 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

O desenvolvimento de software está passando silenciosamente de sistemas determinísticos para sistemas probabilísticos, e na era em que agentes de IA geram, revisam e fazem merge de código durante toda a noite, o papel dos desenvolvedores e a estrutura das organizações estão mudando de forma fundamental
Dentro de equipes nativas de IA, ao mesmo tempo em que os papéis sobem de nível, também ocorre uma fragmentação para baixo, com o risco de que tarefas simples de gerenciar a saída dos agentes se consolidem como novas funções de baixa remuneração
À medida que o custo de geração de código converge para zero, como no paradoxo de Jevons a quantidade de código explode, mas a assimetria central é que gerar ficou barato, enquanto validar não ficou
Engenheiros júnior já estão começando a depender da IA para produzir código polido desde o início, tornando real a crise de treinamento em depuração, julgamento e ofício
Como o modelo atual é o mais fraco entre os modelos que serão usados no futuro, as organizações precisam construir sistemas voltados não para a capacidade de hoje, mas para modelos futuros que ainda nem foram lançados

A transição para a engenharia probabilística

A indústria de software foi construída por décadas sobre um contrato determinístico — você escrevia, testava e lançava código com a garantia de que ele funcionaria
Esse contrato está se rompendo, e entre os operadores mais avançados de empresas nativas de IA, o codebase está virando algo que se acredita que funciona, sem que se consiga mais declarar probabilidades exatas
O gatilho para essa percepção foi a experiência de construir um projeto paralelo chamado Compound Loop — um sistema que coloca vários modelos de fronteira uns contra os outros para escrever, revisar e fazer merge de código de forma autônoma
- Ao rodar o sistema em problemas reais antes de dormir, pela manhã a rotina vira fazer triagem de uma pilha de PRs que não existia na noite anterior
- Alguns são excelentes, alguns têm erros, e alguns trazem à tona perguntas que ninguém havia feito
Pela primeira vez na história do trabalho intelectual, quem sai do expediente não leva consigo a única cópia do cérebro
O conceito de 9-9-6 está, na prática, morto; um funcionário 24/7 não é alguém que trabalha 24 horas por dia, mas alguém cujos agentes trabalham em grande paralelismo
Em 2026, a maioria das equipes ainda terá gargalos não na digitação, mas na coordenação, e a reorganização das estruturas ainda está só no começo

A fragmentação dos papéis — ascensão e descida ao mesmo tempo

Dentro de equipes nativas de IA, existe um padrão muito mais complexo do que a narrativa limpa de que “todo mundo sobe de nível”
Movimento para cima: os melhores engenheiros viram PMs mais eficazes, os melhores PMs se tornam arquitetos de sistemas, e os melhores arquitetos passam a pensar em distribuição, crescimento e estrutura de mercado
- Para esse grupo, é o ambiente de trabalho com maior alavancagem da história
Fragmentação para baixo: ao mesmo tempo, muitos engenheiros não estão virando arquitetos, mas se tornando redatores de especificação, revisores e babás de agentes
- São pessoas que traduzem intenção em prompts legíveis por máquina e avaliam o trabalho da máquina com base em critérios que elas mesmas não dominam por completo
- Parte disso é trabalho importante, mas parte é apenas a versão 2026 de entrada de dados, embalada em nova terminologia
A tendência é que esses papéis fragmentados tenham salários mais baixos, menor valorização e, em muitos casos, se tornem becos sem saída de carreira
A diferença salarial entre o terço superior que consegue operar frotas de agentes com eficiência e a camada intermediária que apenas administra saídas tende a ser maior do que o fosso salarial entre engenheiros e vendedores na era anterior
Em infraestrutura de IA, desempenho de kernel, design de compiladores e abstração de hardware ainda permanecem como fossos defensáveis — no nível mais baixo da engenharia de sistemas, continua sendo necessária alta precisão determinística

O paradoxo de Jevons — versão código

Em 1865, o economista William Stanley Jevons observou que máquinas a vapor mais eficientes não reduziram o consumo de carvão — na verdade, aumentaram esse consumo, porque a eficiência ampliou o conjunto de coisas para as quais valia a pena construir motores
O mesmo está acontecendo com software à medida que o custo unitário de escrever código converge para zero — em vez de escrever menos, estamos escrevendo muito mais e lançando muito mais
Empresas que acreditam que as leis de escala são ilimitadas estão se estruturando em torno disso, e elas tendem a ser as vencedoras de uma distribuição em lei de potência
Fenômenos que já estão acontecendo na prática:
- Agentes abrem PRs, revisam o trabalho uns dos outros e os fecham sem que um humano toque no teclado
- Suites de teste autocurativas se reescrevem quando o código-base muda
- Loops autônomos de experimentação executam, medem e desmontam 100 hipóteses enquanto uma equipe, no passado, rodaria 3
- A documentação se atualiza automaticamente no merge, usando habilidades de IA que se autoaperfeiçoam
Equipes reestruturadas em torno de agentes já alcançam 3x, 5x, 10x de output em relação a um ano atrás, e a curva não está se achatando — está subindo
A segunda lição de Jevons: quando a oferta explode, seleção passa a ser o centro de tudo
- Operadores que orientam a frota de agentes para os problemas certos, filtram o que tem valor na saída e integram os resultados em algo coerente estão realizando hoje o trabalho de maior alavancagem em software
- O valor do trabalho já não é definido pelo esforço de produção, mas por direção, seleção e coerência

Da engenharia determinística para a engenharia probabilística

A engenharia determinística foi o contrato que dominou a maior parte da história do software — se você escrevia, testava e revisava o código, conseguia compreender seu comportamento dentro de um intervalo bem entendido, e bugs eram reproduzíveis
A engenharia probabilística já chegou às equipes de fronteira — a maior parte do codebase é gerada por sistemas probabilísticos, revisada sob pressão de tempo e integrada a um todo que nenhum humano projetou sozinho
A assimetria central: gerar ficou barato, mas validar não ficou
- Um agente pode gerar um PR de 500 linhas em menos de 1 minuto, mas capturar bugs sutis como problemas de concorrência, interpretação errada da especificação ou implementações divergentes da intenção ainda pode exigir mais de 1 hora de um engenheiro sênior
- A revisão escala mais devagar do que a geração e escala pior do que linearmente em relação ao volume de output — quanto mais do codebase é escrito por agentes, maior o contexto necessário para avaliar cada parte
Depois de certo tamanho, o sistema produz mais do que os humanos conseguem avaliar com confiança, e a exatidão se torna probabilística
Exemplos concretos: uma condição de corrida que passa na suíte de testes 9 vezes em 10; uma funcionalidade perfeita em staging, mas que falha sob uma distribuição de prompts não prevista; uma migração que corrompe silenciosamente 1 linha em 10 mil e só é descoberta 3 semanas depois
Proximal e Modular publicaram uma pesquisa conjunta sobre testes de tarefas básicas em sistemas agentes de fronteira, e os padrões de falha documentados correspondem diretamente a esse fenômeno
O modo de falha não é um colapso dramático, mas uma degradação lenta e silenciosa — mais geração, menos qualidade de revisão, acúmulo de defeitos discretos e uma erosão silenciosa da confiança até que clientes, auditorias ou incidentes em produção revelem o problema
Ainda não existem ferramentas capazes de resolver isso de forma adequada — respostas culturais como merges pequenos, gates rígidos, ceticismo implacável diante de outputs polidos, observabilidade e disciplina de rollback ajudam, mas cultura não escala além de certo tamanho de equipe
Quem resolver esse problema definirá o sistema operacional do desenvolvimento sério de software da próxima década

Diferenças na velocidade da transição por setor

A transição da engenharia determinística para a probabilística não é uniforme, e se organiza em camadas de acordo com setor e perfil de risco
Camada determinística
- Domínios altamente regulados e de alto risco, como aviônica, dispositivos médicos, infraestrutura de negociação financeira, sistemas de controle nuclear e o núcleo de redes de pagamento
- Adoção cuidadosa do suporte por agentes, por trás de verificação formal, simulações extensas e cadeias de assinatura humana
- Isso não é falta de imaginação, mas julgamento correto sobre o nível de risco
Camada probabilística
- Software de consumo, ferramentas internas, sistemas de marketing, a maior parte do SaaS, infraestrutura de conteúdo e produtos experimentais ou em estágio inicial
- O custo do bug é um rollback, um pedido de desculpas ou um hotfix, e em troca se ganha uma velocidade de iteração que o mundo determinístico não consegue acompanhar estruturalmente
- Equipes probabilísticas conseguem aprender 10x mais por trimestre do que concorrentes determinísticos
Zona de convergência (Convergence Zone)
- À medida que os modelos ficam mais inteligentes e os harnesses melhoram, a fronteira do que é “seguro o suficiente para ser feito probabilisticamente” continua avançando
- Métodos probabilísticos já penetram 10% de cada vez por baixo em domínios que hoje ainda parecem determinísticos, como partes de seguros, saúde e infraestrutura corporativa
- Líderes em engenharia probabilística estão reconstruindo guardrails determinísticos — checagens formais, caminhos críticos verificados e sistemas híbridos nos quais a geração probabilística é cercada por validação determinística
Os vencedores da próxima década serão as equipes que sabem em qual camada estão, resistem à tentação de fingir que pertencem a outra e definem com precisão os limites dentro do próprio stack

A frota de agentes (Agentic Fleet)

“Turno de fábrica” não é a metáfora adequada — trabalhadores de fábrica eram o sistema que estava sendo automatizado, e não é isso que temos agora
A metáfora correta é uma frota de agentes — embora a ordem, a hierarquia e a confiabilidade implícitas em “frota” ainda estejam acima do que a realidade oferece
- Na prática, o que a maioria dos operadores executa se parece mais com uma multidão frágil de contratados do que com uma marinha bem treinada
- Os agentes têm capacidades desiguais, comportamento probabilístico, às vezes estão confiantemente errados e custam caro quando executados em escala
- A camada de orquestração quebra, janelas de contexto explodem e o custo de inferência aparece em faturas que ninguém gosta de mostrar ao conselho
Ainda assim, o conceito de frota é válido: composição (agentes diferentes para tarefas diferentes), coordenação (handoffs, dependências, escalonamento), cadeia de comando (decisão da missão, regras de engajamento, revisão de resultados) e trabalho em turnos (o comandante dorme enquanto o trabalho continua dentro da faixa de instruções e chega um relatório pela manhã)
O que define uma boa frota não é volume de produção, mas a consistência do que ela produz
Novo formato de trabalho:
- Pela manhã, triagem e merge
- No meio do dia, trabalho humano de alta alavancagem — conversas com clientes, estratégia, decisões de produto e redação de especificações que vão orientar a execução noturna
- À tarde, revisão e redirecionamento quando os primeiros agentes começam a voltar
- No fim do dia, algo que a geração anterior não fazia — handoff — colocar trabalho na fila e passar à frota de agentes as especificações das tentativas noturnas; algumas vão errar, algumas vão brilhar, e só humanos conseguem julgar a diferença

Construir para modelos que ainda não foram lançados

Um ponto enfatizado de forma consistente nos últimos anos: o modelo que você usa hoje é o mais burro entre os modelos que usará no futuro
Isso não significa que o crescimento de capacidade será suave — custo, latência, confiabilidade e limites de escala podem tornar a curva mais complexa
Ainda assim, a aposta direcional é bem sustentada pelo que se observa na camada de infraestrutura: as capacidades de fronteira nos próximos 6 a 12 meses superarão de forma significativa as de hoje, e a diferença entre o melhor modelo atual e o melhor modelo daqui a 1 ano provavelmente será maior do que a diferença entre o ano passado e este ano
Implicação estratégica: as organizações precisam construir capacidade não para os modelos atuais, mas para os modelos que ainda não têm
- Saber escrever especificações, cultivar cultura de revisão, instrumentar observabilidade, operar frotas de agentes e manter rituais de treinamento que preservem a habilidade dos juniores — tudo isso é scaffolding não para as capacidades de 2026, mas para 2027–2028
Empresas que constroem esse scaffolding agora absorverão o próximo salto de capacidade como alavancagem; empresas que esperarem as ferramentas amadurecerem gastarão o primeiro ano aprendendo o que os pioneiros já sabem
É preciso disposição para investir em excesso em especificação, revisão e disciplina operacional em relação ao que os modelos atuais exigem
A irrelevância nesta era não se anuncia sozinha — ela chega como uma incapacidade gradual de acompanhar equipes que, um ano antes, nem pareciam claramente melhores

Músculos que serão perdidos

Quer a IA estratifique a sociedade de forma decisiva, quer em grande parte a democratize, os humanos são excelentes em otimizar o caminho de menor resistência
A tese central: se você não constrói algo diretamente, também perde a capacidade de avaliar o que foi construído
Isso já está acontecendo: engenheiros júnior que dependem de IA desde a primeira semana lançam rápido e produzem código polido, mas quando o modelo falha de um jeito imprevisto não conseguem encontrar o bug — porque não desenvolveram o modelo mental interno do sistema que só se forma ao brigar pela centésima vez com um stack trace às 2 da manhã
Taste não se aprende clicando em aprovar um rascunho polido; judgment não se desenvolve ao aceitar em 5 segundos uma resposta plausível da máquina em vez de passar uma tarde inteira com um problema difícil; craft não se adquire revisando o trabalho de outro agente
Esta é a crise de treinamento que a maioria das organizações ainda não percebeu
- O modelo de aprendizado por apprenticeship da engenharia de software (juniores lançam coisas pequenas → sêniors revisam → juniores absorvem taste pela tinta vermelha) está colapsando — juniores lançam por meio de agentes, e sêniors passam a revisar saídas de agentes, não saídas humanas
- De onde virá o ofício da próxima geração? Como treinar taste sem repetição? Como substituir mentoria sobre algo que o mentorado nem chegou a escrever do zero?
Em muitas organizações tradicionais, a geração atual de engenheiros sênior é a última coorte totalmente treinada pelos métodos antigos
A resposta equilibrada: de forma intencional e regular, fazer diretamente, sem frota, alguma coisa importante do jeito difícil — a maioria dos colegas não vai manter esse músculo, e daqui a 10 anos isso pode fazer diferença

A parte inquietante

Este ensaio deliberadamente não termina em otimismo — fingir que a mudança não virá não impede sua chegada
O trabalho já mudou para sempre, e de forma evolutiva e gradual, na velocidade da IA
Os humanos vão recuperar o dia para o trabalho em que são realmente necessários, e as máquinas vão recuperar a noite para o trabalho que sempre foi, na prática, mão de obra simples
Cenários plausíveis para os próximos anos:
- Uma camada de trabalhadores exaustos pela carga de revisão
- Uma camada de papéis fragmentados que o sistema exige, mas não recompensa
- Uma geração de juniores incapaz de desenvolver o ofício que os sêniors de hoje usam para julgar
- Equipes que confundem volume de output com qualidade do trabalho e só percebem a diferença quando os incidentes acontecem
- Um fosso cada vez maior entre organizações que construíram músculos operacionais para o próximo modelo e as que não construíram
A mensagem central: construa uma organização para os modelos que você ainda não tem, às vezes faça você mesmo as coisas difíceis para lembrar como se faz, despache sua frota noturna e durma bem sabendo que o trabalho está andando — mas continue alerta para a possibilidade de que parte do que volta esteja errado de formas que você já não foi treinado para enxergar
O funcionário 24/7 não é uma promessa, mas uma realocação e uma aposta no futuro da engenharia probabilística — uma aposta de que o humano dentro do loop continuará afiado, honesto e bem treinado o bastante para merecer estar no loop, e de que a organização ao redor desse humano será construída não para os modelos de hoje, mas para modelos que ainda não foram lançados

Engenharia probabilística e o funcionário 24/7

A transição para a engenharia probabilística

A fragmentação dos papéis — ascensão e descida ao mesmo tempo

O paradoxo de Jevons — versão código

Da engenharia determinística para a engenharia probabilística

Diferenças na velocidade da transição por setor

Camada determinística

Camada probabilística

Zona de convergência (Convergence Zone)

A frota de agentes (Agentic Fleet)

Construir para modelos que ainda não foram lançados

Músculos que serão perdidos

A parte inquietante

Leituras relacionadas

Ainda não há comentários.