A chegada da Software Factory e da era dos agentes

(factory.strongdm.ai)

13 pontos por GN⁺ 2026-02-08 | 3 comentários | Compartilhar no WhatsApp

A equipe de IA da StrongDM defende o conceito de Software Factory, que cria software de alta qualidade sem sequer olhar o código
Com base em especificações/cenários, os agentes escrevem o código, executam o harness de testes e convergem sem revisão humana em um modo de desenvolvimento não conversacional
O código não deve ser escrito nem revisado por humanos, e é preciso gastar pelo menos US$ 1.000 por dia em tokens por engenheiro para que a software factory funcione de verdade
Desde a segunda revisão do Claude 3.5 (outubro de 2024), os fluxos de trabalho longos de codificação por agentes passaram a acumular correção de forma composta, em vez de acumular erros, confirmando a viabilidade do desenvolvimento não conversacional
Expandindo o conceito tradicional de testes, o time introduz cenário (scenario) e satisfação (satisfaction) para construir um sistema em que o LLM avalia probabilisticamente a satisfação do usuário
Por meio do Digital Twin Universe (DTU), eles clonam os principais SaaS como Okta, Jira e Slack para realizar validação em larga escala, permitindo validar cenários com volume e velocidade acima dos limites de produção
A era dos agentes muda fundamentalmente a economia do software, tornando a construção de réplicas SaaS de alta fidelidade, antes economicamente inviável, uma tarefa rotineira

Conceito de Software Factory

Especificações (specs) e cenários (scenarios) impulsionam os agentes em um sistema de desenvolvimento não conversacional que escreve e valida código
- É proibido que humanos escrevam ou revisem código, e os agentes executam todo o processo de desenvolvimento
- A eficiência é medida com base em mais de US$ 1.000 por dia em uso de tokens por engenheiro
Essa abordagem tem como objetivo construir um ambiente autônomo de produção de software em que o código é gerado, validado e converge automaticamente sem intervenção humana

Formação da equipe de IA da StrongDM

Em 14 de julho de 2025, a equipe de IA da StrongDM foi formada e iniciou experimentos de desenvolvimento não conversacional
- Participantes: Jay Taylor, Navan Chauhan, Justin McCarthy (cofundador e CTO)
No fim de 2024, após o Claude 3.5 (revisão de outubro), a precisão da escrita de código de longo prazo melhorou, tornando possível o acúmulo composto de correção (compounding correctness) em vez do acúmulo repetitivo de erros
O modo YOLO do Cursor mostrou com clareza a capacidade do modelo para escrita de código de longo prazo
Em modelos anteriores, ao aplicar repetidamente LLMs a tarefas de codificação, acumulavam-se todos os tipos de erros — mal-entendidos, alucinações, erros de sintaxe, violações de DRY entre versões, incompatibilidades de biblioteca — e o app “desmoronava”
A combinação entre o modelo atualizado da Anthropic e o modo YOLO confirmou a primeira possibilidade de desenvolvimento não conversacional ou de software cultivado

Princípio central: tirar as mãos

Na primeira hora do primeiro dia da equipe de IA, foi estabelecida uma carta de princípios, e o mais importante era: “humanos não devem escrever código diretamente”
No início, era uma simples intuição e um experimento: até onde se consegue ir sem escrever absolutamente nenhum código à mão?
No começo, surgiram limitações; o progresso começou depois da adição de testes
Os agentes ficam obcecados com a tarefa imediata e escolhem atalhos: testes escritos de forma estreita podem passar com return true, mas isso não se generaliza para o software realmente desejado
Testes simples não bastam; é preciso expandir para testes de integração, regressão, ponta a ponta e de comportamento

De testes para cenários e satisfação

Um tema recorrente na era dos agentes: é preciso uma nova linguagem; a palavra “teste” é insuficiente e ambígua
Testes armazenados no codebase podem ser reescritos de forma preguiçosa para se ajustar ao código, ou o código pode ser reescrito para passar nos testes de forma trivial
O termo cenário é redefinido para representar uma história de usuário ponta a ponta, armazenada fora do codebase (semelhante a um conjunto de “holdout” no treinamento de modelos), que o LLM consegue entender intuitivamente e validar com flexibilidade
Como o próprio software cultivado inclui componentes agentes, o critério de sucesso deixa de ser um simples valor booleano e passa para uma satisfação probabilística e empírica (satisfaction)
- Satisfação: quantifica a proporção de trajetórias observadas que passaram por todos os cenários e provavelmente satisfariam o usuário

Validação de cenários com o Digital Twin Universe

No regime anterior, usavam-se testes de integração, regressão e automação de UI para decidir “funciona?”
Foram descobertos dois limites das técnicas antes consideradas confiáveis:
- Os testes são rígidos demais: como o código é escrito por agentes e os loops entre LLM e agente são usados como primitiva de design, avaliar sucesso muitas vezes exige um LLM-as-judge
- Os testes são vulneráveis a reward hacking: é preciso uma validação menos suscetível a trapaças por parte do modelo
O Digital Twin Universe (DTU) é a resposta: clones comportamentais dos serviços de terceiros dos quais o software depende
- Construção de gêmeos de Okta, Jira, Slack, Google Docs, Google Drive e Google Sheets, replicando APIs, casos de borda e comportamento observável
- Com o DTU, é possível validar com volume e velocidade muito acima dos limites de produção
- Também é possível testar modos de falha que seriam perigosos ou impossíveis em serviços ao vivo
- Dá para executar milhares de cenários por hora sem atingir rate limits, disparar detecção de abuso ou acumular custos de API

Economia não tradicional

O sucesso com o DTU mostra uma das várias formas pelas quais o momento agentic muda fundamentalmente a economia do software
- Sempre foi possível criar clones de alta fidelidade dos principais aplicativos SaaS, mas isso era economicamente inviável
- Várias gerações de engenheiros queriam uma réplica completa em memória de um CRM para testes, mas nem chegavam a propor isso à gerência (prevendo a recusa)
Quem constrói software factories precisa praticar uma ingenuidade deliberada (deliberate naivete): identificar e remover hábitos, convenções e restrições do Software 1.0
- Com o DTU, aquilo que era inimaginável seis meses atrás agora virou rotina

Leituras seguintes

Principles : nossas crenças sobre desenvolvimento de software com agentes
- O software é cultivado por meio da estrutura seed → validation harness → feedback loop, e tokens funcionam como combustível
- Todo software precisa de uma seed inicial: antes podia ser um PRD ou uma especificação; hoje, algumas frases, screenshots ou um codebase existente também servem
- O validation harness deve ser ponta a ponta e o mais próximo possível do ambiente real (clientes, integrações, economia)
- Fazer feedback da amostra de saída para a entrada em um loop fechado permite autocorreção do sistema e acúmulo composto de correção
- A teoria de validação e feedback é fácil de entender, mas a prática exige engenharia criativa e de ponta: buscar formas de converter todos os obstáculos em representações que o modelo consiga entender
Techniques : padrões recorrentes para aplicar esses princípios
- Digital Twin Universe (DTU)
  - Replica o comportamento externamente observável de dependências críticas de terceiros
  - Valida com volume e velocidade muito acima dos limites de produção
  - Fornece condições de teste determinísticas e reproduzíveis
- Gene Transfusion
  - Atribui exemplos concretos aos agentes para transferir padrões operacionais entre codebases
  - Soluções acompanhadas de boas referências podem ser reproduzidas em novos contextos
- Filesystem
  - Permite que o modelo navegue rapidamente pelo repositório e ajuste seu próprio contexto com leitura/escrita de arquivos
  - Diretórios, índices e estado on-disk funcionam como uma base prática de memória
- Shift Work
  - Separa o trabalho conversacional do trabalho totalmente especificado
  - Quando a intenção está completa (especificação, testes, app existente), o agente pode executar ponta a ponta sem idas e vindas
- Semport
  - Portabilidade automatizada com consciência semântica, executada uma vez ou continuamente
  - Move código entre linguagens ou frameworks preservando a intenção
- Pyramid Summaries
  - Resumos reversíveis em vários níveis de zoom
  - Comprime contexto sem perder a capacidade de expandir novamente para todos os detalhes
Products : ferramentas que usamos todos os dias e que acreditamos que também serão úteis para outras pessoas
- CXDB é um repositório de contexto self-hosted para agentes de IA, com Turn DAG, deduplicação de blobs, tipos dinâmicos e depuração visual
- StrongDM ID é um sistema de identidade para humanos, workloads e agentes de IA, com suporte a autenticação federada e compartilhamento com escopo por caminho
- Attractor é um agente de codificação não conversacional estruturado como grafo de fases, para execução ponta a ponta quando a tarefa está completamente especificada

3 comentários

pencil6962 2026-02-08

Experimentei desenvolvimento orientado por especificações usando múltiplos agentes no desenvolvimento. É verdade que isso reduz bastante o trabalho, mas, por causa das limitações de desempenho dos LLMs, não dá para criar um produto que satisfaça o cliente. A substituição 100% é impossível, e certo nível de trabalho humano ainda é necessário.

xguru 2026-02-08

É um texto até provocativo demais, mas dá para entender até certo ponto... é o tipo de texto que deixa a gente meio estranho.

Lendo este texto e depois o texto abaixo, dá para se identificar ainda mais.
Lamentamos o nosso espírito artesão

GN⁺ 2026-02-08

Comentários do Hacker News

Eu me identifico com o conceito de Digital Twin Universe
Minha base de código também tem muitas integrações com serviços externos, então, se eu bloqueasse as chamadas externas nos testes, quase não daria para validar nada
Por isso, eu criava implementações falsas de cada API, como Okta, Jira, Slack e Google Docs, para testar
Só que eu não replicava a UI, apenas imitava o comportamento da API
A frase “se você não está gastando US$ 1.000 por dia em tokens por engenheiro, ainda há espaço para melhorar” soa irrealista demais
Fico em dúvida se isso é mesmo uma afirmação séria
- Fazendo as contas, isso dá cerca de US$ 250 mil por ano
  Se a IA realmente entregasse essa produtividade, talvez fosse razoável
  Na prática, parece mais algo no nível de dois engenheiros juniores
  No fim, os humanos provavelmente ficariam no papel de liderança, cuidando só de planejamento e validação
  É um otimismo exagerado, mas não chega a ser completamente absurdo
- Eu só uso as assinaturas de US$ 20 por mês do Claude e da OpenAI
  Quando os tokens acabam, vou caminhar ou ler um livro
  Não sou aceleracionista, mas ainda assim trabalho o suficiente
- Eu sou uma das pessoas do time da StrongDM
  O ponto principal é que gastar US$ 1.000 por dia em tokens é fácil, mas usar isso de forma produtiva é difícil
- Isso parece simples ostentação
  Como se estivessem sinalizando: “estamos muito mais avançados em IA do que vocês”
- Senti um certo constrangimento ao ler o texto
  Deu a impressão de que estavam embalando mocks e testes de simulação já conhecidos como se fossem uma “inovação”
  Ainda assim, reconheço que eles foram honestos ao expor a estrutura de custos
Eu estava procurando código ou produto de verdade no site deles
A única coisa que encontrei foi strongdm/attractor
“namorada canadense que codifica” agora virou modelo de negócio
Além disso, achei strongdm/cxdb, mas o histórico de commits parecia ter sido limpo
- Há código real no repositório cxdb
- Não sei se isso é loucura ou um vislumbre do futuro
- Na página Products também há um banco de dados e um sistema de identidade
  Para vários agentes colaborarem, contexto compartilhado e um sistema de permissões são indispensáveis
- Assisti a um webinar sobre o BAML da BoundaryML
  Spec-driven development é uma abordagem para criar fluxos de trabalho estruturados com humanos dentro do loop
  Ela define claramente o loop /research → /plan → /implement e faz passar por validação humana em cada etapa
  É a filosofia oposta à afirmação da StrongDM de que “humanos não escrevem nem leem código”
- Isso parece mais um post vazio de blog
  Não há resultado concreto, e essa conversa de US$ 1.000 por dia em tokens parece voltada a impressionar investidores
Se não resolverem o problema da validação, tudo isso não passa de pose
Mesmo com revisão automática e guardrails, no fim das contas quem vai confirmar a correspondência entre especificação e resultado é um humano
- Nós, na Speedscale, estamos automatizando validação com captura e reprodução de tráfego
- Na verdade, desenvolvimento humano também não é perfeito
  Já existem vários procedimentos sistemáticos de validação, como code review, testes e QA
  O importante não é se a IA é perfeita, mas sim se a qualidade do sistema como um todo converge
  Pela minha experiência, no Opus 4.5 há um pequeno efeito líquido positivo
- Eu praticamente concordo
  O ponto central é validação, não geração
  Estou criando uma estrutura em que vários agentes independentes expõem divergências e chegam a consenso
- Em termos simples, isso equivale a empurrar a validação e os testes de segurança para o usuário final
- Precisamos usar mais linguagens baseadas em especificação e verificação formal
  No fim, programação será redefinida como “o ato de concretizar uma especificação”
Com US$ 1.000 por dia em tokens, você acaba gastando mais com IA do que com humanos
Isso parece um ponto de colapso da visão de IA
- Disseram que Simon Willison atualizou o texto
- US$ 240 mil por ano é nível de engenheiro iniciante em FANG
  Sinceramente, há muito júnior pior que o Claude
  No fim, isso deve se reorganizar numa estrutura em pirâmide com poucos humanos no topo
- Se der para terminar o mesmo trabalho em 5 dias, então o custo em relação à velocidade pode ser razoável
- Se a produção crescer proporcionalmente, a eficiência custo-benefício pode até fazer sentido
  Além disso, o preço dos tokens pode cair
O setor jurídico e o de seguros devem ser os que mais sofrerão com essa mudança
Erros humanos são modeláveis, mas erros em cascata de loops autônomos são um problema completamente diferente
- Acho que o setor de seguros vai simplificar a questão
  No fim, as decisões da IA vão recair sob responsabilidade humana
  Isso provavelmente será o freio de toda a mudança agentic
US$ 1.000 por dia em tokens é uma métrica absurda
Se a qualidade do código for ruim, o consumo de tokens explode
No fim, é a base de código desorganizada que aumenta os custos
Se um time está queimando mil dólares por dia, provavelmente a eficiência é quase nula
(Referência: este meme)
- É uma questão de otimização de curto vs. longo prazo
  A escolha é entre aumentar a eficiência agora ou melhorar o sistema como um todo
- Talvez só agora a diretoria perceba a importância do refactoring
O time do padrão Dark Factory que mencionei antes era justamente este
Escrevi um texto relacionado e esse time é o grupo de experimentadores mais ambicioso
- Mas, na prática, quase não há resultados
  Se você desse US$ 10 mil para alguns universitários, provavelmente fariam algo melhor
- US$ 1.000 por dia em tokens é algo que o orçamento do meu time nem sonha em permitir
  Pessoalmente, também é impossível por causa do custo de vida
  No fim, dá a sensação de “se fizer, dá ruim; se não fizer, também dá ruim”
- Sem resultados verificáveis, é só discurso
  E agora até discurso ficou muito mais barato graças aos LLMs
- É preciso haver divulgação ética
  A terminologia do site só repagina conceitos já existentes
  “Digital Twin Universe” são mocks, “Gene Transfusion” é ler código de referência, e “Semport” é transpiling
  Não existe dado nem benchmark de verdade
  É um caso de marketing de IA embalado como insight de engenharia
- Na verdade, a maior parte do código central já está no GitHub
  O verdadeiro diferencial está no desenho dos mecanismos e nos valores
  O futuro vai caminhar para a combinação de métodos formais com IA
O método de “testar cenários mantendo um holdout set” é interessante
É uma forma de imitar os testes agressivos da equipe de QA
É marcante separar o time de build do time de detecção de bugs e criar uma estrutura de competição mútua
Mas US$ 1.000 por dia em tokens é desanimador para desenvolvedores open source
- Dá para reduzir custos usando modelos locais
  Como nesta thread, automação de agentes locais também é perfeitamente viável
- Talvez um dia os agentes comecem até a subornar uns aos outros
- Eu ainda prefiro um modelo com humanos dentro do loop
  Sair queimando tokens sem critério é desperdício
No texto “LLMs aren’t tools”, explorei o framework mental para usar LLMs
A “fábrica de software” é o ponto final atual, mas a próxima etapa é ver o LLM como uma aplicação
Ou seja, não só automatizar workflows, mas criar um harness personalizado