A combinação de mão de obra terceirizada + LocalAI em breve será mais econômica do que os frontier labs
(signalbloom.ai)- Enquanto os preços de API dos frontier labs dos EUA continuam subindo, a combinação de engenheiros de países de baixo custo com modelos open source como o DeepSeek está emergindo como uma alternativa econômica
- Modelos frontier mais recentes, como GPT-5.5, Gemini 3.5 Flash e Opus-4.7, promoveram aumentos de preço de 2 a 3 vezes ou elevaram o consumo de tokens
- Na comparação por tokens blended, Anthropic e OpenAI ficam em cerca de $2.80/M, enquanto o DeepSeek fica em $0.094/M, uma diferença de preço de cerca de 30 vezes
- Embora os modelos frontier sejam mais poderosos, para uso em programação os modelos OSS já são bons o suficiente, e a combinação com engenheiros competentes pode compensar a diferença
- Uma razão pela qual os aumentos de preço não podem continuar indefinidamente é que a combinação de terceirização + LocalAI atua como teto de preços
Tendência de alta nos custos de inferência dos frontier labs
- Ao contrário da noção comum de que os custos de inferência estão caindo, os preços dos frontier labs dos EUA mostram uma tendência clara de alta
- O GPT-5.5 ($5/$30) foi lançado apenas 2 meses após o GPT-5.4, com dobro de preço em toda a API
- Em comparação com o GPT-5 de 8 meses atrás ($1.25/$10), ficou mais de 3 vezes mais caro
- O Gemini 3.5 Flash ($1.50/$9.00) teve alta de 3 vezes em relação ao modelo anterior Gemini-3-flash-preview ($0.50/$3.00)
- O próprio Gemini-3-flash-preview já havia subido em relação ao 2.5 Flash ($0.30/$2.50)
- O Anthropic Opus-4.7, com a adoção de um novo tokenizador, teve aumento de 32% a 47% no consumo de tokens, elevando o custo real frente ao Opus-4.6
Comparação entre modelos frontier fechados e modelos open source
- Comparação com base na proporção de consumo de tokens blended: assume-se saída de 50k tokens para cada 1M tokens de entrada (+cache), cerca de menos de 5%
- Como loops de agentes em larga escala têm muitos turnos e peso maior de leitura, trata-se de uma estimativa conservadora
- Comparação do preço blended médio por provedor, após considerar cache (fonte: openrouter.ai)
-
Comparação de preços por provedor
- Anthropic: entrada $1.57 / saída $25.00 / taxa de acerto de cache 79.6% → blended $2.82
- OpenAI: entrada $1.30 / saída $30.22 / taxa de acerto de cache 84.8% → blended $2.80
- DeepSeek: entrada $0.055 / saída $0.870 / taxa de acerto de cache 88.1% → blended $0.094
- Hoje os modelos frontier fechados ainda são mais fortes que os modelos mais recentes da DeepSeek, mas é questionável se a diferença justifica uma distância de preço de 30 vezes
- Um OSS LLM não precisa atingir nível frontier; basta ter desempenho suficientemente bom para programação, e isso já foi alcançado
Tendência de aumento no consumo de tokens
- A tendência de tokenmaxxing acelerou nos últimos meses e anos (ver blog Pragmatic Engineer)
- Há consenso entre engenheiros competentes de que tomar tokenmaxxing como objetivo é algo tolo, embora esse seja outro tema
- O forte aumento no consumo de tokens também pode ser observado pela escassez persistente de GPUs
- O aumento do consumo de tokens e a alta do preço por token avançam ao mesmo tempo, ligados à estratégia de captura de valor dos frontier labs dos EUA
(Humano + LLM quase-frontier) vs frontier LLM
- Existe uma análise separada que compara engenheiros humanos e agentes de IA em 12 eixos (signalbloom.ai)
- Conclusão: agentes de IA já superaram humanos em programação e devem superá-los em breve também em depuração de escopo limitado
- Porém, em outras capacidades essenciais para boa engenharia, a IA ainda fica atrás
- Memória de longo prazo (long-term memory)
- Metamemória (Meta memory): capacidade de distinguir com clareza o que sabe e o que não sabe
- Avaliação de suficiência evidencial (Evidential Sufficiency Assessment): julgar se há evidência suficiente para agir
- A arquitetura estatística atual ainda precisa ser reforçada ou substituída por outro tipo de avanço
- Capacidade de executar tarefas e autonomia de IA não são a mesma coisa
Cenário de ponto de cruzamento de custos
-
Comparação central
- Análise do momento em que a combinação de engenheiro de país de baixo custo + modelo suficientemente capaz passa a ter melhor custo-benefício do que o melhor modelo frontier
- Variáveis: salário do engenheiro, taxa de crescimento salarial, volume inicial de tokens, taxa de crescimento de tokens, preço frontier, taxa de variação do preço frontier, preço do DeepSeek, período
-
Resultado
- O cruzamento ocorre no mês 11, quando o custo de inferência frontier supera o custo da combinação engenheiro + DeepSeek ($1,116.61/mês)
Opiniões e limitações
- O gráfico contém suposições simplificadoras
- Variáveis como preços futuros de inferência e tendências de consumo de tokens
- Reflexividade (reflexivity): participantes do mercado mudam de comportamento com base no que observam
- Os fatores abaixo não foram considerados e, se incluídos, tenderiam a favorecer ainda mais os modelos locais
- A rápida melhora de desempenho dos modelos locais
- Hardware adicional de inferência que será incorporado nos próximos meses e anos
- Argumento central: o aumento do custo de IA, acima de certo nível, se torna uma queima de caixa preocupante para empresas e passa a ocupar grande parte do gasto total
- Como consequência, forma-se um limite para a magnitude e a velocidade dos aumentos de preço dos frontier labs
1 comentários
Comentários do Hacker News
Ao discutir preços de LLM, estão perdendo o ponto principal. O preço por token nos planos de assinatura é 10 a 40 vezes mais barato que o preço da API, então uma assinatura Claude de US$ 90/mês equivale a quase US$ 1000 a US$ 4000 em preços de token da API
Em segundo lugar, a habilidade do “operador” que lida com o modelo faz uma diferença enorme no resultado. Um desenvolvedor sênior experiente, que escreve bons prompts e tem alta proatividade, produz resultados muito melhores do que um membro da equipe com pouca motivação e base fraca
Por fim, há uma grande diferença em capacidade, determinismo e tratamento de erros entre um modelo de ponta de classe 5T como o Opus e os pequenos modelos destilados da DeepSeek que só parecem bons em benchmarks
Então a estrutura é tal que grandes empresas pagam muito mais do que em um plano de assinatura com desconto
E acho que você está enganado ao dizer que os modelos locais são “destilados da DeepSeek”. Não é como se os modelos locais só fossem bem em benchmarks, e o Qwen 3.6 é um modelo bem decente. Claro que não é o Opus, mas é muito mais rápido, e velocidade em si também é uma forma de qualidade
Essas empresas estão tendo prejuízos enormes e carregam dívidas e compromissos na casa de centenas de bilhões de dólares. Em breve, vão precisar abrir a torneira da monetização
Isso parece não enxergar o quadro geral. Trabalhar com o ChatGPT é assustadoramente parecido com trabalhar com desenvolvedores offshore indianos na antiga era enterprise. Se você orientar explicitamente, eles são produtivos, mas, se deixá-los por conta própria, surgem muitos momentos de WTF
Os LLMs têm grande chance de substituir desenvolvedores terceirizados, porque funcionários internos que conhecem o contexto podem usar LLMs para fazer o trabalho que antes era feito por desenvolvedores offshore
As empresas sempre tentam reduzir o custo marginal. Vão contratar 1 arquiteto de software nos EUA para escrever as especificações e 10 desenvolvedores na Índia para supervisionar 100 agentes
Ao contrário de desenvolvedores remotos, o problema do outsourcing é que, para fazer funcionar direito, você precisa de um gestor e de um líder técnico realmente excelentes
Pela minha experiência, para obter resultados eficazes é preciso escrever documentos de arquitetura e especificações de trabalho extremamente detalhados. Normalmente, precisam ser tão detalhados quanto um prompt eficaz
Se você já escreveu uma especificação tão detalhada assim, então por que precisa de desenvolvedores terceirizados e de um modelo de ponta?
Empresas com líderes fortes de produto/projeto, supervisionando tudo de forma minuciosa, talvez consigam formar uma nova geração de desenvolvedores, mas algumas vão acreditar no discurso de vendas e fracassar quando o software se tornar impossível de manter
Acho que daqui a 10 anos o número de desenvolvedores ainda será parecido com o de hoje, e estaremos criando mais produtos. A IA será usada para automatizar áreas isoladas e significativas, mas a maior parte do desenvolvimento de software acontecerá em um nível mais alto de abstração, expressando os mesmos conceitos com menos lixo textual
O núcleo do código vai se concentrar mais em codificar e expor, de forma concreta, a complexidade de casos de borda estranhos
Quando comecei no desenvolvimento de software, trabalhei em um MUD extremamente bagunçado, mexido por várias pessoas ao longo do tempo. É difícil imaginar quem teria disposição de cavar um monte de lama e código espaguete gerado por IA sem supervisão e correções rigorosas
O cerne do desenvolvimento de software sempre foi resolver problemas, ou mais precisamente, identificar problemas. Com o tempo, fomos removendo cada vez mais as distrações para focar nisso. Essa tendência vai continuar, evoluindo para linguagens mais concisas e abstratas para especificar problemas, enquanto fluxos lógicos complicados, partes de drivers e matemática ficarão mais isolados em bibliotecas e ferramentas
Mesmo que os engenheiros sejam colaborativos, os gestores ou donos do negócio evitam colaboração próxima e impõem um modo de trabalho distante. Por exemplo, uma ligação por semana
Já passei por isso. Uma vez gastamos £300k com uma equipe terceirizada de desenvolvimento; felizmente o dinheiro não era meu, e no fim não recebemos nada. A maior parte do tempo foi gasta simplesmente alinhando a direção do trabalho
Eu e meu sócio até sabíamos mais ou menos o que queríamos e tentamos sincronizar com mais frequência para alinhar o esforço, mas os gestores do outro lado continuavam bloqueando isso. Esse é o modelo de negócio de consultoria
Com funcionários remotos em tempo integral, os incentivos são o oposto. São literalmente funcionários full-time, não há uma camada gerencial atrapalhando a comunicação e, a menos que sejam preguiçosos ou golpistas, vão querer resolver problemas interessantes em vez de ficar à toa
Acho que é aí que a premissa do texto original falha. A diferença entre o DeepSeek e os modelos de ponta normalmente não é algo que dê para compensar com outsourcing de baixa qualidade. No fim, você acaba pagando por engenheiros terceirizados muito qualificados, e eles podem não sair muito baratos. Afinal, outsourcing acontece não só por custo, mas também por capacidade e disponibilidade
Você precisa especificar tudo até um nível adequado de detalhe, e nesse ponto é bem provável que um LLM também consiga fazer um trabalho razoável. Além disso, muitas equipes terceirizadas constroem de uma forma totalmente diferente da equipe interna, e a diferença de qualidade de entrega e velocidade é absoluta
Como tudo está mudando tão rápido, também me pergunto por que eu deveria gastar meu tempo e dinheiro treinando funcionários de outras pessoas para acompanhar as tendências mais recentes
Tenho um amigo que é executivo de uma empresa americana de software, e ele está se preparando para demitir algumas equipes de programadores de uma filial no Leste Europeu e substituí-las por um pequeno grupo de programadores nos EUA com IA. Segundo ele, isso é muito mais produtivo e cria novos recursos muito mais rápido
Aplicando isso à manufatura, uma estratégia de priorizar robôs não deveria mirar apenas em trazer a produção de volta para o país, mas em algo maior: tornar-se um novo destino de manufatura terceirizada
Então as PMEs talvez não precisem mais manter tantas pessoas internamente em engenharia, finanças e marketing quanto hoje
O futuro da IA de ponta nos EUA não será fazer chamadas de API, mas levar trabalho para OAI/Anthropic como se fossem consultorias ou fornecedores externos e receber algo parecido com um produto, sem ver em grande escala o trabalho intermediário
Isso é inevitável pela combinação da ameaça de destilação com o esforço de desenvolver ambientes de execução proprietários necessários para forçar o desempenho de ponta
OAI/Anthropic vai tentar tomar 100% dos empregos de todo mundo e “possuir” o trabalho. Aqui, o lado chinês é o herói
Mas o que eles não perceberam é que definir o problema é mais difícil do que a própria solução
Tentei de tudo para conseguir usar modelos locais. Testei vários ambientes de execução, ferramentas, habilidades e prompts.
Mas, ao comparar Claude Code e os modelos da Anthropic, ou Codex e GPT 5.5, com ambientes de execução como Qwen, GLM e Gemma, os modelos de ponta ficam esmagadoramente à frente. Neste ponto, já não entendo qual é o sentido de usar modelos que não são de ponta. O tempo desperdiçado é maior do que o tempo economizado
Para programação de escopo restrito, por exemplo escrever uma função específica, dá para usar, embora seja lento. Ainda assim, em hardware avançado de consumo, para chat geral com LLM, eles são competitivos exceto no custo.
https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
Se o custo de inferência cair, como vem acontecendo nos últimos anos, até o fim deste ano será possível rodar em um notebook os modelos de ponta de hoje
Para um engenheiro de software, isso é basicamente mais do que suficiente a ponto de ser difícil usar tudo, e, considerando o ganho de eficiência, é bem barato.
Além disso, se Claude/Codex já funcionam bem e melhoram a cada mês, quem vai querer ficar mexendo em ambiente de execução ou definindo orquestração de agentes?
O cenário mais provável é que a base desapareça, enquanto o topo se torna mais produtivo com modelos de ponta.
Quanto mais fraco for o desenvolvedor, mais necessária é uma IA de alta capacidade. A premissa deste texto não se sustenta porque confunde um desenvolvedor fraco com uma IA fraca como sendo algo melhor do que um desenvolvedor forte com uma IA quase autônoma.
O produto feito por um desenvolvedor fraco usando IA de ponta já é inferior ao de um desenvolvedor competente com uma IA fraca de dois anos atrás.
Dito de forma mais clara: um desenvolvedor forte já conseguia, dois anos atrás, usar IA para criar produtos de alta qualidade. Mesmo com a IA mais recente, desenvolvedores fracos continuam tendo dificuldades, enquanto desenvolvedores fortes podem delegar mais trabalho a IAs mais fortes e elevar ainda mais a produtividade
Organizações de pesadelo com contratados sem supervisão ou juniores contratados em excesso seriam muito mais fatais em tempos como estes
Continuo vendo essa narrativa que usa a DeepSeek como exemplo de LLM open source, mas eles estão subsidiando uma quantidade enorme de tokens a preço de custo. Se você não for preguiçoso e pensar criticamente, é fácil entender por quê.
Especialmente numa situação em que o hardware de inferência é fortemente restringido por riscos geopolíticos, ainda é caro e ineficiente demais usar IA local que chegue perto do nível oferecido pelos modelos de ponta.
Também acho muito duvidosa a afirmação de que LLMs locais possam ameaçar essas empresas de ponta no longo prazo.
Os tokens vão ficar caros porque essas empresas estão começando a dominar o mercado e vão usar essa vantagem para restringir a distribuição de hardware dentro e fora de suas fronteiras.
É bem provável que LLMs locais passem a ser usados mais em alguns fluxos de trabalho, mas não em tarefas que exigem nível de modelo de ponta, e também será difícil bater o preço que versões mais leves e menores dos próprios modelos de ponta vão oferecer para capturar a cauda longa
Minha impressão é que a DeepSeek projetou o v4 especificamente para inferência barata, e parece não estar operando no prejuízo mesmo com um preço 75% menor
Vejo experiência de qualidade e valores pessoais como mais importantes do que o custo de engenharia. Nos últimos anos, vi atalhos demais em trabalhos terceirizados, e a IA também adora atalhos. A combinação dos dois não vale o quanto se economiza em custo.
Se você valoriza trabalho de alta qualidade e orgulho pelo próprio trabalho, mão de obra terceirizada não é a solução. Em geral, ela é barata porque não dedica atenção cuidadosa ao próprio trabalho.
Por outro lado, se você só quer terminar de qualquer jeito e não se importa se ficou bem feito, talvez não exista método melhor do que gastar o mínimo possível
Há um ponto que o texto não aborda. Bons engenheiros não passam, em projetos existentes, a maior parte do tempo só codando em comparação com outras tarefas. Bons engenheiros entendem o sistema de ponta a ponta. Desenvolvedores offshore são piores do que o Llama3