A combinação de mão de obra terceirizada + LocalAI em breve será mais econômica do que os frontier labs

(signalbloom.ai)

14 pontos por GN⁺ 2026-05-28 | 2 comentários | Compartilhar no WhatsApp

Enquanto os preços de API dos frontier labs dos EUA continuam subindo, a combinação de engenheiros de países de baixo custo com modelos open source como o DeepSeek está emergindo como uma alternativa econômica
Modelos frontier mais recentes, como GPT-5.5, Gemini 3.5 Flash e Opus-4.7, promoveram aumentos de preço de 2 a 3 vezes ou elevaram o consumo de tokens
Na comparação por tokens blended, Anthropic e OpenAI ficam em cerca de $2.80/M, enquanto o DeepSeek fica em $0.094/M, uma diferença de preço de cerca de 30 vezes
Embora os modelos frontier sejam mais poderosos, para uso em programação os modelos OSS já são bons o suficiente, e a combinação com engenheiros competentes pode compensar a diferença
Uma razão pela qual os aumentos de preço não podem continuar indefinidamente é que a combinação de terceirização + LocalAI atua como teto de preços

Tendência de alta nos custos de inferência dos frontier labs

Ao contrário da noção comum de que os custos de inferência estão caindo, os preços dos frontier labs dos EUA mostram uma tendência clara de alta
O GPT-5.5 ($5/$30) foi lançado apenas 2 meses após o GPT-5.4, com dobro de preço em toda a API
- Em comparação com o GPT-5 de 8 meses atrás ($1.25/$10), ficou mais de 3 vezes mais caro
O Gemini 3.5 Flash ($1.50/$9.00) teve alta de 3 vezes em relação ao modelo anterior Gemini-3-flash-preview ($0.50/$3.00)
- O próprio Gemini-3-flash-preview já havia subido em relação ao 2.5 Flash ($0.30/$2.50)
O Anthropic Opus-4.7, com a adoção de um novo tokenizador, teve aumento de 32% a 47% no consumo de tokens, elevando o custo real frente ao Opus-4.6

Comparação entre modelos frontier fechados e modelos open source

Comparação com base na proporção de consumo de tokens blended: assume-se saída de 50k tokens para cada 1M tokens de entrada (+cache), cerca de menos de 5%
- Como loops de agentes em larga escala têm muitos turnos e peso maior de leitura, trata-se de uma estimativa conservadora
Comparação do preço blended médio por provedor, após considerar cache (fonte: openrouter.ai)
Comparação de preços por provedor
- Anthropic: entrada $1.57 / saída $25.00 / taxa de acerto de cache 79.6% → blended $2.82
- OpenAI: entrada $1.30 / saída $30.22 / taxa de acerto de cache 84.8% → blended $2.80
- DeepSeek: entrada $0.055 / saída $0.870 / taxa de acerto de cache 88.1% → blended $0.094
Hoje os modelos frontier fechados ainda são mais fortes que os modelos mais recentes da DeepSeek, mas é questionável se a diferença justifica uma distância de preço de 30 vezes
Um OSS LLM não precisa atingir nível frontier; basta ter desempenho suficientemente bom para programação, e isso já foi alcançado

Tendência de aumento no consumo de tokens

A tendência de tokenmaxxing acelerou nos últimos meses e anos (ver blog Pragmatic Engineer)
Há consenso entre engenheiros competentes de que tomar tokenmaxxing como objetivo é algo tolo, embora esse seja outro tema
O forte aumento no consumo de tokens também pode ser observado pela escassez persistente de GPUs
O aumento do consumo de tokens e a alta do preço por token avançam ao mesmo tempo, ligados à estratégia de captura de valor dos frontier labs dos EUA

(Humano + LLM quase-frontier) vs frontier LLM

Existe uma análise separada que compara engenheiros humanos e agentes de IA em 12 eixos (signalbloom.ai)
Conclusão: agentes de IA já superaram humanos em programação e devem superá-los em breve também em depuração de escopo limitado
Porém, em outras capacidades essenciais para boa engenharia, a IA ainda fica atrás
- Memória de longo prazo (long-term memory)
- Metamemória (Meta memory): capacidade de distinguir com clareza o que sabe e o que não sabe
- Avaliação de suficiência evidencial (Evidential Sufficiency Assessment): julgar se há evidência suficiente para agir
A arquitetura estatística atual ainda precisa ser reforçada ou substituída por outro tipo de avanço
Capacidade de executar tarefas e autonomia de IA não são a mesma coisa

Cenário de ponto de cruzamento de custos

Comparação central
- Análise do momento em que a combinação de engenheiro de país de baixo custo + modelo suficientemente capaz passa a ter melhor custo-benefício do que o melhor modelo frontier
- Variáveis: salário do engenheiro, taxa de crescimento salarial, volume inicial de tokens, taxa de crescimento de tokens, preço frontier, taxa de variação do preço frontier, preço do DeepSeek, período
Resultado
- O cruzamento ocorre no mês 11, quando o custo de inferência frontier supera o custo da combinação engenheiro + DeepSeek ($1,116.61/mês)

Opiniões e limitações

O gráfico contém suposições simplificadoras
- Variáveis como preços futuros de inferência e tendências de consumo de tokens
- Reflexividade (reflexivity): participantes do mercado mudam de comportamento com base no que observam
Os fatores abaixo não foram considerados e, se incluídos, tenderiam a favorecer ainda mais os modelos locais
- A rápida melhora de desempenho dos modelos locais
- Hardware adicional de inferência que será incorporado nos próximos meses e anos
Argumento central: o aumento do custo de IA, acima de certo nível, se torna uma queima de caixa preocupante para empresas e passa a ocupar grande parte do gasto total
Como consequência, forma-se um limite para a magnitude e a velocidade dos aumentos de preço dos frontier labs

2 comentários

hmmhmmhm 2026-05-29

Para programação, parece que usar o Qwen 3.6 35B A3B e, para pesquisa, o Gemma 26B A4B entrega um resultado razoável, mas eu queria que saíssem mais equipamentos on-device baratos. Tem que ser pelo menos um Apple M4 Pro ou uma RTX 5070 Ti 16GB para rodar no limite....

GN⁺ 2026-05-28

Comentários do Hacker News

Ao discutir preços de LLM, estão perdendo o ponto principal. O preço por token nos planos de assinatura é 10 a 40 vezes mais barato que o preço da API, então uma assinatura Claude de US$ 90/mês equivale a quase US$ 1000 a US$ 4000 em preços de token da API
Em segundo lugar, a habilidade do “operador” que lida com o modelo faz uma diferença enorme no resultado. Um desenvolvedor sênior experiente, que escreve bons prompts e tem alta proatividade, produz resultados muito melhores do que um membro da equipe com pouca motivação e base fraca
Por fim, há uma grande diferença em capacidade, determinismo e tratamento de erros entre um modelo de ponta de classe 5T como o Opus e os pequenos modelos destilados da DeepSeek que só parecem bons em benchmarks
- Fiquei sabendo hoje que o plano Enterprise da Anthropic, que grandes empresas usam por causa de recursos de governança e logs de auditoria, cobra a tarifa de tokens da API mais US$ 20 por assento por mês
  Então a estrutura é tal que grandes empresas pagam muito mais do que em um plano de assinatura com desconto
- Gostaria de saber qual é a base para dizer que o Opus é um modelo 5T
  E acho que você está enganado ao dizer que os modelos locais são “destilados da DeepSeek”. Não é como se os modelos locais só fossem bem em benchmarks, e o Qwen 3.6 é um modelo bem decente. Claro que não é o Opus, mas é muito mais rápido, e velocidade em si também é uma forma de qualidade
- Os modelos que não são de ponta também continuam melhorando. Se alguém puder fazer 90% do trabalho com DeepSeek por US$ 100 e pagar mais US$ 100 para concluir o restante com Anthropic ou OpenAI, é bem provável que escolha isso em vez de pagar US$ 1000 para Anthropic ou OpenAI
- O fato de o preço por token em assinatura ser 10 a 40 vezes mais barato do que na API é um fenômeno temporário. Nos próximos meses, devemos esperar um grande aumento de preços, limites de uso mais rígidos, ou ambos
  Essas empresas estão tendo prejuízos enormes e carregam dívidas e compromissos na casa de centenas de bilhões de dólares. Em breve, vão precisar abrir a torneira da monetização
- Sabendo que uma assinatura Claude de US$ 90/mês vale de US$ 1000 a US$ 4000 em termos de API, você realmente acha irracional considerar que essa estrutura é insustentável?
Isso parece não enxergar o quadro geral. Trabalhar com o ChatGPT é assustadoramente parecido com trabalhar com desenvolvedores offshore indianos na antiga era enterprise. Se você orientar explicitamente, eles são produtivos, mas, se deixá-los por conta própria, surgem muitos momentos de WTF
Os LLMs têm grande chance de substituir desenvolvedores terceirizados, porque funcionários internos que conhecem o contexto podem usar LLMs para fazer o trabalho que antes era feito por desenvolvedores offshore
- Quantos desses momentos de WTF são simplesmente porque “a pessoa não estava na sala onde aquilo foi decidido”? A maior parte do software enterprise está cheia de momentos de WTF exigidos por um ou outro compromisso
- Existem desenvolvedores talentosos fora do seu país, que dominam bem o idioma e aceitam remuneração mais baixa. Há muitos motivos para que esse número aumente
- Quando você vê a quantidade de equipes de outsourcing implorando por trabalho no LinkedIn, isso certamente bate
- Os “desenvolvedores offshore indianos” também não são presa fácil. Eles também podem ter acesso aos mesmos modelos GPT, e o custo deles pode ser um décimo do salário mediano nos EUA
  As empresas sempre tentam reduzir o custo marginal. Vão contratar 1 arquiteto de software nos EUA para escrever as especificações e 10 desenvolvedores na Índia para supervisionar 100 agentes
Ao contrário de desenvolvedores remotos, o problema do outsourcing é que, para fazer funcionar direito, você precisa de um gestor e de um líder técnico realmente excelentes
Pela minha experiência, para obter resultados eficazes é preciso escrever documentos de arquitetura e especificações de trabalho extremamente detalhados. Normalmente, precisam ser tão detalhados quanto um prompt eficaz
Se você já escreveu uma especificação tão detalhada assim, então por que precisa de desenvolvedores terceirizados e de um modelo de ponta?
- O interessante é que os problemas do outsourcing são os mesmos da IA, e tudo isso lembra os anos 2000. As empresas ficam maravilhadas com quanto dinheiro podem economizar sem perceber o dano causado ao produto
  Empresas com líderes fortes de produto/projeto, supervisionando tudo de forma minuciosa, talvez consigam formar uma nova geração de desenvolvedores, mas algumas vão acreditar no discurso de vendas e fracassar quando o software se tornar impossível de manter
  Acho que daqui a 10 anos o número de desenvolvedores ainda será parecido com o de hoje, e estaremos criando mais produtos. A IA será usada para automatizar áreas isoladas e significativas, mas a maior parte do desenvolvimento de software acontecerá em um nível mais alto de abstração, expressando os mesmos conceitos com menos lixo textual
  O núcleo do código vai se concentrar mais em codificar e expor, de forma concreta, a complexidade de casos de borda estranhos
  Quando comecei no desenvolvimento de software, trabalhei em um MUD extremamente bagunçado, mexido por várias pessoas ao longo do tempo. É difícil imaginar quem teria disposição de cavar um monte de lama e código espaguete gerado por IA sem supervisão e correções rigorosas
  O cerne do desenvolvimento de software sempre foi resolver problemas, ou mais precisamente, identificar problemas. Com o tempo, fomos removendo cada vez mais as distrações para focar nisso. Essa tendência vai continuar, evoluindo para linguagens mais concisas e abstratas para especificar problemas, enquanto fluxos lógicos complicados, partes de drivers e matemática ficarão mais isolados em bibliotecas e ferramentas
- Todo o modelo de negócio de desenvolvedores ou empresas de “outsourcing” é cobrar caro demais das pessoas. Eles dizem “4 engenheiros foram alocados no projeto”, mas esses 4 também estão trabalhando em outros 5 projetos
  Mesmo que os engenheiros sejam colaborativos, os gestores ou donos do negócio evitam colaboração próxima e impõem um modo de trabalho distante. Por exemplo, uma ligação por semana
  Já passei por isso. Uma vez gastamos £300k com uma equipe terceirizada de desenvolvimento; felizmente o dinheiro não era meu, e no fim não recebemos nada. A maior parte do tempo foi gasta simplesmente alinhando a direção do trabalho
  Eu e meu sócio até sabíamos mais ou menos o que queríamos e tentamos sincronizar com mais frequência para alinhar o esforço, mas os gestores do outro lado continuavam bloqueando isso. Esse é o modelo de negócio de consultoria
  Com funcionários remotos em tempo integral, os incentivos são o oposto. São literalmente funcionários full-time, não há uma camada gerencial atrapalhando a comunicação e, a menos que sejam preguiçosos ou golpistas, vão querer resolver problemas interessantes em vez de ficar à toa
- Em geral, outsourcing entrega exatamente aquilo pelo que você paga. Em certo sentido, é mais transparente do que outras formas. Só que essa transparência — isto é, o preço da qualidade — às vezes não chega da gerência ou da área de compras, que toma a decisão, até a equipe que de fato precisa trabalhar de forma distribuída
  Acho que é aí que a premissa do texto original falha. A diferença entre o DeepSeek e os modelos de ponta normalmente não é algo que dê para compensar com outsourcing de baixa qualidade. No fim, você acaba pagando por engenheiros terceirizados muito qualificados, e eles podem não sair muito baratos. Afinal, outsourcing acontece não só por custo, mas também por capacidade e disponibilidade
- Também penso exatamente assim
  Você precisa especificar tudo até um nível adequado de detalhe, e nesse ponto é bem provável que um LLM também consiga fazer um trabalho razoável. Além disso, muitas equipes terceirizadas constroem de uma forma totalmente diferente da equipe interna, e a diferença de qualidade de entrega e velocidade é absoluta
  Como tudo está mudando tão rápido, também me pergunto por que eu deveria gastar meu tempo e dinheiro treinando funcionários de outras pessoas para acompanhar as tendências mais recentes
- Meu problema era simplesmente a falta de ownership. A menos que seja uma empresa terceirizada pequena e focada, para a empresa é simplesmente mais fácil entregar qualquer coisa e seguir em frente, independentemente de qualidade ou manutenibilidade. Claro, minha amostra pessoal é pequena
Tenho um amigo que é executivo de uma empresa americana de software, e ele está se preparando para demitir algumas equipes de programadores de uma filial no Leste Europeu e substituí-las por um pequeno grupo de programadores nos EUA com IA. Segundo ele, isso é muito mais produtivo e cria novos recursos muito mais rápido
- Isso parece mais plausível. Meu gargalo está mudando de “entender o código” para entender o usuário. Validar o segundo nem precisa ser trabalho de programador
- É uma inversão interessante
  Aplicando isso à manufatura, uma estratégia de priorizar robôs não deveria mirar apenas em trazer a produção de volta para o país, mas em algo maior: tornar-se um novo destino de manufatura terceirizada
- Quanto tempo vai levar até esse cara voltar à realidade e demitir em massa os agentes? :-)
- O texto está certo sobre outsourcing, mas não acho que seja por causa de contratados offshore baratos. Bons especialistas vão trabalhar de forma mais independente e, graças à IA, conseguir atender mais clientes
  Então as PMEs talvez não precisem mais manter tantas pessoas internamente em engenharia, finanças e marketing quanto hoje
O futuro da IA de ponta nos EUA não será fazer chamadas de API, mas levar trabalho para OAI/Anthropic como se fossem consultorias ou fornecedores externos e receber algo parecido com um produto, sem ver em grande escala o trabalho intermediário
Isso é inevitável pela combinação da ameaça de destilação com o esforço de desenvolver ambientes de execução proprietários necessários para forçar o desempenho de ponta
OAI/Anthropic vai tentar tomar 100% dos empregos de todo mundo e “possuir” o trabalho. Aqui, o lado chinês é o herói
- Não. Jogar um projeto por cima do muro quase sempre termina em desastre. Os requisitos nunca ficam claros o suficiente
- Espero que isso funcione bem. Isso lembra a inspiração de linguagens de programação declarativas, como Prolog. A ideia é declarar o problema para que a máquina possa resolvê-lo, em contraste com a forma imperativa de dizer à máquina o que fazer
  Mas o que eles não perceberam é que definir o problema é mais difícil do que a própria solução
Tentei de tudo para conseguir usar modelos locais. Testei vários ambientes de execução, ferramentas, habilidades e prompts.
Mas, ao comparar Claude Code e os modelos da Anthropic, ou Codex e GPT 5.5, com ambientes de execução como Qwen, GLM e Gemma, os modelos de ponta ficam esmagadoramente à frente. Neste ponto, já não entendo qual é o sentido de usar modelos que não são de ponta. O tempo desperdiçado é maior do que o tempo economizado
- Concordo 100% no caso de codificação com agentes. Em programação em grande escala, modelos locais são piores, mais lentos e mais caros.
  Para programação de escopo restrito, por exemplo escrever uma função específica, dá para usar, embora seja lento. Ainda assim, em hardware avançado de consumo, para chat geral com LLM, eles são competitivos exceto no custo.
  https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- Modelos locais estão 3 a 6 meses atrasados em relação aos modelos de ponta mais recentes, mas têm a grande vantagem de não exigir que você envie toda a sua propriedade intelectual para um terceiro suspeito.
  Se o custo de inferência cair, como vem acontecendo nos últimos anos, até o fim deste ano será possível rodar em um notebook os modelos de ponta de hoje
- Também penso assim. Fico frustrado quando vejo gente reclamando de pagar ou ser reembolsado em US$ 200 por mês por um plano do Codex ou do Claude.
  Para um engenheiro de software, isso é basicamente mais do que suficiente a ponto de ser difícil usar tudo, e, considerando o ganho de eficiência, é bem barato.
  Além disso, se Claude/Codex já funcionam bem e melhoram a cada mês, quem vai querer ficar mexendo em ambiente de execução ou definindo orquestração de agentes?
- Cheguei à mesma conclusão. Pensando no custo por consulta, usar sempre o Opus é a opção mais barata
- O ponto principal é não se submeter voluntariamente a empresas cujos interesses não estão alinhados com os seus
O cenário mais provável é que a base desapareça, enquanto o topo se torna mais produtivo com modelos de ponta.
Quanto mais fraco for o desenvolvedor, mais necessária é uma IA de alta capacidade. A premissa deste texto não se sustenta porque confunde um desenvolvedor fraco com uma IA fraca como sendo algo melhor do que um desenvolvedor forte com uma IA quase autônoma.
O produto feito por um desenvolvedor fraco usando IA de ponta já é inferior ao de um desenvolvedor competente com uma IA fraca de dois anos atrás.
Dito de forma mais clara: um desenvolvedor forte já conseguia, dois anos atrás, usar IA para criar produtos de alta qualidade. Mesmo com a IA mais recente, desenvolvedores fracos continuam tendo dificuldades, enquanto desenvolvedores fortes podem delegar mais trabalho a IAs mais fortes e elevar ainda mais a produtividade
- É raro na vida, mas sou realmente grato por estar hoje numa empresa onde trabalho em geral com engenheiros sêniores competentes.
  Organizações de pesadelo com contratados sem supervisão ou juniores contratados em excesso seriam muito mais fatais em tempos como estes
Continuo vendo essa narrativa que usa a DeepSeek como exemplo de LLM open source, mas eles estão subsidiando uma quantidade enorme de tokens a preço de custo. Se você não for preguiçoso e pensar criticamente, é fácil entender por quê.
Especialmente numa situação em que o hardware de inferência é fortemente restringido por riscos geopolíticos, ainda é caro e ineficiente demais usar IA local que chegue perto do nível oferecido pelos modelos de ponta.
Também acho muito duvidosa a afirmação de que LLMs locais possam ameaçar essas empresas de ponta no longo prazo.
Os tokens vão ficar caros porque essas empresas estão começando a dominar o mercado e vão usar essa vantagem para restringir a distribuição de hardware dentro e fora de suas fronteiras.
É bem provável que LLMs locais passem a ser usados mais em alguns fluxos de trabalho, mas não em tarefas que exigem nível de modelo de ponta, e também será difícil bater o preço que versões mais leves e menores dos próprios modelos de ponta vão oferecer para capturar a cauda longa
- Tem alguma fonte para a primeira afirmação?
  Minha impressão é que a DeepSeek projetou o v4 especificamente para inferência barata, e parece não estar operando no prejuízo mesmo com um preço 75% menor
- Como outros provedores no OpenRouter também conseguem oferecer os modelos da DeepSeek a preços muito baixos, dizer que eles subsidiam tokens a preço de custo está completamente errado. Essas empresas nem têm dinheiro para subsidiar
- Acho que não. Pelo que ouvi, a DeepSeek não opera no prejuízo em inferência
Vejo experiência de qualidade e valores pessoais como mais importantes do que o custo de engenharia. Nos últimos anos, vi atalhos demais em trabalhos terceirizados, e a IA também adora atalhos. A combinação dos dois não vale o quanto se economiza em custo.
Se você valoriza trabalho de alta qualidade e orgulho pelo próprio trabalho, mão de obra terceirizada não é a solução. Em geral, ela é barata porque não dedica atenção cuidadosa ao próprio trabalho.
Por outro lado, se você só quer terminar de qualquer jeito e não se importa se ficou bem feito, talvez não exista método melhor do que gastar o mínimo possível
Há um ponto que o texto não aborda. Bons engenheiros não passam, em projetos existentes, a maior parte do tempo só codando em comparação com outras tarefas. Bons engenheiros entendem o sistema de ponta a ponta. Desenvolvedores offshore são piores do que o Llama3