O limite mensal de US$ 1.500 em IA da Uber é um sinal útil para a precificação de ferramentas de IA
(simonwillison.net)- A Uber limitou os gastos mensais com tokens por ferramenta de programação com IA a US$ 1.500 para todos os funcionários, em resposta ao aumento dos custos de ferramentas de programação agentic
- O limite se aplica apenas a softwares de programação agentic como Cursor e Claude Code, e o gasto com uma ferramenta não afeta o orçamento de outra
- A Uber definiu seu orçamento de IA de 2026 em 2025, mas depois esgotou esse orçamento em apenas quatro meses, à medida que agentes de programação com alto consumo de tokens se tornaram populares mais rápido do que o esperado
- Assumindo o uso ativo de 2 ferramentas, o limite anual por engenheiro chega a US$ 36.000, cerca de 11% da compensação mediana de US$ 330.000 para engenheiros de software da Uber nos EUA, segundo a Levels.fyi
- O preço das ferramentas de IA passou a ter uma grande diferença entre planos subsidiados para assinantes individuais e os preços de API que grandes empresas realmente pagam, e o limite da Uber mostra um parâmetro de custo que empresas conseguem suportar
Limite de gastos da Uber com ferramentas de programação por IA
- A Uber limitou os gastos mensais com tokens por ferramenta de programação com IA a US$ 1.500 para todos os funcionários
- Esse limite foi introduzido nos últimos meses e se aplica apenas a softwares de programação agentic como Cursor e Claude Code, da Anthropic
- Como o limite é por ferramenta, o valor gasto em uma não reduz o orçamento da outra
- O teto de US$ 1.500 por mês é uma resposta razoável ao excesso de gastos e é visto como uma abordagem mais sensata do que um leaderboard de tokenmaxxing, que incentivaria funcionários a competir pelo maior uso de IA
Sinal de preço e cálculo de custos
- O fato de a Uber ter esgotado em quatro meses seu orçamento de IA para 2026 se relaciona ao contexto de que, quando o orçamento foi definido em 2025, era difícil prever a popularidade de agentes de programação com alto consumo de tokens
- Assumindo que um engenheiro use ativamente 2 ferramentas, o teto passa a ser de US$ 3.000 por mês e US$ 36.000 por ano
- O pacote anual mediano de compensação de engenheiros de software da Uber nos EUA na Levels.fyi é de US$ 330.000, e o limite anual de US$ 36.000 equivale a cerca de 11% disso
- Mesmo que, em uso pessoal, se consumam US$ 1.000 em tokens por mês tanto da Anthropic quanto da OpenAI, o custo atual fica em cerca de US$ 100 por fornecedor graças aos planos subsidiados para assinantes individuais
- Esses planos subsidiados para uso pessoal não são mais oferecidos a grandes empresas como a Uber e, com o padrão atual de uso, ainda restariam US$ 500 por mês dentro do limite da Uber para cada ferramenta
1 comentários
Comentários do Hacker News
Fico me perguntando se as empresas de AI vão manter o preço por token atual ou se, por causa da concorrência vinda da China, vão acabar reduzindo
Pessoas físicas com orçamento limitado já estão migrando para modelos chineses de pesos abertos, como o DeepSeek
Também fica a dúvida se a China está realmente subsidiando essas empresas, ou se o custo de inferência é de fato muito mais baixo e Anthropic/OpenAI só estão cobrando o máximo possível pensando em um futuro IPO
Os laboratórios líderes provavelmente terão de baixar os altos preços por token, pelo menos nos modelos baratos e intermediários. Isso porque modelos chineses como Qwen, DeepSeek, Kimi e GLM já “chegaram perto o suficiente” para se tornarem alternativas com boa relação custo-benefício quando usados com um ambiente de execução adequado
Ainda assim, alguns modelos exigem mais trabalho para resolver o mesmo problema, então talvez não seja necessário fechar completamente a diferença agora
Mesmo assim, parece provável que os preços caiam de um jeito ou de outro e, ao mesmo tempo, também é bem possível que as assinaturas dos modelos chineses baratos estejam subsidiadas, então devem ficar menos generosas com o tempo
O preço por token cai com o tempo por pressão competitiva ou pelo incentivo de clientes usarem modelos antigos e baratos, mas os datacenters são financiados com dívida sob a premissa de que a receita vai crescer com o tempo
Pegando emprestada a expressão dele, “[as empresas de AI] estão pagando custos fixos com um produto cujo valor está caindo”
De um lado, a receita por token cai; do outro, o custo para treinar o próximo modelo de fronteira sobe, enquanto ao mesmo tempo ainda é preciso pagar uma dívida de 10 anos
0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
“O que agrava ainda mais o problema é que laboratórios chineses frequentemente lançam modelos de possível uso dual com pesos abertos. Quando um modelo se torna de pesos abertos, seus mecanismos de segurança existentes também podem ser removidos, permitindo que atores estatais e não estatais com intenções maliciosas o usem, incluindo para abusos cibernéticos e CBRN que essas proteções buscavam impedir”
https://www.anthropic.com/research/2028-ai-leadership
Fico pensando quando as grandes empresas vão perceber que até os modelos flash funcionam bem o bastante se:
Modelos grandes continuam sendo ruins para mudanças grandes, criam arquiteturas duvidosas e, em qualquer projeto sério, de qualquer forma é preciso revisar o código
Com qualquer modelo, se você não prestar atenção o bastante, a base de código vira uma bagunça rapidamente
Num contexto de iteração com instruções, os modelos flash custam 10 vezes menos e são muito mais rápidos, então não vejo por que usar modelos grandes. Os grandes podem ficar para auditoria de segurança e bugs e, em mudanças de até 300 linhas, se você disser qual formato de código quer, os modelos flash acabam se comportando quase do mesmo jeito
Se esse número subir muito, aí sim, como você sugeriu, acho que as empresas vão começar a olhar mais para os modelos flash
Mas isso faz perder de vista a outra parte mais importante aqui, que é o ambiente de execução (harness). Eu opero um pipeline autônomo com um orquestrador próprio para planejamento/projeto/código/build/testes e uso agentes em várias etapas
Em cada etapa há um modelo mais adequado, e eu avalio os artefatos entre etapas com LLMs. Nem toda tarefa precisa do Opus 4.8
O ambiente de execução fornece a base para ajustar o que deve entrar e sair do modelo e também permite definir qual modelo fará qual trabalho
Quem produz qualidade dentro de um orçamento de tokens não é o modelo, e sim o pipeline
Ou então talvez um modelo grande pudesse aprender a diferença entre perguntas fáceis e difíceis e cobrar de acordo com isso. Se conseguisse medir a complexidade, talvez até pudesse dar um orçamento
Modelos pequenos bastam para tarefas pequenas de programação, mas não entendo bem por que modelos grandes, na maioria dos casos, também não poderiam dividir o trabalho em partes menores
Isso virou um problema de engenharia e foi empurrado para os engenheiros resolverem
Ainda não entendo por que tanta gente ainda acredita que programação com IA vai acabar sendo só uma moda
Não faz nem 2 anos que isso começou, e as empresas já estão pagando milhares de dólares por assento; conheço até lugares que pagam 5 mil dólares por mês
Fico pensando que outra ferramenta foi adotada tão rápido assim saindo do zero
Esses pull requests de IA LLM que aparecem hoje só criam mais trabalho para os outros, e os tais “builders” só parecem bons por causa do novo dashboard e das funcionalidades para demo
Mas não dá para conversar sobre o fluxo do código, nem perguntar o processo de raciocínio de por que algo ficou daquele jeito
Em vez de ser algo construído do zero com a experiência de várias pessoas incorporada, sai como se tivesse se materializado do nada, sem separação básica e quase sem abstração
Ninguém quer mexer nisso. Os pull requests são grandes demais, e esses “autores” nem ficam de on-call com a gente
Ficam com todo o crédito, mas não fazem o trabalho de verdade
É parecido com projetar uma casa e mandar para arquitetos e engenheiros dizendo “façam isso funcionar”
Há explicações muito mais razoáveis para as empresas agirem assim do que “porque programação com IA não é moda”
Os pull requests são grandes demais, ninguém consegue revisar aquela bagunça, e se colocar em produção tem que se preparar para o on-call
Pode melhorar ou não, mas ainda não sabemos
É grande demais e rápido demais para parecer estável. Pode manter esse nível, aumentar ainda mais, ou cair para um nível de uso e orçamento mais normal
Uso uma assinatura de 100 dólares por mês, mas nos últimos 30 dias o custo de API ficou em algo como 1700 dólares por mês
Varia muito conforme a forma de uso. Se você faz um projeto detalhado no prompt, divide isso em uma lista de tarefas e joga em vários agentes, é muito fácil queimar milhares de dólares
Se usar com mais cuidado, rodando só alguns agentes por vez de forma interativa, e para revisão de pull request/resolução de issues/limpeza automática/otimização de performance, pode ficar em uns 1500 dólares
Se for só fazer perguntas pontuais como um Stack Overflow melhor, fica bem abaixo de 100 dólares
Ultimamente estou viciado em
/goal; se encontro um objetivo verificável e deixo rodando a noite toda, ver até onde chegou na manhã seguinte é como manhã de Natal1500 dólares por mês dá 18 mil dólares por ano por assento
Talvez Microsoft e Nvidia estejam vendo alguma coisa
Até uma máquina de 128GB capaz de rodar LLM local por 5 mil a 8 mil dólares parece barata. Os tokens por segundo ainda não são suficientes, mas talvez dê para usar
O gargalo de verdade nem é o código, e sim o que exatamente a Uber construiu gastando todo esse dinheiro e que impacto positivo e relevante isso teve na receita
Para mim, pessoalmente, abaixo de 50 tok/s é totalmente inútil
De qualquer forma, também é uma comparação de coisas diferentes. A inferência de modelos com pesos abertos é bem barata, e Claude e OpenAI talvez só estejam conseguindo margens muito altas em relação ao DeepSeek ou aos vários provedores do OpenRouter. Modelos abertos são commodity
Notebook é ativo depreciável, não tem economia de escala, fixa o hardware e cria uma frota fragmentada de equipamentos que você precisa manter atualizada em relação aos modelos
Quando penso até no consumo de energia e nos problemas de refrigeração, realmente não entendo por que as empresas iriam nessa direção
Hardware local fica caro quando precisa rodar uma pilha de software complexa que pode quebrar de 10 mil formas diferentes
Os futuros servidores locais de IA provavelmente só vão se comunicar por algum protocolo para IA e ficar num canto, sem que ninguém se importe com isso
Ainda assim, pode ser necessário ter acesso a vários sistemas, então não sei, mas no fim alguém deve oferecer uma “IA numa caixa” com algo como o modelo aberto mais recente
Isso equivale a gerar pelo menos 20 tok/s, 24 horas por dia, 365 dias por ano, e na prática provavelmente é bem mais do que isso
Como modelos com pesos abertos são muito mais baratos do que modelos proprietários, mesmo quando oferecidos por provedores ocidentais respeitáveis, talvez sejam necessários mais de 100 tok/s para chegar ao mesmo nível de gasto, o que já entra no território de hardware de datacenter
Em plataformas prosumer talvez dê para alcançar o primeiro número, mas só em cargas de trabalho muito específicas. Se você passa muito tempo com prefill, algo comum em cargas de trabalho com agentes, a perspectiva é pior. Isso vira uma limitação grande em IA on-premises
Se engenheiros usarem as ferramentas de IA do jeito certo, dá para aumentar muito a produtividade, e usar LLM como um engenheiro júnior ou associado
1500 dólares por mês é muito barato perto desse nível de produtividade, e contratar um engenheiro humano custaria muito mais
Estou cada vez mais preocupado com lock-in e custo de troca
Depois de usar o Claude por cerca de 1 ano, já acumulei bastante “conhecimento” lá dentro
Se no futuro a relação custo-benefício do Claude piorar, acho que isso vai me preocupar
Comecei a pensar em uma solução descentralizada que separe armazenamento e inferência, mas por enquanto o Claude ainda é a escolha. Queria saber se mais alguém tem preocupação parecida
Onde esse conhecimento fica armazenado?
O meu normalmente fica em documentos de planejamento fora do agente
E, de qualquer forma, eu arquivo cada janela de agente periodicamente
Se o funcionário não gastar seu orçamento de IA/LLM, ele pode receber isso como aumento?
Não sei por que não é mais comum, em grandes empresas, fazer self-hosting para rodar modelos de pesos abertos, ou mesmo, sem precisar ser necessariamente on-premises, alugar servidores com GPU ou hospedar em algum lugar como a Together AI
Já usei modelos de pesos abertos e modelos premium como Opus e Gemini Pro; os segundos são um pouco melhores, mas nem de longe o suficiente para justificar a diferença de preço
Nos casos de uso que testei, a diferença em geral não importava muito, e imagino que muitos outros usuários tenham usos parecidos
Dar a um desenvolvedor/hacker excelente um servidor GPU potente e deixá-lo rodar os modelos que quiser é algo totalmente diferente de manter uma plataforma dessas para a empresa inteira
É preciso cuidar de equipe que entenda e mantenha esses modelos, backend, disponibilidade etc., e essa equipe provavelmente custa muito mais do que salários normais de desenvolvedores de software
Por toda essa complicação extra, acaba sendo mais fácil pagar um laboratório externo de ponta e impor um limite de gasto razoável para todo mundo
A utilização de um rack gigantesco desses não vai ser 24 horas por dia, 365 dias por ano, e em geral a empresa também não é tão centrada em GPU a ponto de aproveitar a capacidade ociosa para treinar modelos
Se o custo passa de 100 mil a 200 mil dólares e a vida útil é de cerca de 2 anos, fica difícil justificar isso financeiramente
Mesmo amortizando o self-hosting entre vários desenvolvedores, é fácil chegar a algo como 1.000 dólares por mês, e nos horários de pico surgem limites de velocidade bem apertados
Os 500 dólares que sobram ao subtrair 1.000 de 1.500 dólares por mês justificariam uma queda de 10% na “produtividade com IA”? Na maioria dos casos, eu diria que não
No curto prazo, a menos que haja um motivo realmente muito forte para fazer self-hosting especificamente de um modelo de assistência à programação, eu diria que os 2 ou 3 principais fornecedores desse tipo de assistente são a melhor escolha
Ninguém foi demitido por comprar licença do Claude Code
Só o fato de agrupar GPUs para vários usuários, manter os controles de segurança e conectar isso a documentos e data lakes já não é nada trivial
No fim, você acaba pagando por uma equipe para administrar tudo isso
É preciso hardware dedicado em datacenter e especialistas para operar isso
Além do próprio negócio, a empresa precisa descobrir como gerenciar compras, ativos, custos e mais mil outras coisas
E quem já resolveu tudo isso? AWS/Azure/OpenAI etc.
Manter hardware e contratar especialistas para operar serviços custa dinheiro
Para algo tão comum quanto modelos LLM, a menos que a empresa seja extremamente sensível a enviar bytes para a AWS, não há motivo algum para fornecer esses modelos em hardware próprio
Mais interessante do que o número de limite de 1.500 dólares por mês é o fato de eles terem chegado a algum limite
A maioria das equipes de engenharia com que conversei não sabe quanto gasta com IA por desenvolvedor, porque isso fica enterrado numa conta consolidada de cloud
Um teto rígido força duas conversas úteis: quais fluxos de trabalho justificam chamadas de API e quais podem ficar com inferência local, e se os resultados estão de fato sendo comparados com métricas reais de produtividade
Sem esse ciclo de feedback, vira só uma corrida para ver quem queima tokens mais rápido
Anthropic: https://support.claude.com/en/articles/12883420-view-usage-a...
OpenAI: https://help.openai.com/en/articles/10875114-workspace-analy...
A sequência entre “um limite de 1.500 dólares por mês por ferramenta parece uma resposta de política razoável ao gasto excessivo” e “meu uso de tokens fica em torno de 1.000 dólares por mês tanto na Anthropic quanto na OpenAI, mas hoje pago só 100 dólares por fornecedor graças a planos subsidiados generosos para assinantes individuais” parece um esquema de marketing multinível
Parece aquela estrutura em que os ‘diamantes’ ganham dinheiro promovendo o MLM em seminários e dizem para os aspirantes da base que “assinar IA agora é a oportunidade única da sua vida de virar um vencedor”
Talvez exista algum tipo de FOMO sendo criado por MLM vs LLM