2 pontos por GN⁺ 3 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • A Uber limitou os gastos mensais com tokens por ferramenta de programação com IA a US$ 1.500 para todos os funcionários, em resposta ao aumento dos custos de ferramentas de programação agentic
  • O limite se aplica apenas a softwares de programação agentic como Cursor e Claude Code, e o gasto com uma ferramenta não afeta o orçamento de outra
  • A Uber definiu seu orçamento de IA de 2026 em 2025, mas depois esgotou esse orçamento em apenas quatro meses, à medida que agentes de programação com alto consumo de tokens se tornaram populares mais rápido do que o esperado
  • Assumindo o uso ativo de 2 ferramentas, o limite anual por engenheiro chega a US$ 36.000, cerca de 11% da compensação mediana de US$ 330.000 para engenheiros de software da Uber nos EUA, segundo a Levels.fyi
  • O preço das ferramentas de IA passou a ter uma grande diferença entre planos subsidiados para assinantes individuais e os preços de API que grandes empresas realmente pagam, e o limite da Uber mostra um parâmetro de custo que empresas conseguem suportar

Limite de gastos da Uber com ferramentas de programação por IA

  • A Uber limitou os gastos mensais com tokens por ferramenta de programação com IA a US$ 1.500 para todos os funcionários
  • Esse limite foi introduzido nos últimos meses e se aplica apenas a softwares de programação agentic como Cursor e Claude Code, da Anthropic
  • Como o limite é por ferramenta, o valor gasto em uma não reduz o orçamento da outra
  • O teto de US$ 1.500 por mês é uma resposta razoável ao excesso de gastos e é visto como uma abordagem mais sensata do que um leaderboard de tokenmaxxing, que incentivaria funcionários a competir pelo maior uso de IA

Sinal de preço e cálculo de custos

  • O fato de a Uber ter esgotado em quatro meses seu orçamento de IA para 2026 se relaciona ao contexto de que, quando o orçamento foi definido em 2025, era difícil prever a popularidade de agentes de programação com alto consumo de tokens
  • Assumindo que um engenheiro use ativamente 2 ferramentas, o teto passa a ser de US$ 3.000 por mês e US$ 36.000 por ano
  • O pacote anual mediano de compensação de engenheiros de software da Uber nos EUA na Levels.fyi é de US$ 330.000, e o limite anual de US$ 36.000 equivale a cerca de 11% disso
  • Mesmo que, em uso pessoal, se consumam US$ 1.000 em tokens por mês tanto da Anthropic quanto da OpenAI, o custo atual fica em cerca de US$ 100 por fornecedor graças aos planos subsidiados para assinantes individuais
  • Esses planos subsidiados para uso pessoal não são mais oferecidos a grandes empresas como a Uber e, com o padrão atual de uso, ainda restariam US$ 500 por mês dentro do limite da Uber para cada ferramenta

1 comentários

 
GN⁺ 3 시간 전
Comentários do Hacker News
  • Fico me perguntando se as empresas de AI vão manter o preço por token atual ou se, por causa da concorrência vinda da China, vão acabar reduzindo
    Pessoas físicas com orçamento limitado já estão migrando para modelos chineses de pesos abertos, como o DeepSeek
    Também fica a dúvida se a China está realmente subsidiando essas empresas, ou se o custo de inferência é de fato muito mais baixo e Anthropic/OpenAI só estão cobrando o máximo possível pensando em um futuro IPO

    • Como vários modelos têm pesos abertos e também são oferecidos por terceiros que não teriam motivo para subsidiá-los, dá para saber até certo ponto que o custo de inferência deles é baixo o bastante para ficar próximo do custo real
      Os laboratórios líderes provavelmente terão de baixar os altos preços por token, pelo menos nos modelos baratos e intermediários. Isso porque modelos chineses como Qwen, DeepSeek, Kimi e GLM já “chegaram perto o suficiente” para se tornarem alternativas com boa relação custo-benefício quando usados com um ambiente de execução adequado
      Ainda assim, alguns modelos exigem mais trabalho para resolver o mesmo problema, então talvez não seja necessário fechar completamente a diferença agora
      Mesmo assim, parece provável que os preços caiam de um jeito ou de outro e, ao mesmo tempo, também é bem possível que as assinaturas dos modelos chineses baratos estejam subsidiadas, então devem ficar menos generosas com o tempo
    • Um aspecto disso é o que Paul Kedrosky chamou recentemente de descasamento de prazos (duration mismatch)
      O preço por token cai com o tempo por pressão competitiva ou pelo incentivo de clientes usarem modelos antigos e baratos, mas os datacenters são financiados com dívida sob a premissa de que a receita vai crescer com o tempo
      Pegando emprestada a expressão dele, “[as empresas de AI] estão pagando custos fixos com um produto cujo valor está caindo”
      De um lado, a receita por token cai; do outro, o custo para treinar o próximo modelo de fronteira sobe, enquanto ao mesmo tempo ainda é preciso pagar uma dívida de 10 anos
      0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
    • Não precisa se preocupar, é só fazer lobby por um banimento dos modelos chineses para proteger a receita por token
      “O que agrava ainda mais o problema é que laboratórios chineses frequentemente lançam modelos de possível uso dual com pesos abertos. Quando um modelo se torna de pesos abertos, seus mecanismos de segurança existentes também podem ser removidos, permitindo que atores estatais e não estatais com intenções maliciosas o usem, incluindo para abusos cibernéticos e CBRN que essas proteções buscavam impedir”
      https://www.anthropic.com/research/2028-ai-leadership
    • Na verdade, a chance maior é de subir. A NVidia disse que os preços do hardware de GPU não devem cair pelo menos até 2030, e há escassez global de capacidade fabril
    • A maioria das empresas americanas normais vai bloquear o uso, via nuvem, de empresas chinesas de AI. Afinal, código, dados e informações pessoais seriam todos enviados para lá
  • Fico pensando quando as grandes empresas vão perceber que até os modelos flash funcionam bem o bastante se:

    1. você não pedir mudanças grandes ao LLM
    2. revisar todos os resultados e apontar a direção correta
      Modelos grandes continuam sendo ruins para mudanças grandes, criam arquiteturas duvidosas e, em qualquer projeto sério, de qualquer forma é preciso revisar o código
      Com qualquer modelo, se você não prestar atenção o bastante, a base de código vira uma bagunça rapidamente
      Num contexto de iteração com instruções, os modelos flash custam 10 vezes menos e são muito mais rápidos, então não vejo por que usar modelos grandes. Os grandes podem ficar para auditoria de segurança e bugs e, em mudanças de até 300 linhas, se você disser qual formato de código quer, os modelos flash acabam se comportando quase do mesmo jeito
    • É bem simples. As organizações estão dispostas a bancar US$ 1.500 por mês por engenheiro, e esse valor parece bater mais ou menos com o uso “normal” da maioria dos engenheiros em tempo integral
      Se esse número subir muito, aí sim, como você sugeriu, acho que as empresas vão começar a olhar mais para os modelos flash
    • Usar o maior modelo de ponta que caiba no orçamento é uma decisão fácil
      Mas isso faz perder de vista a outra parte mais importante aqui, que é o ambiente de execução (harness). Eu opero um pipeline autônomo com um orquestrador próprio para planejamento/projeto/código/build/testes e uso agentes em várias etapas
      Em cada etapa há um modelo mais adequado, e eu avalio os artefatos entre etapas com LLMs. Nem toda tarefa precisa do Opus 4.8
      O ambiente de execução fornece a base para ajustar o que deve entrar e sair do modelo e também permite definir qual modelo fará qual trabalho
      Quem produz qualidade dentro de um orçamento de tokens não é o modelo, e sim o pipeline
    • Tenho curiosidade sobre até que ponto o próprio modelo deveria decidir para qual outro modelo encaminhar uma consulta
      Ou então talvez um modelo grande pudesse aprender a diferença entre perguntas fáceis e difíceis e cobrar de acordo com isso. Se conseguisse medir a complexidade, talvez até pudesse dar um orçamento
      Modelos pequenos bastam para tarefas pequenas de programação, mas não entendo bem por que modelos grandes, na maioria dos casos, também não poderiam dividir o trabalho em partes menores
    • Concordo muito. Os modelos maiores também têm o hábito de complicar demais as coisas
    • “Não pedir mudanças grandes ao LLM” e “revisar tudo e dar direcionamento” não é algo com que a gerência se importe
      Isso virou um problema de engenharia e foi empurrado para os engenheiros resolverem
  • Ainda não entendo por que tanta gente ainda acredita que programação com IA vai acabar sendo só uma moda
    Não faz nem 2 anos que isso começou, e as empresas já estão pagando milhares de dólares por assento; conheço até lugares que pagam 5 mil dólares por mês
    Fico pensando que outra ferramenta foi adotada tão rápido assim saindo do zero

    • Porque as empresas estão apostando que, com esse gasto, podem demitir pessoas e reduzir custos
      Esses pull requests de IA LLM que aparecem hoje só criam mais trabalho para os outros, e os tais “builders” só parecem bons por causa do novo dashboard e das funcionalidades para demo
      Mas não dá para conversar sobre o fluxo do código, nem perguntar o processo de raciocínio de por que algo ficou daquele jeito
      Em vez de ser algo construído do zero com a experiência de várias pessoas incorporada, sai como se tivesse se materializado do nada, sem separação básica e quase sem abstração
      Ninguém quer mexer nisso. Os pull requests são grandes demais, e esses “autores” nem ficam de on-call com a gente
      Ficam com todo o crédito, mas não fazem o trabalho de verdade
      É parecido com projetar uma casa e mandar para arquitetos e engenheiros dizendo “façam isso funcionar”
    • Isso não leva à conclusão que você está tirando. O fato de que “as empresas já pagam milhares de dólares por assento” tem correlação zero com algo ser ou não ser uma moda
      Há explicações muito mais razoáveis para as empresas agirem assim do que “porque programação com IA não é moda”
    • O resultado de vibe coding às vezes é excelente, mas às vezes quebra alguma coisa, e às vezes estraga de novo algo que já foi consertado várias vezes
      Os pull requests são grandes demais, ninguém consegue revisar aquela bagunça, e se colocar em produção tem que se preparar para o on-call
      Pode melhorar ou não, mas ainda não sabemos
    • Esses fatos me parecem justamente um sinal de que a situação pode ser diferente do que aparenta
      É grande demais e rápido demais para parecer estável. Pode manter esse nível, aumentar ainda mais, ou cair para um nível de uso e orçamento mais normal
    • Existe um amplo espectro entre “programação com IA é uma moda” e “dar tokens ilimitados para todos os funcionários sem nem se importar se isso tem efeito líquido positivo nas finanças”
  • Uso uma assinatura de 100 dólares por mês, mas nos últimos 30 dias o custo de API ficou em algo como 1700 dólares por mês
    Varia muito conforme a forma de uso. Se você faz um projeto detalhado no prompt, divide isso em uma lista de tarefas e joga em vários agentes, é muito fácil queimar milhares de dólares
    Se usar com mais cuidado, rodando só alguns agentes por vez de forma interativa, e para revisão de pull request/resolução de issues/limpeza automática/otimização de performance, pode ficar em uns 1500 dólares
    Se for só fazer perguntas pontuais como um Stack Overflow melhor, fica bem abaixo de 100 dólares
    Ultimamente estou viciado em /goal; se encontro um objetivo verificável e deixo rodando a noite toda, ver até onde chegou na manhã seguinte é como manhã de Natal

  • 1500 dólares por mês dá 18 mil dólares por ano por assento
    Talvez Microsoft e Nvidia estejam vendo alguma coisa
    Até uma máquina de 128GB capaz de rodar LLM local por 5 mil a 8 mil dólares parece barata. Os tokens por segundo ainda não são suficientes, mas talvez dê para usar
    O gargalo de verdade nem é o código, e sim o que exatamente a Uber construiu gastando todo esse dinheiro e que impacto positivo e relevante isso teve na receita

    • Não sei se concordo que tokens por segundo não sejam o gargalo. Acho que a maioria ainda vai usar agentes de IA de forma interativa em vez de deixar rodando sozinhos durante a noite
      Para mim, pessoalmente, abaixo de 50 tok/s é totalmente inútil
      De qualquer forma, também é uma comparação de coisas diferentes. A inferência de modelos com pesos abertos é bem barata, e Claude e OpenAI talvez só estejam conseguindo margens muito altas em relação ao DeepSeek ou aos vários provedores do OpenRouter. Modelos abertos são commodity
    • Rodar um modelo próprio on-premises é muito melhor
      Notebook é ativo depreciável, não tem economia de escala, fixa o hardware e cria uma frota fragmentada de equipamentos que você precisa manter atualizada em relação aos modelos
      Quando penso até no consumo de energia e nos problemas de refrigeração, realmente não entendo por que as empresas iriam nessa direção
    • Acho que no fim as empresas vão comprar servidores locais de IA
      Hardware local fica caro quando precisa rodar uma pilha de software complexa que pode quebrar de 10 mil formas diferentes
      Os futuros servidores locais de IA provavelmente só vão se comunicar por algum protocolo para IA e ficar num canto, sem que ninguém se importe com isso
      Ainda assim, pode ser necessário ter acesso a vários sistemas, então não sei, mas no fim alguém deve oferecer uma “IA numa caixa” com algo como o modelo aberto mais recente
    • Concordo com a tese principal, mas rodar IA local de ponta no equivalente a 1500 dólares por mês já não é nada trivial, e é importante lembrar que isso é por assento
      Isso equivale a gerar pelo menos 20 tok/s, 24 horas por dia, 365 dias por ano, e na prática provavelmente é bem mais do que isso
      Como modelos com pesos abertos são muito mais baratos do que modelos proprietários, mesmo quando oferecidos por provedores ocidentais respeitáveis, talvez sejam necessários mais de 100 tok/s para chegar ao mesmo nível de gasto, o que já entra no território de hardware de datacenter
      Em plataformas prosumer talvez dê para alcançar o primeiro número, mas só em cargas de trabalho muito específicas. Se você passa muito tempo com prefill, algo comum em cargas de trabalho com agentes, a perspectiva é pior. Isso vira uma limitação grande em IA on-premises
    • Acho que mais importante do que o que exatamente a Uber construiu é o ganho de produtividade
      Se engenheiros usarem as ferramentas de IA do jeito certo, dá para aumentar muito a produtividade, e usar LLM como um engenheiro júnior ou associado
      1500 dólares por mês é muito barato perto desse nível de produtividade, e contratar um engenheiro humano custaria muito mais
  • Estou cada vez mais preocupado com lock-in e custo de troca
    Depois de usar o Claude por cerca de 1 ano, já acumulei bastante “conhecimento” lá dentro
    Se no futuro a relação custo-benefício do Claude piorar, acho que isso vai me preocupar
    Comecei a pensar em uma solução descentralizada que separe armazenamento e inferência, mas por enquanto o Claude ainda é a escolha. Queria saber se mais alguém tem preocupação parecida

    • Esse “conhecimento” não é só arquivo de texto? Tenho conseguido trocar facilmente entre serviços só copiando arquivos de texto
    • A solução que eu gosto é usar o agente de programação Cline. É aberto e permite trocar facilmente entre vários provedores e modelos
    • Não entendo bem o que seria esse conhecimento aí dentro
      Onde esse conhecimento fica armazenado?
      O meu normalmente fica em documentos de planejamento fora do agente
      E, de qualquer forma, eu arquivo cada janela de agente periodicamente
  • Se o funcionário não gastar seu orçamento de IA/LLM, ele pode receber isso como aumento?

    • Provavelmente vai ser demitido por falta de performance
  • Não sei por que não é mais comum, em grandes empresas, fazer self-hosting para rodar modelos de pesos abertos, ou mesmo, sem precisar ser necessariamente on-premises, alugar servidores com GPU ou hospedar em algum lugar como a Together AI
    Já usei modelos de pesos abertos e modelos premium como Opus e Gemini Pro; os segundos são um pouco melhores, mas nem de longe o suficiente para justificar a diferença de preço
    Nos casos de uso que testei, a diferença em geral não importava muito, e imagino que muitos outros usuários tenham usos parecidos

    • Acabei de ter uma discussão parecida no meu $WORK, que é uma empresa financeira tradicional listada na NYSE, e, considerando um nível médio de especialização em TI para o padrão corporativo, acho que a lógica é a seguinte
      Dar a um desenvolvedor/hacker excelente um servidor GPU potente e deixá-lo rodar os modelos que quiser é algo totalmente diferente de manter uma plataforma dessas para a empresa inteira
      É preciso cuidar de equipe que entenda e mantenha esses modelos, backend, disponibilidade etc., e essa equipe provavelmente custa muito mais do que salários normais de desenvolvedores de software
      Por toda essa complicação extra, acaba sendo mais fácil pagar um laboratório externo de ponta e impor um limite de gasto razoável para todo mundo
    • Mesmo que um modelo premium seja só 10% melhor, isso ainda pode justificar o preço em comparação com fazer self-hosting de um modelo de pesos abertos na faixa de 0,5~1T
      A utilização de um rack gigantesco desses não vai ser 24 horas por dia, 365 dias por ano, e em geral a empresa também não é tão centrada em GPU a ponto de aproveitar a capacidade ociosa para treinar modelos
      Se o custo passa de 100 mil a 200 mil dólares e a vida útil é de cerca de 2 anos, fica difícil justificar isso financeiramente
      Mesmo amortizando o self-hosting entre vários desenvolvedores, é fácil chegar a algo como 1.000 dólares por mês, e nos horários de pico surgem limites de velocidade bem apertados
      Os 500 dólares que sobram ao subtrair 1.000 de 1.500 dólares por mês justificariam uma queda de 10% na “produtividade com IA”? Na maioria dos casos, eu diria que não
      No curto prazo, a menos que haja um motivo realmente muito forte para fazer self-hosting especificamente de um modelo de assistência à programação, eu diria que os 2 ou 3 principais fornecedores desse tipo de assistente são a melhor escolha
      Ninguém foi demitido por comprar licença do Claude Code
    • Não sei por que isso deveria ser mais comum
      Só o fato de agrupar GPUs para vários usuários, manter os controles de segurança e conectar isso a documentos e data lakes já não é nada trivial
      No fim, você acaba pagando por uma equipe para administrar tudo isso
    • Fazer isso uma vez sozinho numa máquina pessoal e fornecer modelos para 3.000 funcionários em meio a requisitos de hardware e software que mudam o tempo todo são coisas completamente diferentes
      É preciso hardware dedicado em datacenter e especialistas para operar isso
      Além do próprio negócio, a empresa precisa descobrir como gerenciar compras, ativos, custos e mais mil outras coisas
      E quem já resolveu tudo isso? AWS/Azure/OpenAI etc.
    • É o mesmo motivo pelo qual empresas não montam seus próprios datacenters para necessidades comuns de hospedagem e armazenamento, e usam AWS, Azure etc.
      Manter hardware e contratar especialistas para operar serviços custa dinheiro
      Para algo tão comum quanto modelos LLM, a menos que a empresa seja extremamente sensível a enviar bytes para a AWS, não há motivo algum para fornecer esses modelos em hardware próprio
  • Mais interessante do que o número de limite de 1.500 dólares por mês é o fato de eles terem chegado a algum limite
    A maioria das equipes de engenharia com que conversei não sabe quanto gasta com IA por desenvolvedor, porque isso fica enterrado numa conta consolidada de cloud
    Um teto rígido força duas conversas úteis: quais fluxos de trabalho justificam chamadas de API e quais podem ficar com inferência local, e se os resultados estão de fato sendo comparados com métricas reais de produtividade
    Sem esse ciclo de feedback, vira só uma corrida para ver quem queima tokens mais rápido

  • A sequência entre “um limite de 1.500 dólares por mês por ferramenta parece uma resposta de política razoável ao gasto excessivo” e “meu uso de tokens fica em torno de 1.000 dólares por mês tanto na Anthropic quanto na OpenAI, mas hoje pago só 100 dólares por fornecedor graças a planos subsidiados generosos para assinantes individuais” parece um esquema de marketing multinível
    Parece aquela estrutura em que os ‘diamantes’ ganham dinheiro promovendo o MLM em seminários e dizem para os aspirantes da base que “assinar IA agora é a oportunidade única da sua vida de virar um vencedor”
    Talvez exista algum tipo de FOMO sendo criado por MLM vs LLM

    • Simon Willison está nessa linha desde que surgiram os LLMs. Parece até explícito demais que ele é alguém que promove isso por dinheiro