16 pontos por GN⁺ 2025-07-26 | 1 comentários | Compartilhar no WhatsApp
  • Permite comparar com clareza os preços de diversos provedores de LLM (por exemplo, OpenAI, Anthropic e Google) com um critério equivalente (preço por token)
    • Suporte a tabelas e gráficos no formato provedor, modelo, Input ($/M) e Output ($/M)
  • Última atualização dos dados: 26 de julho de 2025
  • Antes de selecionar um modelo específico, fornece dados de base que podem servir de referência para a análise de custo-benefício
  • Ao assinar a newsletter, é possível receber regularmente as informações mais recentes

1 comentários

 
GN⁺ 2025-07-26
Comentários no Hacker News
  • (Trabalho na OpenRouter) colaboramos com provedores que oferecem preços e informações de modelos por API para resolver esse problema, o que nos permitiu manter as informações do marketplace sempre atualizadas; lembro de um ano atrás, quando compartilhávamos isso em conversas no Slack; recentemente, a estrutura de preços por token ficou muito complexa por causa de fatores como tamanho do prompt, cache e outros detalhes que variam por provedor; na verdade, o ponto importante não é o preço por token no nível do modelo, mas no nível do endpoint; por exemplo, muitas vezes o mesmo modelo tem preços diferentes dependendo do endpoint, como versões rápidas/lentas, thinking/non-thinking etc.; colocamos muito esforço para resolver tudo isso, e o resultado atual está público na OpenRouter (embora eu reconheça que ainda não esteja em um formato organizado principalmente para visualizar preços com facilidade)
    • Acabei de tentar deixá-lo mais conciso e fácil de visualizar, muito obrigado pelo esforço; compartilho o projeto llm-pricing
  • Fico me perguntando se os dados não estão errados; o preço por token de entrada do Google Gemini 2.5 Flash-Lite é $0.10, mas aqui parece estar mostrado como $0.40; veja a tabela oficial de preços
    • Os dados não estão errados, acho que você leu minha tabela incorretamente; (edição: acho que respondi errado, não foi uma boa resposta)
  • Essa informação é excelente, mas, do ponto de vista de UX, ainda precisa de muito mais consideração
    • Mesmo para o mesmo modelo, o preço varia conforme o provedor
    • Cada provedor otimiza para critérios diferentes, como velocidade, custo etc.
    • Mesmo o mesmo modelo pode ter versões quantizadas diferentes
    • Há lugares, como a API do Grok, que oferecem preços em lote (batch)
    • Também há muitas condições extras para filtrar, como “thinking/non-thinking”, suporte multimodal etc.
    • Pontuações de benchmark também são uma variável
      Isso ajuda um pouco, como faz o artificialanalysis.ai, que oferece blended cost (custo combinado de entrada/saída), mas na prática o modelo de cobrança de Input/Output também pode continuar mudando conforme o caso de uso; sigo esperando até aparecer um site com uma UI de comparação realmente boa; seria ótimo se alguém fizesse isso logo
    • (Trabalho na OpenRouter) na verdade, embora isso não fique muito visível no site, existe uma ferramenta de comparação de modelos bem simples; exemplo: página de comparação de modelos da OpenRouter
    • Será que adicionar à tabela uma coluna “provider”, ou seja, onde a chamada de API realmente é executada, resolveria esse problema?
    • Parece muito difícil criar uma comparação justa; o melhor talvez seja mostrar claramente os trade-offs de cada condição e deixar o usuário decidir por conta própria; também é interessante a ideia de uma plataforma tipo token exchange, em que o usuário publica seus requisitos e as empresas competem para oferecer o serviço adequado; dá até para imaginar um marketplace em que qualquer pessoa compartilha sua capacidade computacional, mas aí seria preciso resolver separadamente problemas como falsificação de capacidade real ou vazamento de dados
    • Por favor, queria que parassem de dar tanta importância a rankings de benchmark; é triste ver essa obsessão excessiva com esse tipo de comparação continuar
  • Antigamente, para encontrar o preço de um modelo recém-lançado, eu precisava pular de uma página promocional para outra, o que era muito frustrante; agora é conveniente poder ver isso tudo de uma vez na OpenRouter
  • O problema central é que os tokens diferem entre provedores/modelos; isso vai além do modelo de tokenizer, e há diferenças enormes até dentro do mesmo provedor
    • Por exemplo, em entrada de imagem, o gpt-4o-mini consome 10 vezes mais tokens do que o gpt-4
    • A saída do gemini 2.5 pro normalmente é cobrada por token, mas ao usar structured output, cada caractere passa a ser tratado como um token
    • Informação de preço por token é importante, mas o que as pessoas realmente precisam saber é quanto custa a mesma consulta/resposta em cada modelo, porque nem todo token é igual
    • Pretendo rodar o mesmo experimento todos os dias e adicionar esse custo como coluna na tabela; por exemplo, dá para medir com o mesmo prompt em todos os modelos, algo como "resuma este artigo em 200 palavras"
    • Gostaria de ouvir mais detalhes sobre essa explicação de que, no gemini 2.5 pro, ao usar structured output, caractere=token; não entendi bem a diferença
  • O site está fora do ar agora, mas também queria recomendar a calculadora de preços de LLM do Simon Willison (llm-prices.com)
  • Se eu tiver um orçamento de cerca de $2500 para hardware, queria saber que modelos eu conseguiria rodar localmente; se isso não for suficiente, quanto seria necessário e seria ótimo ter um tutorial sobre como fazer isso por conta própria em ambiente local
    • Se você tem interesse em usar LLMs locais, ollama.com é um bom ponto de partida; dá para converter o número de nós em capacidade de RAM (GB); por exemplo, o modelo Deepseek-r1:7b precisa de cerca de 7GB; quanto maior a janela de contexto, mais memória será necessária; se você pretende montar uma máquina de IA com orçamento de $2500, recomendo uma configuração com bastante memória unificada, como LPDDR5; link de referência: Framework AIMax300
    • Há 18 meses comprei um Mac Mini M2Pro 32GB por $1900, e ele roda tranquilamente até modelos locais quantizados de 40B; quando os modelos locais não têm desempenho suficiente, também uso a combinação Gemini 2.5 flash/pro com gemini-cli; tanto APIs comerciais quanto modelos locais têm muitas boas opções, então o melhor é escolher uma de cada e focar em montar tudo rapidamente
    • O melhor é comprar 2 placas de vídeo 3090 usadas, por perto de $600 cada; a 3090 ainda tem um excelente custo-benefício
    • Kimi e deepseek são alguns dos poucos modelos cuja diferença de desempenho não é tão grande mesmo em comparação com os principais provedores de nuvem
    • Alguns modelos da linha ollama podem rodar sem problema mesmo com apenas uma CPU razoável
  • Antes, a única opção para descobrir preços por provedor era visitar site por site; a OpenRouter é uma boa alternativa, porque lista também os modelos abertos e dá para ter uma noção aproximada do preço/tamanho real do modelo e de quanto subsídio ele está recebendo no momento
    • A API da OpenRouter tem um endpoint para consultar modelos e informações de preço (documentação da API de modelos da OpenRouter); o ponto fraco é que ela fornece informação de apenas um provedor por modelo; isso não é um problema para modelos comerciais, mas, no caso de modelos open source, o preço pode variar de 5 a 10 vezes entre provedores, então deve ser usado apenas como referência
  • Queria que existisse algum material que combinasse dados de preço com informações gerais de benchmark para mostrar qual modelo tem o melhor “custo-benefício (pontuação de benchmark/custo por token)”
  • A política de preços de cada provedor é muito mais complexa do que simples cobrança de input/output
    • Preço em horário de menor demanda da DeepSeek
    • Preço em lote (batch) da OpenAI/Anthropic
    • Preço por janela de contexto do Google/Grok
    • Cobrança separada de tokens thinking/non-thinking da Qwen
    • Preço em tiers para tokens de entrada do Qwen coder
      Como referência, um post relacionado: X.com paradite_