Price Per Token (preço por token) – dados de preços de API de LLM

(pricepertoken.com)

16 pontos por GN⁺ 2025-07-26 | 1 comentários | Compartilhar no WhatsApp

Permite comparar com clareza os preços de diversos provedores de LLM (por exemplo, OpenAI, Anthropic e Google) com um critério equivalente (preço por token)
- Suporte a tabelas e gráficos no formato provedor, modelo, Input ($/M) e Output ($/M)
Última atualização dos dados: 26 de julho de 2025
Antes de selecionar um modelo específico, fornece dados de base que podem servir de referência para a análise de custo-benefício
Ao assinar a newsletter, é possível receber regularmente as informações mais recentes

1 comentários

GN⁺ 2025-07-26

Comentários no Hacker News

(Trabalho na OpenRouter) colaboramos com provedores que oferecem preços e informações de modelos por API para resolver esse problema, o que nos permitiu manter as informações do marketplace sempre atualizadas; lembro de um ano atrás, quando compartilhávamos isso em conversas no Slack; recentemente, a estrutura de preços por token ficou muito complexa por causa de fatores como tamanho do prompt, cache e outros detalhes que variam por provedor; na verdade, o ponto importante não é o preço por token no nível do modelo, mas no nível do endpoint; por exemplo, muitas vezes o mesmo modelo tem preços diferentes dependendo do endpoint, como versões rápidas/lentas, thinking/non-thinking etc.; colocamos muito esforço para resolver tudo isso, e o resultado atual está público na OpenRouter (embora eu reconheça que ainda não esteja em um formato organizado principalmente para visualizar preços com facilidade)
- Acabei de tentar deixá-lo mais conciso e fácil de visualizar, muito obrigado pelo esforço; compartilho o projeto llm-pricing
Fico me perguntando se os dados não estão errados; o preço por token de entrada do Google Gemini 2.5 Flash-Lite é $0.10, mas aqui parece estar mostrado como $0.40; veja a tabela oficial de preços
- Os dados não estão errados, acho que você leu minha tabela incorretamente; (edição: acho que respondi errado, não foi uma boa resposta)
Essa informação é excelente, mas, do ponto de vista de UX, ainda precisa de muito mais consideração
- Mesmo para o mesmo modelo, o preço varia conforme o provedor
- Cada provedor otimiza para critérios diferentes, como velocidade, custo etc.
- Mesmo o mesmo modelo pode ter versões quantizadas diferentes
- Há lugares, como a API do Grok, que oferecem preços em lote (batch)
- Também há muitas condições extras para filtrar, como “thinking/non-thinking”, suporte multimodal etc.
- Pontuações de benchmark também são uma variável
  Isso ajuda um pouco, como faz o artificialanalysis.ai, que oferece blended cost (custo combinado de entrada/saída), mas na prática o modelo de cobrança de Input/Output também pode continuar mudando conforme o caso de uso; sigo esperando até aparecer um site com uma UI de comparação realmente boa; seria ótimo se alguém fizesse isso logo
- (Trabalho na OpenRouter) na verdade, embora isso não fique muito visível no site, existe uma ferramenta de comparação de modelos bem simples; exemplo: página de comparação de modelos da OpenRouter
- Será que adicionar à tabela uma coluna “provider”, ou seja, onde a chamada de API realmente é executada, resolveria esse problema?
- Parece muito difícil criar uma comparação justa; o melhor talvez seja mostrar claramente os trade-offs de cada condição e deixar o usuário decidir por conta própria; também é interessante a ideia de uma plataforma tipo token exchange, em que o usuário publica seus requisitos e as empresas competem para oferecer o serviço adequado; dá até para imaginar um marketplace em que qualquer pessoa compartilha sua capacidade computacional, mas aí seria preciso resolver separadamente problemas como falsificação de capacidade real ou vazamento de dados
- Por favor, queria que parassem de dar tanta importância a rankings de benchmark; é triste ver essa obsessão excessiva com esse tipo de comparação continuar
Antigamente, para encontrar o preço de um modelo recém-lançado, eu precisava pular de uma página promocional para outra, o que era muito frustrante; agora é conveniente poder ver isso tudo de uma vez na OpenRouter
O problema central é que os tokens diferem entre provedores/modelos; isso vai além do modelo de tokenizer, e há diferenças enormes até dentro do mesmo provedor
- Por exemplo, em entrada de imagem, o gpt-4o-mini consome 10 vezes mais tokens do que o gpt-4
- A saída do gemini 2.5 pro normalmente é cobrada por token, mas ao usar structured output, cada caractere passa a ser tratado como um token
- Informação de preço por token é importante, mas o que as pessoas realmente precisam saber é quanto custa a mesma consulta/resposta em cada modelo, porque nem todo token é igual
- Pretendo rodar o mesmo experimento todos os dias e adicionar esse custo como coluna na tabela; por exemplo, dá para medir com o mesmo prompt em todos os modelos, algo como "resuma este artigo em 200 palavras"
- Gostaria de ouvir mais detalhes sobre essa explicação de que, no gemini 2.5 pro, ao usar structured output, caractere=token; não entendi bem a diferença
O site está fora do ar agora, mas também queria recomendar a calculadora de preços de LLM do Simon Willison (llm-prices.com)
Se eu tiver um orçamento de cerca de $2500 para hardware, queria saber que modelos eu conseguiria rodar localmente; se isso não for suficiente, quanto seria necessário e seria ótimo ter um tutorial sobre como fazer isso por conta própria em ambiente local
- Se você tem interesse em usar LLMs locais, ollama.com é um bom ponto de partida; dá para converter o número de nós em capacidade de RAM (GB); por exemplo, o modelo Deepseek-r1:7b precisa de cerca de 7GB; quanto maior a janela de contexto, mais memória será necessária; se você pretende montar uma máquina de IA com orçamento de $2500, recomendo uma configuração com bastante memória unificada, como LPDDR5; link de referência: Framework AIMax300
- Há 18 meses comprei um Mac Mini M2Pro 32GB por $1900, e ele roda tranquilamente até modelos locais quantizados de 40B; quando os modelos locais não têm desempenho suficiente, também uso a combinação Gemini 2.5 flash/pro com gemini-cli; tanto APIs comerciais quanto modelos locais têm muitas boas opções, então o melhor é escolher uma de cada e focar em montar tudo rapidamente
- O melhor é comprar 2 placas de vídeo 3090 usadas, por perto de $600 cada; a 3090 ainda tem um excelente custo-benefício
- Kimi e deepseek são alguns dos poucos modelos cuja diferença de desempenho não é tão grande mesmo em comparação com os principais provedores de nuvem
- Alguns modelos da linha ollama podem rodar sem problema mesmo com apenas uma CPU razoável
Antes, a única opção para descobrir preços por provedor era visitar site por site; a OpenRouter é uma boa alternativa, porque lista também os modelos abertos e dá para ter uma noção aproximada do preço/tamanho real do modelo e de quanto subsídio ele está recebendo no momento
- A API da OpenRouter tem um endpoint para consultar modelos e informações de preço (documentação da API de modelos da OpenRouter); o ponto fraco é que ela fornece informação de apenas um provedor por modelo; isso não é um problema para modelos comerciais, mas, no caso de modelos open source, o preço pode variar de 5 a 10 vezes entre provedores, então deve ser usado apenas como referência
Queria que existisse algum material que combinasse dados de preço com informações gerais de benchmark para mostrar qual modelo tem o melhor “custo-benefício (pontuação de benchmark/custo por token)”
A política de preços de cada provedor é muito mais complexa do que simples cobrança de input/output
- Preço em horário de menor demanda da DeepSeek
- Preço em lote (batch) da OpenAI/Anthropic
- Preço por janela de contexto do Google/Grok
- Cobrança separada de tokens thinking/non-thinking da Qwen
- Preço em tiers para tokens de entrada do Qwen coder
  Como referência, um post relacionado: X.com paradite_

Price Per Token (preço por token) – dados de preços de API de LLM

Leituras relacionadas

1 comentários

Comentários no Hacker News