Relatório sobre o estado da IA da OpenRouter: estudo empírico de 100 trilhões de tokens

(openrouter.ai)

7 pontos por GN⁺ 2025-12-29 | Ainda não há comentários. | Compartilhar no WhatsApp

Um estudo em larga escala que analisou dados reais de uso de LLM com mais de 100 trilhões de tokens, rastreando a mudança fundamental no modo de raciocínio da IA após o lançamento do modelo de raciocínio o1 em dezembro de 2024
Os modelos open source cresceram até cerca de 30% do uso total, enquanto modelos open source chineses como DeepSeek V3 e Kimi K2 ampliaram rapidamente sua participação
Roleplay e programação formam os dois principais eixos de uso de LLM, e mais da metade do uso de modelos open source está concentrada em roleplay, contrariando a hipótese de foco em produtividade
Modelos de raciocínio processam mais de 50% de todos os tokens, e o raciocínio agentic surge como novo padrão básico, com aumento de chamadas de ferramentas e tarefas em múltiplas etapas
Foi identificado o efeito "sapatinho de cristal", em que usuários iniciais apresentam alta retenção no longo prazo, sugerindo que a adequação entre modelo e carga de trabalho é uma vantagem competitiva central

Visão geral do estudo e metodologia

A OpenRouter é uma plataforma multimodelo de inferência de IA que oferece suporte a mais de 300 modelos e mais de 60 provedores, atendendo milhões de desenvolvedores e usuários finais em todo o mundo
O conjunto de dados analisado é composto por cerca de 2 anos de metadados anonimizados no nível de requisição, sem acesso aos prompts nem aos textos gerados
Todas as análises foram realizadas na plataforma analítica Hex, com consultas SQL reprodutíveis, transformações e pipelines de visualização
A classificação de conteúdo foi feita por meio de amostragem aleatória de cerca de 0,25% de todos os prompts, usando o GoogleTagClassifier, com categorias como programação, roleplay, tradução, Q&A geral, produtividade/escrita, educação, literatura/criação e adulto
A análise regional determina a localização do usuário com base em billing location, usada como proxy mais estável do que IP
O período de análise abrange principalmente os 13 meses entre novembro de 2024 e novembro de 2025, enquanto a análise de classificação por categoria se baseia em dados a partir de maio de 2025

Open source vs. modelos fechados

Modelos open source (OSS) são definidos como modelos com pesos publicados, enquanto modelos fechados são acessíveis apenas por APIs restritas (ex.: Anthropic Claude)
A participação dos modelos open source aumentou de forma consistente e chegou a cerca de 30% no fim de 2025, em linha com o lançamento de grandes modelos OSS como DeepSeek V3 e Kimi K2
Modelos desenvolvidos na China dispararam de 1,2% de participação semanal no fim de 2024 para cerca de 30% em algumas semanas, com média anual de aproximadamente 13,0%
- Qwen, DeepSeek e outros lideraram esse crescimento com iterações rápidas e ciclos de lançamento densos
Modelos fechados ainda definem o padrão de confiabilidade e teto de desempenho, mantendo vantagem em cargas reguladas ou corporativas
Modelos OSS são atraentes em termos de eficiência de custo, transparência e customização, formando atualmente um ponto de equilíbrio em torno de 30%
Os dois tipos de modelo não são mutuamente exclusivos e são usados de forma complementar em uma stack multimodelo
Principais players open source
- A DeepSeek é a maior contribuinte entre os OSS, com 14,37 trilhões de tokens no total, embora novos entrantes estejam ganhando participação rapidamente
- Qwen (5,59 trilhões), Meta LLaMA (3,96 trilhões) e Mistral AI (2,92 trilhões) vêm na sequência no ranking
- Após a Summer Inflection em meados de 2025, a estrutura de mercado passou de quase monopólio para pluralidade
  - Kimi K2, da MoonshotAI, a série GPT-OSS, da OpenAI, e MiniMax M2 alcançaram adoção de nível de produção em poucas semanas
- No fim de 2025, nenhum modelo isolado supera 25% dos tokens OSS, e a participação está distribuída entre 5 a 7 modelos
- O ecossistema OSS é um ambiente competitivo altamente dinâmico, com ciclo de inovação rápido e liderança não garantida
Tamanho do modelo vs. adequação ao mercado: o médio é o novo pequeno
- Classificação por tamanho de modelo: pequeno (menos de 15B), médio (15B~70B), grande (acima de 70B)
- Os modelos pequenos mostram tendência geral de queda de participação, com uso em retração apesar da oferta de novos modelos
- Os modelos médios passaram a formar uma categoria de fato com o lançamento do Qwen2.5 Coder 32B em novembro de 2024
  - Mistral Small 3 (janeiro de 2025) e GPT-OSS 20B (agosto de 2025) surgiram como concorrentes fortes
  - Isso sugere que os usuários buscam um equilíbrio entre capacidade e eficiência
- O segmento de modelos grandes se diversificou com vários concorrentes de alto desempenho, como Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air e OpenAI GPT-OSS-120B
- A era de domínio dos modelos pequenos terminou, e o mercado caminha para uma divisão entre modelos médios e grandes
Casos de uso dos modelos open source
- O maior uso dos modelos OSS é em roleplay (cerca de 52%) e programação, e essas duas categorias representam a maior parte do consumo de tokens OSS
- O fato de roleplay responder por mais de 50% reflete que modelos abertos sofrem menos restrições de filtros de conteúdo, tornando-se atraentes para aplicações de fantasia ou entretenimento
- No caso dos modelos OSS chineses, roleplay é a maior categoria, com cerca de 33%, mas programação e tecnologia somadas chegam a 39%, formando maioria
  - Qwen, DeepSeek e outros são cada vez mais usados para geração de código e workloads relacionados à infraestrutura
- Na categoria de programação, a participação dentro do OSS mudou de forma dinâmica entre OSS chineses e OSS ocidentais
  - Em meados de 2025, os OSS chineses lideravam, mas no Q4 os OSS ocidentais, como Meta LLaMA-2 Code e a série OpenAI GPT-OSS, avançaram rapidamente
- No fim de 2025, o tráfego de roleplay está quase igualmente dividido entre RoW OSS (43%) e modelos fechados (42%), uma grande mudança em relação ao domínio inicial de 70% dos modelos fechados

A ascensão do raciocínio agentic

Modelos de raciocínio já respondem por mais da metade do uso total
- A participação de tokens processados por modelos otimizados para raciocínio saltou de nível marginal no início de 2025 para mais de 50%
- Esse movimento foi impulsionado pelo lançamento de sistemas de alto desempenho como GPT-5, Claude 4.5 e Gemini 3, além da preferência dos usuários por lógica em múltiplas etapas e workflows em estilo agente
- Nos dados mais recentes, o xAI Grok Code Fast 1 tem a maior participação no tráfego de raciocínio, seguido por Google Gemini 2.5 Pro/Flash
- O modelo aberto OpenAI gpt-oss-120b também mantém participação relevante, mostrando que desenvolvedores preferem OSS quando possível
Adoção crescente de chamadas de ferramentas
- A participação de tokens de requisições classificadas com motivo de término Tool Call segue em alta contínua
- As chamadas de ferramentas estavam inicialmente concentradas em OpenAI gpt-4o-mini e na série Anthropic Claude 3.5/3.7, mas a partir de meados de 2025 mais modelos passaram a oferecer suporte a ferramentas
- Após o fim de setembro de 2025, o Claude 4.5 Sonnet expandiu rapidamente sua participação, e Grok Code Fast e GLM 4.5 também entraram nesse espaço
Mudanças na forma prompt-completion
- Os tokens médios de prompt aumentaram cerca de 4 vezes, de aproximadamente 1,5K para mais de 6K
- Os tokens médios de completion também quase triplicaram, de cerca de 150 para 400, principalmente devido ao aumento dos tokens de raciocínio
- Tarefas relacionadas à programação são o principal motor do aumento dos tokens de prompt, usando com frequência mais de 20K tokens de entrada
- As demais categorias permanecem relativamente estáveis e com menor volume
Sequências mais longas, interações mais complexas
- O comprimento médio das sequências aumentou mais de 3 vezes nos últimos 20 meses, saindo de menos de 2.000 tokens para mais de 5.400 tokens
- Prompts relacionados à programação registram em média comprimento de tokens 3 a 4 vezes maior que prompts de uso geral
- Sequências longas não refletem verbosidade do usuário, mas sim a característica de workflows agentic sofisticados embutidos
Implicações: raciocínio agentic é o novo padrão
- O aumento da participação do raciocínio, a expansão do uso de ferramentas, o alongamento das sequências e a maior complexidade da programação indicam uma mudança do eixo central de uso dos LLMs
- Uma requisição intermediária a LLM já não é mais uma pergunta simples ou uma instrução isolada, mas parte de um loop estruturado semelhante a um agente
- Para os provedores de modelos, latência, tratamento de ferramentas, suporte a contexto e robustez contra cadeias maliciosas de ferramentas se tornam cada vez mais importantes
- Em breve, se já não for o caso, o raciocínio agentic deve representar a maior parte da inferência

Categoria: como as pessoas usam LLMs?

Categoria dominante
- Programação é a categoria que mais cresce de forma consistente, saindo de cerca de 11% no início de 2025 para recentemente mais de 50%
- A série Anthropic Claude continua dominando mais de 60% dos gastos relacionados a programação
  - Na semana de 17 de novembro, caiu pela primeira vez para abaixo de 60%
- A OpenAI ampliou sua participação de cerca de 2% para 8% desde julho, e o Google permaneceu estável em cerca de 15%
- A MiniMax chama atenção como uma entrante em rápida ascensão
Composição das tags dentro das categorias
- Roleplay: cerca de 60% é Games/Roleplaying Games, indicando uso mais como roleplay estruturado ou engine de personagens do que como chatbot casual
  - Também inclui Writers Resources (15,6%) e conteúdo Adult (15,4%)
- Programação: mais de 2/3 está rotulado como Programming/Other, refletindo a natureza ampla de prompts de código de uso geral
  - Development Tools (26,4%) e uma pequena participação de linguagens de script sugerem sinais de especialização emergente
- Tradução, ciência e saúde etc. têm estruturas internas relativamente planas
  - Tradução: quase igualmente dividida entre Foreign Language Resources (51,1%) e Other
  - Ciência: Machine Learning & AI (80,4%) domina, com a maioria sendo perguntas meta sobre IA
  - Saúde: a categoria mais fragmentada, sem nenhuma subtags acima de 25%
- Finanças, academia e jurídico são muito mais dispersos, com nenhuma tag isolada chegando a 20%
Insights por provedor
- Anthropic Claude: uso de programação + técnico supera 80%, com pequenas parcelas de roleplay e Q&A geral
- Google: composição variada entre tradução, ciência, tecnologia, conhecimento geral etc., com a fatia de coding caindo para cerca de 18% no fim de 2025
- xAI: durante a maior parte do período, programação ficou acima de 80%, expandindo apenas no fim de novembro para tecnologia, roleplay, academia etc.
  - Relacionado ao influxo de tráfego de não desenvolvedores por causa da distribuição gratuita
- OpenAI: no início de 2025, tarefas científicas eram mais da metade do uso, mas no fim do ano caíram para menos de 15%
  - Uso relacionado a programação e tecnologia passou a representar 29% cada, somando mais da metade
- DeepSeek: roleplay, chat casual e interações voltadas a entretenimento dominam mais de 2/3
- Qwen: programação se manteve de forma consistente entre 40% e 60% durante todo o período, com alta volatilidade semanal em ciência, tecnologia, roleplay etc.

Região: como o uso de LLM varia por região

Distribuição regional de uso
- América do Norte é a maior região individual, mas ficou abaixo da metade do gasto total na maior parte do período observado
- Europa manteve de forma estável uma participação semanal de gastos na faixa de 10% a 20%
- Ásia está surgindo não só como produtora de modelos frontier, mas também como consumidora em rápida expansão
  - Sua participação mais que dobrou, de cerca de 13% no início do conjunto de dados para cerca de 31% recentemente
- Distribuição por continente: América do Norte 47,22%, Ásia 28,61%, Europa 21,32%, Oceania 1,18%, América do Sul 1,21%, África 0,46%
- Top 10 países: Estados Unidos (47,17%), Singapura (9,21%), Alemanha (7,51%), China (6,01%), Coreia do Sul (2,88%), Países Baixos (2,65%), Reino Unido (2,52%), Canadá (1,90%), Japão (1,77%), Índia (1,62%)
Distribuição por idioma
- Inglês domina com 82,87%
- Chinês simplificado (4,95%), russo (2,47%), espanhol (1,43%), tailandês (1,03%), outros (7,25%)

Análise de retenção de usuários de LLM

Fenômeno do "sapatinho de cristal" da Cinderela
- A maioria dos gráficos de retenção é dominada por alto churn e rápida redução das coortes, mas as coortes iniciais de usuários mostram retenção durável ao longo do tempo
- Essas coortes fundacionais representam usuários cujas cargas de trabalho alcançaram um encaixe profundo e duradouro entre workload e modelo
- Efeito sapatinho de cristal: no ecossistema de IA em rápida mudança, cada novo modelo frontier é "testado" em cargas de trabalho valiosas que antes não eram atendidas, e quando se ajusta com precisão às restrições técnicas e econômicas, gera forte efeito de lock-in
- A coorte de junho de 2025 do Gemini 2.5 Pro e a coorte de maio do Claude 4 Sonnet ficaram em aproximadamente 40% de retenção no quinto mês, bem acima das coortes posteriores
- GPT-4o Mini: uma única coorte fundacional (julho de 2024) estabeleceu no lançamento um encaixe dominante e persistente entre workload e modelo; depois disso, todas as coortes passaram a ter a mesma evasão
- Gemini 2.0 Flash, Llama 4 Maverick: não formaram coortes fundacionais de alto desempenho, então todas as coortes tiveram desempenho igualmente fraco, sem serem percebidos como "frontier"
- Efeito bumerangue dos modelos DeepSeek: em vez da queda monotônica típica, observou-se um fenômeno de salto de retorno
  - A coorte de abril de 2025 do DeepSeek R1 teve aumento na retenção no terceiro mês, e a coorte de julho do DeepSeek Chat V3-0324 no segundo mês
  - Isso indica usuários que voltam depois de testar alternativas
Implicações
- Ser o primeiro a resolver um problema funciona como vantagem persistente
- Padrões de retenção no nível de coorte são um sinal empírico de diferenciação entre modelos
- Restrição temporal da janela frontier: a janela em que um modelo pode conquistar usuários fundacionais é estreita e temporária, mas decisiva para a dinâmica de adoção de longo prazo
- Coortes fundacionais são a impressão digital de progresso técnico real e o ponto em que modelos de IA passaram de novidade a item essencial

Dinâmica entre custo e uso

Análise segmentada de workloads de IA por categoria
- Estrutura de quatro quadrantes baseada no custo mediano de US$ 0,73/1M tokens
- Workloads premium (quadrante superior direito): aplicações de alto custo e alto uso, incluindo technology e science
  - technology é a mais cara e ainda mantém alto uso, sugerindo necessidade de modelos fortes para design de sistemas complexos ou arquitetura
- Motores de volume de mercado de massa (quadrante superior esquerdo): alto uso e baixo custo, dominados por roleplay, programming e science
  - programming é a categoria "killer professional", com o maior volume de uso e custo intermediário altamente otimizado
  - O volume de roleplay chega perto do de programming, mostrando que roleplay voltado ao consumidor gera engajamento no mesmo nível que os principais usos profissionais
- Especialistas profissionais (quadrante inferior direito): baixo volume e alto custo, incluindo finance, academia, health e marketing
  - Nichos profissionais especializados de alto risco, com alta demanda por precisão, confiabilidade e conhecimento específico de domínio
- Utilitários de nicho (quadrante inferior esquerdo): baixo custo e baixo volume, incluindo translation, legal e trivia
  - Utilitários funcionais e otimizados em custo, já comoditizados e com alternativas baratas disponíveis
Custo efetivo vs uso dos modelos de IA
- Em escala log-log, a correlação entre preço e volume de uso é fraca, com linha de tendência quase plana
- A demanda é relativamente inelástica ao preço: uma queda de 10% no preço aumenta o uso em cerca de 0,5% a 0,7%
- Dois regimes distintos: modelos fechados (OpenAI, Anthropic) na zona de alto custo e alto uso, e modelos abertos (DeepSeek, Mistral, Qwen) na zona de baixo custo e alto volume
- Quatro arquétipos de uso-custo:
  - Líderes premium: Claude 3.7 Sonnet, Claude Sonnet 4 etc., alcançando alto uso em cerca de US$ 2/1M tokens
  - Gigantes eficientes: Gemini 2.0 Flash, DeepSeek V3 0324 etc., com uso semelhante por menos de US$ 0,40/1M tokens
  - Long tail: Qwen 2 7B Instruct, IBM Granite 4.0 Micro etc., por alguns centavos/1M tokens, mas com baixo uso devido a desempenho fraco ou visibilidade limitada
  - Especialistas premium: GPT-4, GPT-5 Pro etc., com cerca de US$ 35/1M tokens e baixo uso, restritos a workloads de alto risco
- Evidência do paradoxo de Jevons: modelos muito baratos e rápidos são usados em mais tarefas, aumentando o consumo total de tokens
- Qualidade e capacidade muitas vezes superam o custo: o alto uso de modelos caros (Claude, GPT-4) mostra que, quando um modelo é claramente superior ou tem vantagem de confiança, os usuários aceitam arcar com custo mais alto

Discussão

Ecossistema multimodelo: nenhum modelo único domina todos os usos, e tanto modelos fechados quanto abertos garantem participação significativa
Diversidade de uso além da produtividade: mais da metade do uso de modelos open source é para roleplay e storytelling
- Destaque para oportunidades em aplicações voltadas ao consumidor, personalização e crossover entre IA e IPs de entretenimento
Agentes vs. humanos: a ascensão do raciocínio agêntico: mudança de interações de turno único para raciocínio agêntico, com modelos que planejam, raciocinam e executam ao longo de várias etapas
Panorama regional: o uso de LLMs está cada vez mais global e descentralizado, com a participação da Ásia subindo de 13% para 31% e a China emergindo como uma força importante
Dinâmica entre custo e uso: o mercado de LLMs ainda não é uma commodity; preço sozinho não explica o volume de uso
- Modelos open source continuam empurrando a fronteira eficiente, comprimindo o poder de precificação dos sistemas fechados
Retenção e o fenômeno do sapatinho de cristal da Cinderela: quando modelos de base dão um salto, a retenção é a verdadeira medida de defensabilidade
- A adequação entre modelo e workload é a principal vantagem competitiva

Limitações

Os padrões observados em uma janela temporal finita de uma única plataforma (OpenRouter) oferecem apenas uma visão parcial do ecossistema mais amplo
Uso corporativo, implantações com hospedagem local e sistemas internos fechados estão fora do escopo dos dados
Parte da análise depende de medições por proxy: identificação de raciocínio agêntico por múltiplas etapas ou chamadas de ferramentas, inferência regional baseada em cobrança etc.
Os resultados devem ser interpretados como padrões comportamentais indicativos, e não como medições definitivas

Conclusão

Oferece uma visão empírica de como os LLMs estão sendo integrados à infraestrutura computacional mundial
No último ano, o surgimento de modelos de nível o1 provocou uma mudança de etapa na percepção sobre raciocínio, levando a avaliação além de benchmarks single-shot para métricas baseadas em processo, trade-offs entre latência e custo e sucesso sob orquestração
O ecossistema de LLMs é estruturalmente plural, com usuários escolhendo sistemas com base em vários eixos, como capacidade, latência, preço e confiança
O próprio raciocínio também está mudando: de conclusões estáticas para orquestração dinâmica, com a ascensão do raciocínio agêntico
Regionalmente, está mais descentralizado, com expansão da participação da Ásia e a China emergindo como desenvolvedora e exportadora de modelos
O o1 não encerrou a competição; ele expandiu o espaço de design, deslocando o foco de apostas monolíticas para pensamento sistêmico, de intuição para instrumentação e de diferenças em leaderboard para análise empírica de uso
A próxima etapa se concentra em excelência operacional: medir a conclusão de tarefas reais, reduzir a variância sob mudanças de distribuição e alinhar o comportamento dos modelos às exigências reais de workloads em escala de produção

Relatório sobre o estado da IA da OpenRouter: estudo empírico de 100 trilhões de tokens

Visão geral do estudo e metodologia

Open source vs. modelos fechados

Principais players open source

Tamanho do modelo vs. adequação ao mercado: o médio é o novo pequeno

Casos de uso dos modelos open source

A ascensão do raciocínio agentic

Modelos de raciocínio já respondem por mais da metade do uso total

Adoção crescente de chamadas de ferramentas

Mudanças na forma prompt-completion

Sequências mais longas, interações mais complexas

Implicações: raciocínio agentic é o novo padrão

Categoria: como as pessoas usam LLMs?

Categoria dominante

Composição das tags dentro das categorias

Insights por provedor

Região: como o uso de LLM varia por região

Distribuição regional de uso

Distribuição por idioma

Análise de retenção de usuários de LLM

Fenômeno do "sapatinho de cristal" da Cinderela

Implicações

Dinâmica entre custo e uso

Análise segmentada de workloads de IA por categoria

Custo efetivo vs uso dos modelos de IA

Discussão

Limitações

Conclusão

Leituras relacionadas

Ainda não há comentários.