- Um estudo em larga escala que analisou dados reais de uso de LLM com mais de 100 trilhões de tokens, rastreando a mudança fundamental no modo de raciocínio da IA após o lançamento do modelo de raciocínio o1 em dezembro de 2024
- Os modelos open source cresceram até cerca de 30% do uso total, enquanto modelos open source chineses como DeepSeek V3 e Kimi K2 ampliaram rapidamente sua participação
- Roleplay e programação formam os dois principais eixos de uso de LLM, e mais da metade do uso de modelos open source está concentrada em roleplay, contrariando a hipótese de foco em produtividade
- Modelos de raciocínio processam mais de 50% de todos os tokens, e o raciocínio agentic surge como novo padrão básico, com aumento de chamadas de ferramentas e tarefas em múltiplas etapas
- Foi identificado o efeito "sapatinho de cristal", em que usuários iniciais apresentam alta retenção no longo prazo, sugerindo que a adequação entre modelo e carga de trabalho é uma vantagem competitiva central
Visão geral do estudo e metodologia
- A OpenRouter é uma plataforma multimodelo de inferência de IA que oferece suporte a mais de 300 modelos e mais de 60 provedores, atendendo milhões de desenvolvedores e usuários finais em todo o mundo
- O conjunto de dados analisado é composto por cerca de 2 anos de metadados anonimizados no nível de requisição, sem acesso aos prompts nem aos textos gerados
- Todas as análises foram realizadas na plataforma analítica Hex, com consultas SQL reprodutíveis, transformações e pipelines de visualização
- A classificação de conteúdo foi feita por meio de amostragem aleatória de cerca de 0,25% de todos os prompts, usando o GoogleTagClassifier, com categorias como programação, roleplay, tradução, Q&A geral, produtividade/escrita, educação, literatura/criação e adulto
- A análise regional determina a localização do usuário com base em billing location, usada como proxy mais estável do que IP
- O período de análise abrange principalmente os 13 meses entre novembro de 2024 e novembro de 2025, enquanto a análise de classificação por categoria se baseia em dados a partir de maio de 2025
Open source vs. modelos fechados
- Modelos open source (OSS) são definidos como modelos com pesos publicados, enquanto modelos fechados são acessíveis apenas por APIs restritas (ex.: Anthropic Claude)
- A participação dos modelos open source aumentou de forma consistente e chegou a cerca de 30% no fim de 2025, em linha com o lançamento de grandes modelos OSS como DeepSeek V3 e Kimi K2
- Modelos desenvolvidos na China dispararam de 1,2% de participação semanal no fim de 2024 para cerca de 30% em algumas semanas, com média anual de aproximadamente 13,0%
- Qwen, DeepSeek e outros lideraram esse crescimento com iterações rápidas e ciclos de lançamento densos
- Modelos fechados ainda definem o padrão de confiabilidade e teto de desempenho, mantendo vantagem em cargas reguladas ou corporativas
- Modelos OSS são atraentes em termos de eficiência de custo, transparência e customização, formando atualmente um ponto de equilíbrio em torno de 30%
- Os dois tipos de modelo não são mutuamente exclusivos e são usados de forma complementar em uma stack multimodelo
-
Principais players open source
- A DeepSeek é a maior contribuinte entre os OSS, com 14,37 trilhões de tokens no total, embora novos entrantes estejam ganhando participação rapidamente
- Qwen (5,59 trilhões), Meta LLaMA (3,96 trilhões) e Mistral AI (2,92 trilhões) vêm na sequência no ranking
- Após a Summer Inflection em meados de 2025, a estrutura de mercado passou de quase monopólio para pluralidade
- Kimi K2, da MoonshotAI, a série GPT-OSS, da OpenAI, e MiniMax M2 alcançaram adoção de nível de produção em poucas semanas
- No fim de 2025, nenhum modelo isolado supera 25% dos tokens OSS, e a participação está distribuída entre 5 a 7 modelos
- O ecossistema OSS é um ambiente competitivo altamente dinâmico, com ciclo de inovação rápido e liderança não garantida
-
Tamanho do modelo vs. adequação ao mercado: o médio é o novo pequeno
- Classificação por tamanho de modelo: pequeno (menos de 15B), médio (15B~70B), grande (acima de 70B)
- Os modelos pequenos mostram tendência geral de queda de participação, com uso em retração apesar da oferta de novos modelos
- Os modelos médios passaram a formar uma categoria de fato com o lançamento do
Qwen2.5 Coder 32B em novembro de 2024
Mistral Small 3 (janeiro de 2025) e GPT-OSS 20B (agosto de 2025) surgiram como concorrentes fortes
- Isso sugere que os usuários buscam um equilíbrio entre capacidade e eficiência
- O segmento de modelos grandes se diversificou com vários concorrentes de alto desempenho, como
Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air e OpenAI GPT-OSS-120B
- A era de domínio dos modelos pequenos terminou, e o mercado caminha para uma divisão entre modelos médios e grandes
-
Casos de uso dos modelos open source
- O maior uso dos modelos OSS é em roleplay (cerca de 52%) e programação, e essas duas categorias representam a maior parte do consumo de tokens OSS
- O fato de roleplay responder por mais de 50% reflete que modelos abertos sofrem menos restrições de filtros de conteúdo, tornando-se atraentes para aplicações de fantasia ou entretenimento
- No caso dos modelos OSS chineses, roleplay é a maior categoria, com cerca de 33%, mas programação e tecnologia somadas chegam a 39%, formando maioria
- Qwen, DeepSeek e outros são cada vez mais usados para geração de código e workloads relacionados à infraestrutura
- Na categoria de programação, a participação dentro do OSS mudou de forma dinâmica entre OSS chineses e OSS ocidentais
- Em meados de 2025, os OSS chineses lideravam, mas no Q4 os OSS ocidentais, como Meta LLaMA-2 Code e a série OpenAI GPT-OSS, avançaram rapidamente
- No fim de 2025, o tráfego de roleplay está quase igualmente dividido entre RoW OSS (43%) e modelos fechados (42%), uma grande mudança em relação ao domínio inicial de 70% dos modelos fechados
A ascensão do raciocínio agentic
-
Modelos de raciocínio já respondem por mais da metade do uso total
- A participação de tokens processados por modelos otimizados para raciocínio saltou de nível marginal no início de 2025 para mais de 50%
- Esse movimento foi impulsionado pelo lançamento de sistemas de alto desempenho como GPT-5, Claude 4.5 e Gemini 3, além da preferência dos usuários por lógica em múltiplas etapas e workflows em estilo agente
- Nos dados mais recentes, o xAI Grok Code Fast 1 tem a maior participação no tráfego de raciocínio, seguido por Google Gemini 2.5 Pro/Flash
- O modelo aberto OpenAI gpt-oss-120b também mantém participação relevante, mostrando que desenvolvedores preferem OSS quando possível
-
Adoção crescente de chamadas de ferramentas
- A participação de tokens de requisições classificadas com motivo de término Tool Call segue em alta contínua
- As chamadas de ferramentas estavam inicialmente concentradas em OpenAI gpt-4o-mini e na série Anthropic Claude 3.5/3.7, mas a partir de meados de 2025 mais modelos passaram a oferecer suporte a ferramentas
- Após o fim de setembro de 2025, o Claude 4.5 Sonnet expandiu rapidamente sua participação, e
Grok Code Fast e GLM 4.5 também entraram nesse espaço
-
Mudanças na forma prompt-completion
- Os tokens médios de prompt aumentaram cerca de 4 vezes, de aproximadamente 1,5K para mais de 6K
- Os tokens médios de completion também quase triplicaram, de cerca de 150 para 400, principalmente devido ao aumento dos tokens de raciocínio
- Tarefas relacionadas à programação são o principal motor do aumento dos tokens de prompt, usando com frequência mais de 20K tokens de entrada
- As demais categorias permanecem relativamente estáveis e com menor volume
-
Sequências mais longas, interações mais complexas
- O comprimento médio das sequências aumentou mais de 3 vezes nos últimos 20 meses, saindo de menos de 2.000 tokens para mais de 5.400 tokens
- Prompts relacionados à programação registram em média comprimento de tokens 3 a 4 vezes maior que prompts de uso geral
- Sequências longas não refletem verbosidade do usuário, mas sim a característica de workflows agentic sofisticados embutidos
-
Implicações: raciocínio agentic é o novo padrão
- O aumento da participação do raciocínio, a expansão do uso de ferramentas, o alongamento das sequências e a maior complexidade da programação indicam uma mudança do eixo central de uso dos LLMs
- Uma requisição intermediária a LLM já não é mais uma pergunta simples ou uma instrução isolada, mas parte de um loop estruturado semelhante a um agente
- Para os provedores de modelos, latência, tratamento de ferramentas, suporte a contexto e robustez contra cadeias maliciosas de ferramentas se tornam cada vez mais importantes
- Em breve, se já não for o caso, o raciocínio agentic deve representar a maior parte da inferência
Categoria: como as pessoas usam LLMs?
-
Categoria dominante
- Programação é a categoria que mais cresce de forma consistente, saindo de cerca de 11% no início de 2025 para recentemente mais de 50%
- A série Anthropic Claude continua dominando mais de 60% dos gastos relacionados a programação
- Na semana de 17 de novembro, caiu pela primeira vez para abaixo de 60%
- A OpenAI ampliou sua participação de cerca de 2% para 8% desde julho, e o Google permaneceu estável em cerca de 15%
- A MiniMax chama atenção como uma entrante em rápida ascensão
-
Composição das tags dentro das categorias
- Roleplay: cerca de 60% é Games/Roleplaying Games, indicando uso mais como roleplay estruturado ou engine de personagens do que como chatbot casual
- Também inclui Writers Resources (15,6%) e conteúdo Adult (15,4%)
- Programação: mais de 2/3 está rotulado como Programming/Other, refletindo a natureza ampla de prompts de código de uso geral
- Development Tools (26,4%) e uma pequena participação de linguagens de script sugerem sinais de especialização emergente
- Tradução, ciência e saúde etc. têm estruturas internas relativamente planas
- Tradução: quase igualmente dividida entre Foreign Language Resources (51,1%) e Other
- Ciência: Machine Learning & AI (80,4%) domina, com a maioria sendo perguntas meta sobre IA
- Saúde: a categoria mais fragmentada, sem nenhuma subtags acima de 25%
- Finanças, academia e jurídico são muito mais dispersos, com nenhuma tag isolada chegando a 20%
-
Insights por provedor
- Anthropic Claude: uso de programação + técnico supera 80%, com pequenas parcelas de roleplay e Q&A geral
- Google: composição variada entre tradução, ciência, tecnologia, conhecimento geral etc., com a fatia de coding caindo para cerca de 18% no fim de 2025
- xAI: durante a maior parte do período, programação ficou acima de 80%, expandindo apenas no fim de novembro para tecnologia, roleplay, academia etc.
- Relacionado ao influxo de tráfego de não desenvolvedores por causa da distribuição gratuita
- OpenAI: no início de 2025, tarefas científicas eram mais da metade do uso, mas no fim do ano caíram para menos de 15%
- Uso relacionado a programação e tecnologia passou a representar 29% cada, somando mais da metade
- DeepSeek: roleplay, chat casual e interações voltadas a entretenimento dominam mais de 2/3
- Qwen: programação se manteve de forma consistente entre 40% e 60% durante todo o período, com alta volatilidade semanal em ciência, tecnologia, roleplay etc.
Região: como o uso de LLM varia por região
-
Distribuição regional de uso
- América do Norte é a maior região individual, mas ficou abaixo da metade do gasto total na maior parte do período observado
- Europa manteve de forma estável uma participação semanal de gastos na faixa de 10% a 20%
- Ásia está surgindo não só como produtora de modelos frontier, mas também como consumidora em rápida expansão
- Sua participação mais que dobrou, de cerca de 13% no início do conjunto de dados para cerca de 31% recentemente
- Distribuição por continente: América do Norte 47,22%, Ásia 28,61%, Europa 21,32%, Oceania 1,18%, América do Sul 1,21%, África 0,46%
- Top 10 países: Estados Unidos (47,17%), Singapura (9,21%), Alemanha (7,51%), China (6,01%), Coreia do Sul (2,88%), Países Baixos (2,65%), Reino Unido (2,52%), Canadá (1,90%), Japão (1,77%), Índia (1,62%)
-
Distribuição por idioma
- Inglês domina com 82,87%
- Chinês simplificado (4,95%), russo (2,47%), espanhol (1,43%), tailandês (1,03%), outros (7,25%)
Análise de retenção de usuários de LLM
-
Fenômeno do "sapatinho de cristal" da Cinderela
- A maioria dos gráficos de retenção é dominada por alto churn e rápida redução das coortes, mas as coortes iniciais de usuários mostram retenção durável ao longo do tempo
- Essas coortes fundacionais representam usuários cujas cargas de trabalho alcançaram um encaixe profundo e duradouro entre workload e modelo
- Efeito sapatinho de cristal: no ecossistema de IA em rápida mudança, cada novo modelo frontier é "testado" em cargas de trabalho valiosas que antes não eram atendidas, e quando se ajusta com precisão às restrições técnicas e econômicas, gera forte efeito de lock-in
- A coorte de junho de 2025 do
Gemini 2.5 Pro e a coorte de maio do Claude 4 Sonnet ficaram em aproximadamente 40% de retenção no quinto mês, bem acima das coortes posteriores
- GPT-4o Mini: uma única coorte fundacional (julho de 2024) estabeleceu no lançamento um encaixe dominante e persistente entre workload e modelo; depois disso, todas as coortes passaram a ter a mesma evasão
- Gemini 2.0 Flash, Llama 4 Maverick: não formaram coortes fundacionais de alto desempenho, então todas as coortes tiveram desempenho igualmente fraco, sem serem percebidos como "frontier"
- Efeito bumerangue dos modelos DeepSeek: em vez da queda monotônica típica, observou-se um fenômeno de salto de retorno
- A coorte de abril de 2025 do DeepSeek R1 teve aumento na retenção no terceiro mês, e a coorte de julho do DeepSeek Chat V3-0324 no segundo mês
- Isso indica usuários que voltam depois de testar alternativas
-
Implicações
- Ser o primeiro a resolver um problema funciona como vantagem persistente
- Padrões de retenção no nível de coorte são um sinal empírico de diferenciação entre modelos
- Restrição temporal da janela frontier: a janela em que um modelo pode conquistar usuários fundacionais é estreita e temporária, mas decisiva para a dinâmica de adoção de longo prazo
- Coortes fundacionais são a impressão digital de progresso técnico real e o ponto em que modelos de IA passaram de novidade a item essencial
Dinâmica entre custo e uso
-
Análise segmentada de workloads de IA por categoria
- Estrutura de quatro quadrantes baseada no custo mediano de US$ 0,73/1M tokens
- Workloads premium (quadrante superior direito): aplicações de alto custo e alto uso, incluindo
technology e science
technology é a mais cara e ainda mantém alto uso, sugerindo necessidade de modelos fortes para design de sistemas complexos ou arquitetura
- Motores de volume de mercado de massa (quadrante superior esquerdo): alto uso e baixo custo, dominados por
roleplay, programming e science
programming é a categoria "killer professional", com o maior volume de uso e custo intermediário altamente otimizado
- O volume de
roleplay chega perto do de programming, mostrando que roleplay voltado ao consumidor gera engajamento no mesmo nível que os principais usos profissionais
- Especialistas profissionais (quadrante inferior direito): baixo volume e alto custo, incluindo
finance, academia, health e marketing
- Nichos profissionais especializados de alto risco, com alta demanda por precisão, confiabilidade e conhecimento específico de domínio
- Utilitários de nicho (quadrante inferior esquerdo): baixo custo e baixo volume, incluindo
translation, legal e trivia
- Utilitários funcionais e otimizados em custo, já comoditizados e com alternativas baratas disponíveis
-
Custo efetivo vs uso dos modelos de IA
- Em escala log-log, a correlação entre preço e volume de uso é fraca, com linha de tendência quase plana
- A demanda é relativamente inelástica ao preço: uma queda de 10% no preço aumenta o uso em cerca de 0,5% a 0,7%
- Dois regimes distintos: modelos fechados (OpenAI, Anthropic) na zona de alto custo e alto uso, e modelos abertos (DeepSeek, Mistral, Qwen) na zona de baixo custo e alto volume
- Quatro arquétipos de uso-custo:
- Líderes premium: Claude 3.7 Sonnet, Claude Sonnet 4 etc., alcançando alto uso em cerca de US$ 2/1M tokens
- Gigantes eficientes: Gemini 2.0 Flash, DeepSeek V3 0324 etc., com uso semelhante por menos de US$ 0,40/1M tokens
- Long tail: Qwen 2 7B Instruct, IBM Granite 4.0 Micro etc., por alguns centavos/1M tokens, mas com baixo uso devido a desempenho fraco ou visibilidade limitada
- Especialistas premium: GPT-4, GPT-5 Pro etc., com cerca de US$ 35/1M tokens e baixo uso, restritos a workloads de alto risco
- Evidência do paradoxo de Jevons: modelos muito baratos e rápidos são usados em mais tarefas, aumentando o consumo total de tokens
- Qualidade e capacidade muitas vezes superam o custo: o alto uso de modelos caros (Claude, GPT-4) mostra que, quando um modelo é claramente superior ou tem vantagem de confiança, os usuários aceitam arcar com custo mais alto
Discussão
- Ecossistema multimodelo: nenhum modelo único domina todos os usos, e tanto modelos fechados quanto abertos garantem participação significativa
- Diversidade de uso além da produtividade: mais da metade do uso de modelos open source é para roleplay e storytelling
- Destaque para oportunidades em aplicações voltadas ao consumidor, personalização e crossover entre IA e IPs de entretenimento
- Agentes vs. humanos: a ascensão do raciocínio agêntico: mudança de interações de turno único para raciocínio agêntico, com modelos que planejam, raciocinam e executam ao longo de várias etapas
- Panorama regional: o uso de LLMs está cada vez mais global e descentralizado, com a participação da Ásia subindo de 13% para 31% e a China emergindo como uma força importante
- Dinâmica entre custo e uso: o mercado de LLMs ainda não é uma commodity; preço sozinho não explica o volume de uso
- Modelos open source continuam empurrando a fronteira eficiente, comprimindo o poder de precificação dos sistemas fechados
- Retenção e o fenômeno do sapatinho de cristal da Cinderela: quando modelos de base dão um salto, a retenção é a verdadeira medida de defensabilidade
- A adequação entre modelo e workload é a principal vantagem competitiva
Limitações
- Os padrões observados em uma janela temporal finita de uma única plataforma (OpenRouter) oferecem apenas uma visão parcial do ecossistema mais amplo
- Uso corporativo, implantações com hospedagem local e sistemas internos fechados estão fora do escopo dos dados
- Parte da análise depende de medições por proxy: identificação de raciocínio agêntico por múltiplas etapas ou chamadas de ferramentas, inferência regional baseada em cobrança etc.
- Os resultados devem ser interpretados como padrões comportamentais indicativos, e não como medições definitivas
Conclusão
- Oferece uma visão empírica de como os LLMs estão sendo integrados à infraestrutura computacional mundial
- No último ano, o surgimento de modelos de nível o1 provocou uma mudança de etapa na percepção sobre raciocínio, levando a avaliação além de benchmarks single-shot para métricas baseadas em processo, trade-offs entre latência e custo e sucesso sob orquestração
- O ecossistema de LLMs é estruturalmente plural, com usuários escolhendo sistemas com base em vários eixos, como capacidade, latência, preço e confiança
- O próprio raciocínio também está mudando: de conclusões estáticas para orquestração dinâmica, com a ascensão do raciocínio agêntico
- Regionalmente, está mais descentralizado, com expansão da participação da Ásia e a China emergindo como desenvolvedora e exportadora de modelos
- O o1 não encerrou a competição; ele expandiu o espaço de design, deslocando o foco de apostas monolíticas para pensamento sistêmico, de intuição para instrumentação e de diferenças em leaderboard para análise empírica de uso
- A próxima etapa se concentra em excelência operacional: medir a conclusão de tarefas reais, reduzir a variância sob mudanças de distribuição e alinhar o comportamento dos modelos às exigências reais de workloads em escala de produção
Ainda não há comentários.