7 pontos por GN⁺ 2025-12-29 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Um estudo em larga escala que analisou dados reais de uso de LLM com mais de 100 trilhões de tokens, rastreando a mudança fundamental no modo de raciocínio da IA após o lançamento do modelo de raciocínio o1 em dezembro de 2024
  • Os modelos open source cresceram até cerca de 30% do uso total, enquanto modelos open source chineses como DeepSeek V3 e Kimi K2 ampliaram rapidamente sua participação
  • Roleplay e programação formam os dois principais eixos de uso de LLM, e mais da metade do uso de modelos open source está concentrada em roleplay, contrariando a hipótese de foco em produtividade
  • Modelos de raciocínio processam mais de 50% de todos os tokens, e o raciocínio agentic surge como novo padrão básico, com aumento de chamadas de ferramentas e tarefas em múltiplas etapas
  • Foi identificado o efeito "sapatinho de cristal", em que usuários iniciais apresentam alta retenção no longo prazo, sugerindo que a adequação entre modelo e carga de trabalho é uma vantagem competitiva central

Visão geral do estudo e metodologia

  • A OpenRouter é uma plataforma multimodelo de inferência de IA que oferece suporte a mais de 300 modelos e mais de 60 provedores, atendendo milhões de desenvolvedores e usuários finais em todo o mundo
  • O conjunto de dados analisado é composto por cerca de 2 anos de metadados anonimizados no nível de requisição, sem acesso aos prompts nem aos textos gerados
  • Todas as análises foram realizadas na plataforma analítica Hex, com consultas SQL reprodutíveis, transformações e pipelines de visualização
  • A classificação de conteúdo foi feita por meio de amostragem aleatória de cerca de 0,25% de todos os prompts, usando o GoogleTagClassifier, com categorias como programação, roleplay, tradução, Q&A geral, produtividade/escrita, educação, literatura/criação e adulto
  • A análise regional determina a localização do usuário com base em billing location, usada como proxy mais estável do que IP
  • O período de análise abrange principalmente os 13 meses entre novembro de 2024 e novembro de 2025, enquanto a análise de classificação por categoria se baseia em dados a partir de maio de 2025

Open source vs. modelos fechados

  • Modelos open source (OSS) são definidos como modelos com pesos publicados, enquanto modelos fechados são acessíveis apenas por APIs restritas (ex.: Anthropic Claude)
  • A participação dos modelos open source aumentou de forma consistente e chegou a cerca de 30% no fim de 2025, em linha com o lançamento de grandes modelos OSS como DeepSeek V3 e Kimi K2
  • Modelos desenvolvidos na China dispararam de 1,2% de participação semanal no fim de 2024 para cerca de 30% em algumas semanas, com média anual de aproximadamente 13,0%
    • Qwen, DeepSeek e outros lideraram esse crescimento com iterações rápidas e ciclos de lançamento densos
  • Modelos fechados ainda definem o padrão de confiabilidade e teto de desempenho, mantendo vantagem em cargas reguladas ou corporativas
  • Modelos OSS são atraentes em termos de eficiência de custo, transparência e customização, formando atualmente um ponto de equilíbrio em torno de 30%
  • Os dois tipos de modelo não são mutuamente exclusivos e são usados de forma complementar em uma stack multimodelo
  • Principais players open source

    • A DeepSeek é a maior contribuinte entre os OSS, com 14,37 trilhões de tokens no total, embora novos entrantes estejam ganhando participação rapidamente
    • Qwen (5,59 trilhões), Meta LLaMA (3,96 trilhões) e Mistral AI (2,92 trilhões) vêm na sequência no ranking
    • Após a Summer Inflection em meados de 2025, a estrutura de mercado passou de quase monopólio para pluralidade
      • Kimi K2, da MoonshotAI, a série GPT-OSS, da OpenAI, e MiniMax M2 alcançaram adoção de nível de produção em poucas semanas
    • No fim de 2025, nenhum modelo isolado supera 25% dos tokens OSS, e a participação está distribuída entre 5 a 7 modelos
    • O ecossistema OSS é um ambiente competitivo altamente dinâmico, com ciclo de inovação rápido e liderança não garantida
  • Tamanho do modelo vs. adequação ao mercado: o médio é o novo pequeno

    • Classificação por tamanho de modelo: pequeno (menos de 15B), médio (15B~70B), grande (acima de 70B)
    • Os modelos pequenos mostram tendência geral de queda de participação, com uso em retração apesar da oferta de novos modelos
    • Os modelos médios passaram a formar uma categoria de fato com o lançamento do Qwen2.5 Coder 32B em novembro de 2024
      • Mistral Small 3 (janeiro de 2025) e GPT-OSS 20B (agosto de 2025) surgiram como concorrentes fortes
      • Isso sugere que os usuários buscam um equilíbrio entre capacidade e eficiência
    • O segmento de modelos grandes se diversificou com vários concorrentes de alto desempenho, como Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air e OpenAI GPT-OSS-120B
    • A era de domínio dos modelos pequenos terminou, e o mercado caminha para uma divisão entre modelos médios e grandes
  • Casos de uso dos modelos open source

    • O maior uso dos modelos OSS é em roleplay (cerca de 52%) e programação, e essas duas categorias representam a maior parte do consumo de tokens OSS
    • O fato de roleplay responder por mais de 50% reflete que modelos abertos sofrem menos restrições de filtros de conteúdo, tornando-se atraentes para aplicações de fantasia ou entretenimento
    • No caso dos modelos OSS chineses, roleplay é a maior categoria, com cerca de 33%, mas programação e tecnologia somadas chegam a 39%, formando maioria
      • Qwen, DeepSeek e outros são cada vez mais usados para geração de código e workloads relacionados à infraestrutura
    • Na categoria de programação, a participação dentro do OSS mudou de forma dinâmica entre OSS chineses e OSS ocidentais
      • Em meados de 2025, os OSS chineses lideravam, mas no Q4 os OSS ocidentais, como Meta LLaMA-2 Code e a série OpenAI GPT-OSS, avançaram rapidamente
    • No fim de 2025, o tráfego de roleplay está quase igualmente dividido entre RoW OSS (43%) e modelos fechados (42%), uma grande mudança em relação ao domínio inicial de 70% dos modelos fechados

A ascensão do raciocínio agentic

  • Modelos de raciocínio já respondem por mais da metade do uso total

    • A participação de tokens processados por modelos otimizados para raciocínio saltou de nível marginal no início de 2025 para mais de 50%
    • Esse movimento foi impulsionado pelo lançamento de sistemas de alto desempenho como GPT-5, Claude 4.5 e Gemini 3, além da preferência dos usuários por lógica em múltiplas etapas e workflows em estilo agente
    • Nos dados mais recentes, o xAI Grok Code Fast 1 tem a maior participação no tráfego de raciocínio, seguido por Google Gemini 2.5 Pro/Flash
    • O modelo aberto OpenAI gpt-oss-120b também mantém participação relevante, mostrando que desenvolvedores preferem OSS quando possível
  • Adoção crescente de chamadas de ferramentas

    • A participação de tokens de requisições classificadas com motivo de término Tool Call segue em alta contínua
    • As chamadas de ferramentas estavam inicialmente concentradas em OpenAI gpt-4o-mini e na série Anthropic Claude 3.5/3.7, mas a partir de meados de 2025 mais modelos passaram a oferecer suporte a ferramentas
    • Após o fim de setembro de 2025, o Claude 4.5 Sonnet expandiu rapidamente sua participação, e Grok Code Fast e GLM 4.5 também entraram nesse espaço
  • Mudanças na forma prompt-completion

    • Os tokens médios de prompt aumentaram cerca de 4 vezes, de aproximadamente 1,5K para mais de 6K
    • Os tokens médios de completion também quase triplicaram, de cerca de 150 para 400, principalmente devido ao aumento dos tokens de raciocínio
    • Tarefas relacionadas à programação são o principal motor do aumento dos tokens de prompt, usando com frequência mais de 20K tokens de entrada
    • As demais categorias permanecem relativamente estáveis e com menor volume
  • Sequências mais longas, interações mais complexas

    • O comprimento médio das sequências aumentou mais de 3 vezes nos últimos 20 meses, saindo de menos de 2.000 tokens para mais de 5.400 tokens
    • Prompts relacionados à programação registram em média comprimento de tokens 3 a 4 vezes maior que prompts de uso geral
    • Sequências longas não refletem verbosidade do usuário, mas sim a característica de workflows agentic sofisticados embutidos
  • Implicações: raciocínio agentic é o novo padrão

    • O aumento da participação do raciocínio, a expansão do uso de ferramentas, o alongamento das sequências e a maior complexidade da programação indicam uma mudança do eixo central de uso dos LLMs
    • Uma requisição intermediária a LLM já não é mais uma pergunta simples ou uma instrução isolada, mas parte de um loop estruturado semelhante a um agente
    • Para os provedores de modelos, latência, tratamento de ferramentas, suporte a contexto e robustez contra cadeias maliciosas de ferramentas se tornam cada vez mais importantes
    • Em breve, se já não for o caso, o raciocínio agentic deve representar a maior parte da inferência

Categoria: como as pessoas usam LLMs?

  • Categoria dominante

    • Programação é a categoria que mais cresce de forma consistente, saindo de cerca de 11% no início de 2025 para recentemente mais de 50%
    • A série Anthropic Claude continua dominando mais de 60% dos gastos relacionados a programação
      • Na semana de 17 de novembro, caiu pela primeira vez para abaixo de 60%
    • A OpenAI ampliou sua participação de cerca de 2% para 8% desde julho, e o Google permaneceu estável em cerca de 15%
    • A MiniMax chama atenção como uma entrante em rápida ascensão
  • Composição das tags dentro das categorias

    • Roleplay: cerca de 60% é Games/Roleplaying Games, indicando uso mais como roleplay estruturado ou engine de personagens do que como chatbot casual
      • Também inclui Writers Resources (15,6%) e conteúdo Adult (15,4%)
    • Programação: mais de 2/3 está rotulado como Programming/Other, refletindo a natureza ampla de prompts de código de uso geral
      • Development Tools (26,4%) e uma pequena participação de linguagens de script sugerem sinais de especialização emergente
    • Tradução, ciência e saúde etc. têm estruturas internas relativamente planas
      • Tradução: quase igualmente dividida entre Foreign Language Resources (51,1%) e Other
      • Ciência: Machine Learning & AI (80,4%) domina, com a maioria sendo perguntas meta sobre IA
      • Saúde: a categoria mais fragmentada, sem nenhuma subtags acima de 25%
    • Finanças, academia e jurídico são muito mais dispersos, com nenhuma tag isolada chegando a 20%
  • Insights por provedor

    • Anthropic Claude: uso de programação + técnico supera 80%, com pequenas parcelas de roleplay e Q&A geral
    • Google: composição variada entre tradução, ciência, tecnologia, conhecimento geral etc., com a fatia de coding caindo para cerca de 18% no fim de 2025
    • xAI: durante a maior parte do período, programação ficou acima de 80%, expandindo apenas no fim de novembro para tecnologia, roleplay, academia etc.
      • Relacionado ao influxo de tráfego de não desenvolvedores por causa da distribuição gratuita
    • OpenAI: no início de 2025, tarefas científicas eram mais da metade do uso, mas no fim do ano caíram para menos de 15%
      • Uso relacionado a programação e tecnologia passou a representar 29% cada, somando mais da metade
    • DeepSeek: roleplay, chat casual e interações voltadas a entretenimento dominam mais de 2/3
    • Qwen: programação se manteve de forma consistente entre 40% e 60% durante todo o período, com alta volatilidade semanal em ciência, tecnologia, roleplay etc.

Região: como o uso de LLM varia por região

  • Distribuição regional de uso

    • América do Norte é a maior região individual, mas ficou abaixo da metade do gasto total na maior parte do período observado
    • Europa manteve de forma estável uma participação semanal de gastos na faixa de 10% a 20%
    • Ásia está surgindo não só como produtora de modelos frontier, mas também como consumidora em rápida expansão
      • Sua participação mais que dobrou, de cerca de 13% no início do conjunto de dados para cerca de 31% recentemente
    • Distribuição por continente: América do Norte 47,22%, Ásia 28,61%, Europa 21,32%, Oceania 1,18%, América do Sul 1,21%, África 0,46%
    • Top 10 países: Estados Unidos (47,17%), Singapura (9,21%), Alemanha (7,51%), China (6,01%), Coreia do Sul (2,88%), Países Baixos (2,65%), Reino Unido (2,52%), Canadá (1,90%), Japão (1,77%), Índia (1,62%)
  • Distribuição por idioma

    • Inglês domina com 82,87%
    • Chinês simplificado (4,95%), russo (2,47%), espanhol (1,43%), tailandês (1,03%), outros (7,25%)

Análise de retenção de usuários de LLM

  • Fenômeno do "sapatinho de cristal" da Cinderela

    • A maioria dos gráficos de retenção é dominada por alto churn e rápida redução das coortes, mas as coortes iniciais de usuários mostram retenção durável ao longo do tempo
    • Essas coortes fundacionais representam usuários cujas cargas de trabalho alcançaram um encaixe profundo e duradouro entre workload e modelo
    • Efeito sapatinho de cristal: no ecossistema de IA em rápida mudança, cada novo modelo frontier é "testado" em cargas de trabalho valiosas que antes não eram atendidas, e quando se ajusta com precisão às restrições técnicas e econômicas, gera forte efeito de lock-in
    • A coorte de junho de 2025 do Gemini 2.5 Pro e a coorte de maio do Claude 4 Sonnet ficaram em aproximadamente 40% de retenção no quinto mês, bem acima das coortes posteriores
    • GPT-4o Mini: uma única coorte fundacional (julho de 2024) estabeleceu no lançamento um encaixe dominante e persistente entre workload e modelo; depois disso, todas as coortes passaram a ter a mesma evasão
    • Gemini 2.0 Flash, Llama 4 Maverick: não formaram coortes fundacionais de alto desempenho, então todas as coortes tiveram desempenho igualmente fraco, sem serem percebidos como "frontier"
    • Efeito bumerangue dos modelos DeepSeek: em vez da queda monotônica típica, observou-se um fenômeno de salto de retorno
      • A coorte de abril de 2025 do DeepSeek R1 teve aumento na retenção no terceiro mês, e a coorte de julho do DeepSeek Chat V3-0324 no segundo mês
      • Isso indica usuários que voltam depois de testar alternativas
  • Implicações

    • Ser o primeiro a resolver um problema funciona como vantagem persistente
    • Padrões de retenção no nível de coorte são um sinal empírico de diferenciação entre modelos
    • Restrição temporal da janela frontier: a janela em que um modelo pode conquistar usuários fundacionais é estreita e temporária, mas decisiva para a dinâmica de adoção de longo prazo
    • Coortes fundacionais são a impressão digital de progresso técnico real e o ponto em que modelos de IA passaram de novidade a item essencial

Dinâmica entre custo e uso

  • Análise segmentada de workloads de IA por categoria

    • Estrutura de quatro quadrantes baseada no custo mediano de US$ 0,73/1M tokens
    • Workloads premium (quadrante superior direito): aplicações de alto custo e alto uso, incluindo technology e science
      • technology é a mais cara e ainda mantém alto uso, sugerindo necessidade de modelos fortes para design de sistemas complexos ou arquitetura
    • Motores de volume de mercado de massa (quadrante superior esquerdo): alto uso e baixo custo, dominados por roleplay, programming e science
      • programming é a categoria "killer professional", com o maior volume de uso e custo intermediário altamente otimizado
      • O volume de roleplay chega perto do de programming, mostrando que roleplay voltado ao consumidor gera engajamento no mesmo nível que os principais usos profissionais
    • Especialistas profissionais (quadrante inferior direito): baixo volume e alto custo, incluindo finance, academia, health e marketing
      • Nichos profissionais especializados de alto risco, com alta demanda por precisão, confiabilidade e conhecimento específico de domínio
    • Utilitários de nicho (quadrante inferior esquerdo): baixo custo e baixo volume, incluindo translation, legal e trivia
      • Utilitários funcionais e otimizados em custo, já comoditizados e com alternativas baratas disponíveis
  • Custo efetivo vs uso dos modelos de IA

    • Em escala log-log, a correlação entre preço e volume de uso é fraca, com linha de tendência quase plana
    • A demanda é relativamente inelástica ao preço: uma queda de 10% no preço aumenta o uso em cerca de 0,5% a 0,7%
    • Dois regimes distintos: modelos fechados (OpenAI, Anthropic) na zona de alto custo e alto uso, e modelos abertos (DeepSeek, Mistral, Qwen) na zona de baixo custo e alto volume
    • Quatro arquétipos de uso-custo:
      • Líderes premium: Claude 3.7 Sonnet, Claude Sonnet 4 etc., alcançando alto uso em cerca de US$ 2/1M tokens
      • Gigantes eficientes: Gemini 2.0 Flash, DeepSeek V3 0324 etc., com uso semelhante por menos de US$ 0,40/1M tokens
      • Long tail: Qwen 2 7B Instruct, IBM Granite 4.0 Micro etc., por alguns centavos/1M tokens, mas com baixo uso devido a desempenho fraco ou visibilidade limitada
      • Especialistas premium: GPT-4, GPT-5 Pro etc., com cerca de US$ 35/1M tokens e baixo uso, restritos a workloads de alto risco
    • Evidência do paradoxo de Jevons: modelos muito baratos e rápidos são usados em mais tarefas, aumentando o consumo total de tokens
    • Qualidade e capacidade muitas vezes superam o custo: o alto uso de modelos caros (Claude, GPT-4) mostra que, quando um modelo é claramente superior ou tem vantagem de confiança, os usuários aceitam arcar com custo mais alto

Discussão

  • Ecossistema multimodelo: nenhum modelo único domina todos os usos, e tanto modelos fechados quanto abertos garantem participação significativa
  • Diversidade de uso além da produtividade: mais da metade do uso de modelos open source é para roleplay e storytelling
    • Destaque para oportunidades em aplicações voltadas ao consumidor, personalização e crossover entre IA e IPs de entretenimento
  • Agentes vs. humanos: a ascensão do raciocínio agêntico: mudança de interações de turno único para raciocínio agêntico, com modelos que planejam, raciocinam e executam ao longo de várias etapas
  • Panorama regional: o uso de LLMs está cada vez mais global e descentralizado, com a participação da Ásia subindo de 13% para 31% e a China emergindo como uma força importante
  • Dinâmica entre custo e uso: o mercado de LLMs ainda não é uma commodity; preço sozinho não explica o volume de uso
    • Modelos open source continuam empurrando a fronteira eficiente, comprimindo o poder de precificação dos sistemas fechados
  • Retenção e o fenômeno do sapatinho de cristal da Cinderela: quando modelos de base dão um salto, a retenção é a verdadeira medida de defensabilidade
    • A adequação entre modelo e workload é a principal vantagem competitiva

Limitações

  • Os padrões observados em uma janela temporal finita de uma única plataforma (OpenRouter) oferecem apenas uma visão parcial do ecossistema mais amplo
  • Uso corporativo, implantações com hospedagem local e sistemas internos fechados estão fora do escopo dos dados
  • Parte da análise depende de medições por proxy: identificação de raciocínio agêntico por múltiplas etapas ou chamadas de ferramentas, inferência regional baseada em cobrança etc.
  • Os resultados devem ser interpretados como padrões comportamentais indicativos, e não como medições definitivas

Conclusão

  • Oferece uma visão empírica de como os LLMs estão sendo integrados à infraestrutura computacional mundial
  • No último ano, o surgimento de modelos de nível o1 provocou uma mudança de etapa na percepção sobre raciocínio, levando a avaliação além de benchmarks single-shot para métricas baseadas em processo, trade-offs entre latência e custo e sucesso sob orquestração
  • O ecossistema de LLMs é estruturalmente plural, com usuários escolhendo sistemas com base em vários eixos, como capacidade, latência, preço e confiança
  • O próprio raciocínio também está mudando: de conclusões estáticas para orquestração dinâmica, com a ascensão do raciocínio agêntico
  • Regionalmente, está mais descentralizado, com expansão da participação da Ásia e a China emergindo como desenvolvedora e exportadora de modelos
  • O o1 não encerrou a competição; ele expandiu o espaço de design, deslocando o foco de apostas monolíticas para pensamento sistêmico, de intuição para instrumentação e de diferenças em leaderboard para análise empírica de uso
  • A próxima etapa se concentra em excelência operacional: medir a conclusão de tarefas reais, reduzir a variância sob mudanças de distribuição e alinhar o comportamento dos modelos às exigências reais de workloads em escala de produção

Ainda não há comentários.

Ainda não há comentários.