A lacuna entre LLMs de pesos abertos e LLMs fechados
(blog.doubleword.ai)- No Artificial Analysis Intelligence Index, o tempo que LLMs de pesos abertos levam para alcançar o desempenho passado de LLMs fechados vem caindo de forma constante desde o verão de 2024
- Ao traçar uma linha de tendência sobre essa métrica única, a lacuna chega a 3 de dezembro de 2026 com 0 mês, gerando a previsão de que os modelos abertos, segundo o indicador, encostariam nos modelos fechados de fronteira
- Ao ampliar a mesma análise para todos os 18 benchmarks, a lacuna média fica quase plana e permanece abaixo de 5 meses durante todo o período
- A maior parte da melhora ocorreu principalmente em benchmarks de programação, nos quais a lacuna caiu de 15 meses para 1–2 meses
- A avaliação de qualidade dos LLMs varia muito conforme a métrica, permitindo ao mesmo tempo a interpretação de que modelos abertos logo alcançarão os fechados e a de que continuarão cerca de 5 meses atrás
A rápida recuperação mostrada por uma única métrica
- A lacuna é calculada tomando como referência a fronteira dos benchmarks dos LLMs de pesos abertos e verificando em que momento no passado a fronteira dos LLMs fechados apresentava o mesmo desempenho
- A métrica principal usada é o Artificial Analysis Intelligence Index, da Artificial Analysis, que busca avaliar a capacidade geral dos modelos
- Nessa métrica, por volta do verão de 2024, a lacuna entre LLMs de pesos abertos e LLMs fechados começou a diminuir, e a tendência de redução continuou depois disso
- Ao estender a linha de tendência para o futuro, a lacuna chega a 0 mês em 3 de dezembro de 2026
- Pelo cálculo no momento da redação, isso equivale a cerca de 6 meses depois
Uma conclusão diferente mostrada por 18 benchmarks
- Ao aplicar a mesma análise a todos os 18 benchmarks da Artificial Analysis, o quadro é diferente do indicado pela métrica única
- Para cada mês, foram criados boxplots da lacuna em cada um dos 18 datasets, e uma linha de tendência foi calculada para a lacuna média em todos os datasets
- A linha de tendência da lacuna média é quase totalmente plana e fica próxima de um nível inferior a 5 meses durante todo o período
- Uma parcela significativa da melhoria dos modelos ocorreu em métricas de programação
- O índice de programação caiu de um nível 15 meses atrás para 1–2 meses atrás
- Na maioria dos outros datasets, a lacuna mostra uma tendência de aumentar gradualmente ao longo do tempo
- Dependendo da métrica, o julgamento da qualidade dos LLMs muda bastante
- Por um critério, é possível prever uma singularidade open source por volta do Natal
- Por outro, os LLMs open source permanecem de forma constante cerca de 5 meses atrás dos LLMs fechados, e a lacuna pode até aumentar
1 comentários
Opiniões no Hacker News
O maior problema para o futuro dos modelos de pesos abertos é que os modelos de pesos abertos atuais são resultado da boa vontade de organizações privadas como a DeepSeek
A torneira pode ser fechada a qualquer momento e, até surgir alguma forma de hardware de propriedade da comunidade, os modelos de pesos abertos continuarão sob o risco de serem interrompidos
Mesmo que nenhum novo modelo surja daqui para frente, as capacidades já alcançadas permanecem. Já os modelos baseados em API podem ser encerrados pelo provedor quando ele quiser, e coisas como o
gpt5-minidesaparecer em breve e ser substituído por um5.4-minimais caro podem acontecerA Nvidia tem incentivo para continuar lançando a família Nemotron, já que lucra diretamente quanto mais as pessoas rodam modelos, e para o Google também é melhor ganhar participação no mercado de desenvolvedores, pois pequenos modelos usados em recursos do navegador acabariam vazando de qualquer forma
Laboratórios chineses também têm incentivo para continuar publicando modelos, e é bem provável que o apoio governamental continue por causa da guerra comercial entre países
É como dizer: “conseguimos fazer 90% do que vocês fazem por 1/10 do custo e, em métricas de densidade, somos melhores”; pelo menos na minha teoria, ela parece uma espécie de Hindenburg Research da IA
Podem surgir empresas capazes de treinar modelos e licenciá-los para empresas de inferência que operam APIs
As empresas de inferência podem operar com muito menos capital, e as empresas de treinamento não precisam ter seus recursos consumidos pela inferência
Algumas empresas chinesas de treinamento de modelos já licenciam seus modelos dessa forma para provedores de inferência
Também acho que faz sentido financeiramente. Usuários que esgotam totalmente os limites de assinatura podem gerar para a operadora custos maiores que o valor da assinatura, e talvez seja por isso que a Anthropic reage tão fortemente à coleta de dados pela China
Ao publicar os pesos, os concorrentes podem baixar o modelo, analisá-lo e rodá-lo o dia todo sem precisar ficar batendo no serviço de assinatura, reduzindo a carga
Para os modelos maiores, quase ninguém tem motivo para rodá-los por conta própria, exceto os grandes players. Alugar hardware é absurdamente mais caro que uma assinatura e custa dezenas de milhares de dólares; comprar exige centenas de milhares de dólares
Havia expressões como “agora é uma boa hora para sacar a aposentadoria, voar para uma ilha remota e passar em paz os últimos seis meses que restam da civilização” e “por isso talvez o apocalipse do open source ainda não tenha chegado”, mas não sei desde quando bons modelos open source viraram presságio do fim dos tempos
Pelo menos podem ser vistos como um hedge contra uma distopia cyberpunk
Mas LLMs de modelo aberto são tratados como monstros. Quer dizer que o mercado deve ser controlado com segurança pela OpenAI ou pela Anthropic, e elas devem tomar todas as decisões?
Provavelmente era uma expressão em tom de brincadeira
No fluxo atual, é difícil que os modelos chineses ultrapassem os modelos de ponta dos EUA
A vantagem dos modelos americanos vem da obtenção de mais dados e de melhor qualidade, principalmente dados sintéticos, usando até métodos praticamente impossíveis de colocar em tráfego conversacional real, como gerá-los com enormes modelos professores
Os modelos chineses avançam dedicando um esforço enorme à otimização de modelos e obtendo mais dados de treinamento, de melhor qualidade, a partir dos modelos de ponta dos EUA
Para que os modelos chineses de pesos abertos superem os modelos de ponta dos laboratórios americanos, essa equação precisa se inverter. Os laboratórios chineses precisam deixar de depender da colheita de dados dos modelos de ponta e construir sistemas de dados e esforços para criar novos dados, além de garantir grandes quantidades de hardware de última geração
Treinar modelos na escala de ponta em si não é uma façanha inimaginável; onde o hardware de verdade entra é na inferência dos modelos professores
Não conheço os bastidores da z.ai ou da Alibaba, nem os da Anthropic ou da OpenAI
Dito isso, parece muito improvável que elas não coletem dados umas das outras. Tenho certeza de que a Anthropic também deve ter uma equipe analisando os pesos do GLM 5.2, nem que seja para observar a concorrência
O fato de um laboratório obter dados da Anthropic não significa que ele não faça sua própria pesquisa
O foco em otimização existia porque não era possível conseguir o melhor hardware, e talvez o único motivo de os principais laboratórios terem ficado para trás fosse não terem H200 ou MI350. Agora eles terão
Há também outro risco que está sendo subestimado. A Anthropic, em meio a um cabo de guerra com o governo dos EUA, atualmente mantém dentro de casa os “melhores” modelos do mundo
Algo parecido pode acontecer na China. Pelo que se sabe, o governo chinês é surpreendentemente aberto a exportações de IA e modelos de pesos abertos, mas existe uma possibilidade pequena, porém não desprezível — e sobre a qual ninguém pode falar — de que eles tenham em mãos, internamente, uma versão melhor do GLM 5.2
Visto de fora, é difícil distinguir entre um laboratório chinês estar seis meses atrasado e ser obrigado a manter seu melhor modelo reprimido
Não vejo isso como uma barreira; parece semelhante à subestimação da Ásia que vem ocorrendo nos últimos 50 anos
Não há nenhuma vantagem inata exclusiva dos EUA para criar LLMs, e a vantagem de pioneirismo americana provavelmente será desperdiçada, atrasada por jogos de controle de exportação do tipo “é perigoso demais para divulgar”
A internet contém praticamente a maior parte do conhecimento que se espera que um modelo saiba
Destilar com pequenas quantidades de dados de modelos melhores ainda ajuda, mas está mais perto de identificar capacidades adequadas a uma persona de assistente obediente e reprimir capacidades indesejadas, como trolling, do que de transferir habilidades que não existiam de forma alguma no modelo originalmente treinado na internet
O uso de datasets de ajuste por instruções criados com ChatGPT no Alpaca e afins foi uma versão primitiva disso
Sem um alvo claro a imitar, concorrentes precisariam depender mais de avaliadores humanos, mas como há muitas empresas de rotulagem de dados na China, isso não é um grande obstáculo
O que vem da China não são apenas novos métodos de destilação de modelos
O governo dos EUA não parece ter intenção de permitir acesso aos modelos mais recentes sem autorização explícita
Quase não se vê a discussão de que modelos fechados podem praticamente trapacear nos benchmarks
O que a Anthropic ou a OpenAI promovem como modelo não precisa ser necessariamente apenas pesos; pode ser todo um sistema de backend que reforça o próprio modelo
Nesse caso, ele pode obter pontuações melhores em benchmarks do que um modelo open source que tenha apenas os pesos
O mesmo vale para open source, e benchmarks também não são executados sem nenhuma ferramenta de execução
Ninguém se importa se a AGI foi feita 100% com rede neural ou com 50% de rede neural e 50% de scripts em Perl
Faz sentido que uma parte considerável da melhora de desempenho dos modelos tenha vindo de benchmarks de programação
Programação é um dos usos claros de curto prazo para modelos, há um mercado disposto a pagar bastante por tokens, existe um corpus enorme para trabalhar e o próprio domínio dos problemas tem uma verificabilidade considerável embutida
Os Estados Unidos, conhecidos como a terra da liberdade, agora estão restringindo o uso de modelos de ponta a quem não é americano
Em contraste, a China, vista como um “Estado autoritário” e quase como “o oposto da liberdade”, criou todos os modelos competitivos de pesos abertos, especialmente com base em uma indústria de software capitalista
É realmente irônico
Como chinês, entendo que essa estratégia usa open source como meio assimétrico de competição a partir de uma posição atrasada e compensa recursos computacionais insuficientes distribuindo o ônus. Ainda assim, é muito irônico
Os EUA podem dizer que são a terra da liberdade, mas vêm jogando o jogo do protecionismo econômico há centenas de anos
Este caso é apenas o exemplo mais recente disso
Fico curioso para saber até que ponto as empresas de modelos fechados estão dando um impulso de desempenho aos modelos abertos
Se as melhorias dos modelos fechados pararem, o progresso dos modelos abertos também vai desacelerar?
Por exemplo, a DeepSeek já fez muitas inovações em eficiência
A suposição de que, se os modelos fechados pararem de melhorar, todos os modelos fechados também pararão é muito improvável, a menos que os modelos estejam prestes a bater em algum muro
Empresas chinesas podem ficar atrás dos EUA em capacidade computacional, mas têm pesquisadores aproximadamente tão excelentes quanto seus pares americanos nas áreas de geração de problemas e aprendizado por reforço, que atualmente funcionam bem [0]
Especialmente em áreas com loops de feedback curtos, como programação, é bem provável que as melhorias rápidas continuem até o ponto em que nós, humanos insignificantes, percamos a capacidade de definir funções objetivo
Por outro lado, em áreas em que o feedback é lento ou caro, não espero mágica. Mesmo grandes e competentes farmacêuticas não conseguem inventar novos medicamentos incríveis de forma confiável porque o processo de avaliação é lento e caro demais, e os modelos tampouco conseguirão fazer isso em breve pelo mesmo motivo
Para rodar aprendizado por reforço repetindo n caminhos de desenvolvimento de medicamentos m vezes, mesmo que fosse possível, custaria n*m vezes 10 milhões a 100 milhões de dólares e levaria m anos
[0] Como a fuga de cérebros que levava talentos do mundo todo para laboratórios dos EUA por meio do sistema universitário americano está secando, é provável que a vantagem dos EUA nessa área diminua
É interessante ver isso junto com as recentes proibições de exportação dos EUA
Será que os EUA estão desperdiçando a liderança ao fazer com que o open source, especialmente os laboratórios chineses, alcance a qualidade dos modelos que o público pode usar?
Será que os laboratórios dos EUA conseguirão manter a vantagem mesmo em uma situação em que os usuários não possam usar os modelos mais recentes?
Não estou dizendo que importa nem que não importa, mas não sei que valor prático “os EUA vencem” ou “a China vence” teria
Se a crença de que modelos de pesos abertos e chineses dependem fortemente da destilação dos modelos de ponta mais recentes estiver correta, a lacuna se estabilizará em um nível equivalente ao tempo mínimo necessário para extrair dados significativos dos modelos de ponta mais recentes, somado ao tempo de finalização do treinamento do modelo dependente mais recente
Essa lacuna pode ser reduzida aumentando a eficiência do processo, mas não pode ser eliminada completamente
Tentativas de dificultar a destilação na Anthropic ou na OpenAI também podem alterar o equilíbrio
Fico me perguntando se muitas empresas e governos que acreditam que precisam estar na linha de frente da aplicação de LLMs líderes, e que começaram a depender cada vez mais deles, acabarão em uma situação parecida com o conto Superiority, de Arthur C. Clarke
[1] Original: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)