A lacuna entre LLMs de pesos abertos e LLMs fechados

(blog.doubleword.ai)

1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp

No Artificial Analysis Intelligence Index, o tempo que LLMs de pesos abertos levam para alcançar o desempenho passado de LLMs fechados vem caindo de forma constante desde o verão de 2024
Ao traçar uma linha de tendência sobre essa métrica única, a lacuna chega a 3 de dezembro de 2026 com 0 mês, gerando a previsão de que os modelos abertos, segundo o indicador, encostariam nos modelos fechados de fronteira
Ao ampliar a mesma análise para todos os 18 benchmarks, a lacuna média fica quase plana e permanece abaixo de 5 meses durante todo o período
A maior parte da melhora ocorreu principalmente em benchmarks de programação, nos quais a lacuna caiu de 15 meses para 1–2 meses
A avaliação de qualidade dos LLMs varia muito conforme a métrica, permitindo ao mesmo tempo a interpretação de que modelos abertos logo alcançarão os fechados e a de que continuarão cerca de 5 meses atrás

A rápida recuperação mostrada por uma única métrica

A lacuna é calculada tomando como referência a fronteira dos benchmarks dos LLMs de pesos abertos e verificando em que momento no passado a fronteira dos LLMs fechados apresentava o mesmo desempenho
A métrica principal usada é o Artificial Analysis Intelligence Index, da Artificial Analysis, que busca avaliar a capacidade geral dos modelos
Nessa métrica, por volta do verão de 2024, a lacuna entre LLMs de pesos abertos e LLMs fechados começou a diminuir, e a tendência de redução continuou depois disso
Ao estender a linha de tendência para o futuro, a lacuna chega a 0 mês em 3 de dezembro de 2026
- Pelo cálculo no momento da redação, isso equivale a cerca de 6 meses depois

Uma conclusão diferente mostrada por 18 benchmarks

Ao aplicar a mesma análise a todos os 18 benchmarks da Artificial Analysis, o quadro é diferente do indicado pela métrica única
Para cada mês, foram criados boxplots da lacuna em cada um dos 18 datasets, e uma linha de tendência foi calculada para a lacuna média em todos os datasets
A linha de tendência da lacuna média é quase totalmente plana e fica próxima de um nível inferior a 5 meses durante todo o período
Uma parcela significativa da melhoria dos modelos ocorreu em métricas de programação
- O índice de programação caiu de um nível 15 meses atrás para 1–2 meses atrás
- Na maioria dos outros datasets, a lacuna mostra uma tendência de aumentar gradualmente ao longo do tempo
Dependendo da métrica, o julgamento da qualidade dos LLMs muda bastante
- Por um critério, é possível prever uma singularidade open source por volta do Natal
- Por outro, os LLMs open source permanecem de forma constante cerca de 5 meses atrás dos LLMs fechados, e a lacuna pode até aumentar

1 comentários

GN⁺ 4 시간 전

Opiniões no Hacker News

O maior problema para o futuro dos modelos de pesos abertos é que os modelos de pesos abertos atuais são resultado da boa vontade de organizações privadas como a DeepSeek
A torneira pode ser fechada a qualquer momento e, até surgir alguma forma de hardware de propriedade da comunidade, os modelos de pesos abertos continuarão sob o risco de serem interrompidos
- Ainda assim, a maior vantagem dos modelos abertos é que o desempenho já publicado não pode ser tirado de nós
  Mesmo que nenhum novo modelo surja daqui para frente, as capacidades já alcançadas permanecem. Já os modelos baseados em API podem ser encerrados pelo provedor quando ele quiser, e coisas como o gpt5-mini desaparecer em breve e ser substituído por um 5.4-mini mais caro podem acontecer
  A Nvidia tem incentivo para continuar lançando a família Nemotron, já que lucra diretamente quanto mais as pessoas rodam modelos, e para o Google também é melhor ganhar participação no mercado de desenvolvedores, pois pequenos modelos usados em recursos do navegador acabariam vazando de qualquer forma
  Laboratórios chineses também têm incentivo para continuar publicando modelos, e é bem provável que o apoio governamental continue por causa da guerra comercial entre países
- A DeepSeek não é caridade; está mais para um hedge fund tentando vender a descoberto o mercado ocidental de IA
  É como dizer: “conseguimos fazer 90% do que vocês fazem por 1/10 do custo e, em métricas de densidade, somos melhores”; pelo menos na minha teoria, ela parece uma espécie de Hindenburg Research da IA
- Como autor original do texto, acho que o futuro dos modelos de pesos abertos deve ficar parecido com o de empresas fabless de design de chips
  Podem surgir empresas capazes de treinar modelos e licenciá-los para empresas de inferência que operam APIs
  As empresas de inferência podem operar com muito menos capital, e as empresas de treinamento não precisam ter seus recursos consumidos pela inferência
  Algumas empresas chinesas de treinamento de modelos já licenciam seus modelos dessa forma para provedores de inferência
- Precisamos de algo como o SETI@Home para treinamento de modelos
- Isso não é caridade; os laboratórios ganham algo aprendendo uns com os outros a partir de modelos públicos
  Também acho que faz sentido financeiramente. Usuários que esgotam totalmente os limites de assinatura podem gerar para a operadora custos maiores que o valor da assinatura, e talvez seja por isso que a Anthropic reage tão fortemente à coleta de dados pela China
  Ao publicar os pesos, os concorrentes podem baixar o modelo, analisá-lo e rodá-lo o dia todo sem precisar ficar batendo no serviço de assinatura, reduzindo a carga
  Para os modelos maiores, quase ninguém tem motivo para rodá-los por conta própria, exceto os grandes players. Alugar hardware é absurdamente mais caro que uma assinatura e custa dezenas de milhares de dólares; comprar exige centenas de milhares de dólares
Havia expressões como “agora é uma boa hora para sacar a aposentadoria, voar para uma ilha remota e passar em paz os últimos seis meses que restam da civilização” e “por isso talvez o apocalipse do open source ainda não tenha chegado”, mas não sei desde quando bons modelos open source viraram presságio do fim dos tempos
- Pelo contrário, modelos open source são um hedge contra o apocalipse
  Pelo menos podem ser vistos como um hedge contra uma distopia cyberpunk
- Entendi isso como uma referência meio jocosa ao resultado terrível em que, se pesos abertos alcançarem as capacidades dos modelos de ponta, todos terão em mãos modelos irrestritos de nível mythos+
- Que fofo. Os efeitos apocalípticos das mudanças climáticas sobre culturas alimentares e taxas de câncer, especialmente depois do colapso da camada de ozônio, também não mudaram as pessoas
  Mas LLMs de modelo aberto são tratados como monstros. Quer dizer que o mercado deve ser controlado com segurança pela OpenAI ou pela Anthropic, e elas devem tomar todas as decisões?
- Este texto é um post no blog de uma empresa que hospeda LLMs de pesos abertos (https://www.doubleword.ai/)
  Provavelmente era uma expressão em tom de brincadeira
- O apocalipticismo está no maior nível de todos os tempos, e as pessoas parecem ficar mais neuróticas a cada dia
No fluxo atual, é difícil que os modelos chineses ultrapassem os modelos de ponta dos EUA
A vantagem dos modelos americanos vem da obtenção de mais dados e de melhor qualidade, principalmente dados sintéticos, usando até métodos praticamente impossíveis de colocar em tráfego conversacional real, como gerá-los com enormes modelos professores
Os modelos chineses avançam dedicando um esforço enorme à otimização de modelos e obtendo mais dados de treinamento, de melhor qualidade, a partir dos modelos de ponta dos EUA
Para que os modelos chineses de pesos abertos superem os modelos de ponta dos laboratórios americanos, essa equação precisa se inverter. Os laboratórios chineses precisam deixar de depender da colheita de dados dos modelos de ponta e construir sistemas de dados e esforços para criar novos dados, além de garantir grandes quantidades de hardware de última geração
Treinar modelos na escala de ponta em si não é uma façanha inimaginável; onde o hardware de verdade entra é na inferência dos modelos professores
- A menos que você trabalhe nessas empresas, não dá para saber o que elas realmente fazem
  Não conheço os bastidores da z.ai ou da Alibaba, nem os da Anthropic ou da OpenAI
  Dito isso, parece muito improvável que elas não coletem dados umas das outras. Tenho certeza de que a Anthropic também deve ter uma equipe analisando os pesos do GLM 5.2, nem que seja para observar a concorrência
  O fato de um laboratório obter dados da Anthropic não significa que ele não faça sua própria pesquisa
  O foco em otimização existia porque não era possível conseguir o melhor hardware, e talvez o único motivo de os principais laboratórios terem ficado para trás fosse não terem H200 ou MI350. Agora eles terão
  Há também outro risco que está sendo subestimado. A Anthropic, em meio a um cabo de guerra com o governo dos EUA, atualmente mantém dentro de casa os “melhores” modelos do mundo
  Algo parecido pode acontecer na China. Pelo que se sabe, o governo chinês é surpreendentemente aberto a exportações de IA e modelos de pesos abertos, mas existe uma possibilidade pequena, porém não desprezível — e sobre a qual ninguém pode falar — de que eles tenham em mãos, internamente, uma versão melhor do GLM 5.2
  Visto de fora, é difícil distinguir entre um laboratório chinês estar seis meses atrasado e ser obrigado a manter seu melhor modelo reprimido
- Mesmo que a descrição de que “os laboratórios chineses precisam deixar de colher dados dos modelos de ponta e criar novos dados” esteja correta, eles poderiam fazer isso já amanhã e não são míopes a ponto de não terem pensado nisso
  Não vejo isso como uma barreira; parece semelhante à subestimação da Ásia que vem ocorrendo nos últimos 50 anos
  Não há nenhuma vantagem inata exclusiva dos EUA para criar LLMs, e a vantagem de pioneirismo americana provavelmente será desperdiçada, atrasada por jogos de controle de exportação do tipo “é perigoso demais para divulgar”
- A quantidade de dados que a Anthropic alegou ter sido extraída para destilação é muito pequena em comparação com a internet inteira
  A internet contém praticamente a maior parte do conhecimento que se espera que um modelo saiba
  Destilar com pequenas quantidades de dados de modelos melhores ainda ajuda, mas está mais perto de identificar capacidades adequadas a uma persona de assistente obediente e reprimir capacidades indesejadas, como trolling, do que de transferir habilidades que não existiam de forma alguma no modelo originalmente treinado na internet
  O uso de datasets de ajuste por instruções criados com ChatGPT no Alpaca e afins foi uma versão primitiva disso
  Sem um alvo claro a imitar, concorrentes precisariam depender mais de avaliadores humanos, mas como há muitas empresas de rotulagem de dados na China, isso não é um grande obstáculo
- A ideia de que “a China só pode copiar os EUA” é um julgamento muito míope e mal-informado
  O que vem da China não são apenas novos métodos de destilação de modelos
- É difícil imaginar como seria diferente. Em breve, as opções serão apenas modelos antigos da OAI ou novos modelos chineses
  O governo dos EUA não parece ter intenção de permitir acesso aos modelos mais recentes sem autorização explícita
Quase não se vê a discussão de que modelos fechados podem praticamente trapacear nos benchmarks
O que a Anthropic ou a OpenAI promovem como modelo não precisa ser necessariamente apenas pesos; pode ser todo um sistema de backend que reforça o próprio modelo
Nesse caso, ele pode obter pontuações melhores em benchmarks do que um modelo open source que tenha apenas os pesos
- Certo, e acho isso aceitável. Tudo isso deve contar como desempenho
  O mesmo vale para open source, e benchmarks também não são executados sem nenhuma ferramenta de execução
  Ninguém se importa se a AGI foi feita 100% com rede neural ou com 50% de rede neural e 50% de scripts em Perl
Faz sentido que uma parte considerável da melhora de desempenho dos modelos tenha vindo de benchmarks de programação
Programação é um dos usos claros de curto prazo para modelos, há um mercado disposto a pagar bastante por tokens, existe um corpus enorme para trabalhar e o próprio domínio dos problemas tem uma verificabilidade considerável embutida
Os Estados Unidos, conhecidos como a terra da liberdade, agora estão restringindo o uso de modelos de ponta a quem não é americano
Em contraste, a China, vista como um “Estado autoritário” e quase como “o oposto da liberdade”, criou todos os modelos competitivos de pesos abertos, especialmente com base em uma indústria de software capitalista
É realmente irônico
Como chinês, entendo que essa estratégia usa open source como meio assimétrico de competição a partir de uma posição atrasada e compensa recursos computacionais insuficientes distribuindo o ônus. Ainda assim, é muito irônico
- A comparação já desmorona na primeira frase
  Os EUA podem dizer que são a terra da liberdade, mas vêm jogando o jogo do protecionismo econômico há centenas de anos
  Este caso é apenas o exemplo mais recente disso
Fico curioso para saber até que ponto as empresas de modelos fechados estão dando um impulso de desempenho aos modelos abertos
Se as melhorias dos modelos fechados pararem, o progresso dos modelos abertos também vai desacelerar?
- Não entendo por que se presume que só os laboratórios dos EUA conseguem inovar
  Por exemplo, a DeepSeek já fez muitas inovações em eficiência
- Algumas pessoas na China certamente sabem o quanto a “destilação” ajuda modelos de pesos abertos a alcançar os demais
  A suposição de que, se os modelos fechados pararem de melhorar, todos os modelos fechados também pararão é muito improvável, a menos que os modelos estejam prestes a bater em algum muro
  Empresas chinesas podem ficar atrás dos EUA em capacidade computacional, mas têm pesquisadores aproximadamente tão excelentes quanto seus pares americanos nas áreas de geração de problemas e aprendizado por reforço, que atualmente funcionam bem [0]
  Especialmente em áreas com loops de feedback curtos, como programação, é bem provável que as melhorias rápidas continuem até o ponto em que nós, humanos insignificantes, percamos a capacidade de definir funções objetivo
  Por outro lado, em áreas em que o feedback é lento ou caro, não espero mágica. Mesmo grandes e competentes farmacêuticas não conseguem inventar novos medicamentos incríveis de forma confiável porque o processo de avaliação é lento e caro demais, e os modelos tampouco conseguirão fazer isso em breve pelo mesmo motivo
  Para rodar aprendizado por reforço repetindo n caminhos de desenvolvimento de medicamentos m vezes, mesmo que fosse possível, custaria n*m vezes 10 milhões a 100 milhões de dólares e levaria m anos
  [0] Como a fuga de cérebros que levava talentos do mundo todo para laboratórios dos EUA por meio do sistema universitário americano está secando, é provável que a vantagem dos EUA nessa área diminua
É interessante ver isso junto com as recentes proibições de exportação dos EUA
Será que os EUA estão desperdiçando a liderança ao fazer com que o open source, especialmente os laboratórios chineses, alcance a qualidade dos modelos que o público pode usar?
Será que os laboratórios dos EUA conseguirão manter a vantagem mesmo em uma situação em que os usuários não possam usar os modelos mais recentes?
- Fico me perguntando por que isso importa
  Não estou dizendo que importa nem que não importa, mas não sei que valor prático “os EUA vencem” ou “a China vence” teria
Se a crença de que modelos de pesos abertos e chineses dependem fortemente da destilação dos modelos de ponta mais recentes estiver correta, a lacuna se estabilizará em um nível equivalente ao tempo mínimo necessário para extrair dados significativos dos modelos de ponta mais recentes, somado ao tempo de finalização do treinamento do modelo dependente mais recente
Essa lacuna pode ser reduzida aumentando a eficiência do processo, mas não pode ser eliminada completamente
Tentativas de dificultar a destilação na Anthropic ou na OpenAI também podem alterar o equilíbrio
Fico me perguntando se muitas empresas e governos que acreditam que precisam estar na linha de frente da aplicação de LLMs líderes, e que começaram a depender cada vez mais deles, acabarão em uma situação parecida com o conto Superiority, de Arthur C. Clarke
[1] Original: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)

A lacuna entre LLMs de pesos abertos e LLMs fechados

A rápida recuperação mostrada por uma única métrica

Uma conclusão diferente mostrada por 18 benchmarks

Leituras relacionadas

1 comentários

Opiniões no Hacker News