LLM “desenvolvido internamente” do Rio de Janeiro parece ser uma fusão de modelos existentes
(github.com/nex-agi)- O status no GitHub está como Open, e o texto do README em a778c1ec4e21180ee55c3ea016a348e549e75f09 informa que o modelo foi criado a partir da fusão de
Nex-N2-ProeQwen3.5-397B-A17B, passou por On-Policy Distillation de um modelo mais forte, e que na versão anterior a base merged version foi enviada por engano no lugar do modelo final destilado - O questionamento central é que
prefeitura-rio/Rio-3.5-Open-397Bfoi apresentado como o original 397B model treinado pela IplanRIO, mas os pesos seriam uma fusão direta elemento a elemento em aproximadamente 0.6/0.4 entre Nex e Qwen, sem evidência de treinamento próprio - Após remover o sistema de prompt “You are Rio” hardcoded e enviar 120 perguntas de identidade ao
rio-397b, o resultado medido teria sido: respostasNexem 79.2%(95/120), respostasNex-AGIem 73.3%(88/120)e respostasRioem 0.0%(0/120) - Exemplos de respostas com o prompt removido incluíam “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” e “Shanghai Innovation Institute”, caso em que essas frases quase reproduziriam literalmente a descrição organizacional dos dados de identidade do Nex
- A análise dos pesos mediu, por tensor, a relação
(Rio − Qwen) = α × (Nex − Qwen)e comparou a collinearity usando como referênciacos_fit ≈ 0para modelos independentes ecos_fit ≈ 1para fusões - Os valores medidos foram
α = 0.571 ± 0.0016ecos_fit = 0.993nos routed experts,α = 0.574ecos_fit = 0.991emlm_head,α ≈ 0.585ecos_fit ≈ 0.986na attention, eα ≈ 0.586ecos_fit ≈ 0.984nas linear-attention projections - Depois do compartilhamento da alteração no README, 00INDEX perguntou se esse credit se referia a uma atualização feita uma hora antes, e yhcc respondeu que seria melhor ver no dia seguinte se o modelo ainda continuaria publicado
- A questão sobre uso de recursos públicos evoluiu como uma controvérsia separada: um comentário compartilhou um link no X com a frase “No public funds were used”, outro apresentou um link no X com uma fala do prefeito, e depois uma imagem citada passou a incluir a frase “no public money was spent on this model training”
1 comentários
Comentários do Hacker News
Não sou envolvido, mas o que parece ter acontecido foi: 1) o modelo oficial alegava ser baseado no Qwen 397B, e como o Nex também usa o mesmo modelo base, é bem possível que não tenham divulgado o Nex Pro de propósito 2) as melhorias provavelmente vieram de adicionar destilação on-policy à mesclagem de pesos, mas o modelo enviado não tinha destilação nenhuma, o que gerou a confusão
3) esse modelo não foi promovido em lugar nenhum além de um post no Reddit há dois dias, e acabou se espalhando naturalmente no fim de semana junto com a primeira partida do Brasil na Copa do Mundo. O prefeito do Rio de fato aproveitou a exposição gratuita, mas não foi algo feito em conjunto com os pesquisadores
4) se foi só uma mesclagem de dois modelos, então não faz sentido publicar como baseado no Qwen 397B, mencionar até o artigo do SwiReasoning e ainda assim esconder justamente o Nex
5) de qualquer forma, essa alegação é fácil de verificar se fizerem upload do modelo correto
Se de fato eles "acidentalmente" deixaram de enviar o modelo melhor, já teriam conseguido subir o arquivo correto a essa altura
Se o contratado do Rio realmente fez um pós-treinamento próprio como afirma, fico em dúvida se isso seria possível: https://x.com/tenobrus/status/2066243352211996728/photo/1
Ao olhar a parte que diz que "todos os tensores de peso do Rio são iguais a uma mistura 0.6/0.4 de Nex e Qwen no nível de milhares de desvios-padrão, e isso vale para as 60 camadas e todos os componentes da rede. Nenhum outro fine-tuning pode ser explicado por interpolação", o que impressiona é a robustez dos modelos de deep learning hoje em dia
A ideia é que fizeram apenas uma combinação linear simples de todos os pesos, e o desempenho não só não quebrou como ainda melhorou
No fim, é um jogo de ficar girando botões até sair uma melhoria em algum benchmark e então lançar. No HuggingFace há muitos modelos com fine-tuning e modelos quimera que são melhores em testes específicos, mas quando usados para outras finalidades em geral ficam piores
Isso também acontece muito com modelos modificados para remover censura. Eles conseguem produzir saídas que antes eram censuradas, mas a qualidade geral da saída cai
Não parece que isso funcionaria com dois LLMs de pré-treinamentos diferentes. Mesmo que funcionasse, as ativações internas, dimensões, número de experts e vocabulário de tokens teriam de ser exatamente os mesmos, então na prática isso dificilmente aconteceria fora de fine-tuning ou de experimentos acadêmicos
Funciona tão bem que, em muitos casos, vira uma parte explícita do processo de treinamento. Criam-se vários ramos de treinamento, eles são mesclados e depois o treinamento continua
Ainda não se entende por que isso funciona tão bem
Ainda assim, continua sendo surpreendente que algo tão simples funcione
A prefeitura do Rio de Janeiro, por meio da empresa de TI IplanRIO, divulgou o Rio-3.5-Open-397B e o apresentou como um modelo próprio com fine-tuning sobre o Qwen3.5 que supera modelos abertos semelhantes em benchmarks
O issue linkado considera que na verdade se trata de uma mesclagem ponderada de cerca de 60% do Nex-N2 Pro + cerca de 40% do Qwen3.5-397B-A17B, incluindo o Nex-N2 que havia sido publicado cerca de uma semana antes
Parece desperdício de dinheiro público
Alguém está lucrando com o trabalho dos outros sem dar o devido crédito, imagine só!
O centro da controvérsia é que ele foi divulgado com a alegação de que houve um pós-treinamento que melhorou o resultado. Na prática, descobriu-se que o modelo não era o modelo pós-treinado que alegavam
Agora a página no HuggingFace diz que é uma mesclagem de modelos, mas antes não dizia isso. Eles estão tentando sustentar que enviaram o modelo errado para o HuggingFace por engano e que em breve subirão o modelo verdadeiro
Resumindo: acharam que dava para juntar dois modelos de pesos abertos e afirmar que a equipe teve resultados impressionantes de pós-treinamento, mas não imaginaram que outros pesquisadores seriam espertos o bastante para descobrir que não havia pós-treinamento nenhum
Se a ideia é que fizeram 0,00001% do trabalho que entrou no produto real, então tudo bem
É mais parecido com fazer um fork de uma distribuição Linux, adicionar alguns temas e fontes, e depois reclamar porque alguém fez outro fork dessa distribuição e adicionou mais um tema
O padrão de rebranding de modelos mesclados sem divulgá-los como tal é preocupante
Isso prejudica a confiança no desenvolvimento de IA de código aberto, então a divulgação de modelos precisa de melhores padrões de rastreabilidade de origem e transparência
Seria bom ter uma explicação ou links sobre como funciona a mesclagem de modelos
Fico curioso se isso significa realmente combinar pesos matematicamente, ou se é algo como destilação. Se, como o texto diz, não houve treinamento algum, então provavelmente não é destilação
Em geral, mesclagem significa uma técnica de misturar diretamente, de forma matemática, os pesos de modelos diferentes. Isso ficou muito popular há cerca de 2 anos, e muitos dos chamados Frankenmodels apareceram nos rankings
Pessoalmente, vejo mesclagem na mesma categoria de coisas como “abliteration”. São técnicas de modificar cirurgicamente os pesos do modelo sem um loop tradicional de treinamento/ajuste. Se você se interessa por essa área, vale a pena seguir Maxime Labonne
Model A: A_1, …, A_n
Model B: B_1, …, B_n
C_i = A_i * p + B_i * (1 - p)
Ou seja, é só uma combinação linear dos pesos de modelos diferentes, posição por posição
Já é surpreendente que tenham sequer tentado criar um modelo
Ainda assim, o fato de o departamento de TI da prefeitura ter tido coragem de tentar isso talvez seja um sinal positivo
“Bem, Steve (Jobs), acho que é mais como se nós dois tivéssemos esse vizinho rico chamado Xerox, e eu tentasse entrar na casa dele para roubar a TV, mas descobrisse que você já a tinha roubado.”
— Bill Gates
O desfecho é ainda mais interessante: “A Apple abriu um grande processo de direitos autorais contra a Microsoft em 1988, mas acabou perdendo por motivos técnicos. O juiz concluiu que a Apple havia concedido por descuido à Microsoft, em novembro de 1985, uma licença perpétua para a interface de usuário do Mac.”
Não foi a Microsoft que roubou a GUI da Apple; foi a Apple que a entregou