1 pontos por GN⁺ 4 일 전 | 1 comentários | Compartilhar no WhatsApp
  • O status no GitHub está como Open, e o texto do README em a778c1ec4e21180ee55c3ea016a348e549e75f09 informa que o modelo foi criado a partir da fusão de Nex-N2-Pro e Qwen3.5-397B-A17B, passou por On-Policy Distillation de um modelo mais forte, e que na versão anterior a base merged version foi enviada por engano no lugar do modelo final destilado
  • O questionamento central é que prefeitura-rio/Rio-3.5-Open-397B foi apresentado como o original 397B model treinado pela IplanRIO, mas os pesos seriam uma fusão direta elemento a elemento em aproximadamente 0.6/0.4 entre Nex e Qwen, sem evidência de treinamento próprio
  • Após remover o sistema de prompt “You are Rio” hardcoded e enviar 120 perguntas de identidade ao rio-397b, o resultado medido teria sido: respostas Nex em 79.2% (95/120), respostas Nex-AGI em 73.3% (88/120) e respostas Rio em 0.0% (0/120)
  • Exemplos de respostas com o prompt removido incluíam “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” e “Shanghai Innovation Institute”, caso em que essas frases quase reproduziriam literalmente a descrição organizacional dos dados de identidade do Nex
  • A análise dos pesos mediu, por tensor, a relação (Rio − Qwen) = α × (Nex − Qwen) e comparou a collinearity usando como referência cos_fit ≈ 0 para modelos independentes e cos_fit ≈ 1 para fusões
  • Os valores medidos foram α = 0.571 ± 0.0016 e cos_fit = 0.993 nos routed experts, α = 0.574 e cos_fit = 0.991 em lm_head, α ≈ 0.585 e cos_fit ≈ 0.986 na attention, e α ≈ 0.586 e cos_fit ≈ 0.984 nas linear-attention projections
  • Depois do compartilhamento da alteração no README, 00INDEX perguntou se esse credit se referia a uma atualização feita uma hora antes, e yhcc respondeu que seria melhor ver no dia seguinte se o modelo ainda continuaria publicado
  • A questão sobre uso de recursos públicos evoluiu como uma controvérsia separada: um comentário compartilhou um link no X com a frase “No public funds were used”, outro apresentou um link no X com uma fala do prefeito, e depois uma imagem citada passou a incluir a frase “no public money was spent on this model training”

1 comentários

 
GN⁺ 4 일 전
Comentários do Hacker News
  • Não sou envolvido, mas o que parece ter acontecido foi: 1) o modelo oficial alegava ser baseado no Qwen 397B, e como o Nex também usa o mesmo modelo base, é bem possível que não tenham divulgado o Nex Pro de propósito 2) as melhorias provavelmente vieram de adicionar destilação on-policy à mesclagem de pesos, mas o modelo enviado não tinha destilação nenhuma, o que gerou a confusão
    3) esse modelo não foi promovido em lugar nenhum além de um post no Reddit há dois dias, e acabou se espalhando naturalmente no fim de semana junto com a primeira partida do Brasil na Copa do Mundo. O prefeito do Rio de fato aproveitou a exposição gratuita, mas não foi algo feito em conjunto com os pesquisadores
    4) se foi só uma mesclagem de dois modelos, então não faz sentido publicar como baseado no Qwen 397B, mencionar até o artigo do SwiReasoning e ainda assim esconder justamente o Nex
    5) de qualquer forma, essa alegação é fácil de verificar se fizerem upload do modelo correto

    • Sobre o ponto 2, há https://news.ycombinator.com/item?id=48529544
    • Eu realmente nunca imaginei que veria no HN um título como "LLM próprio do Rio de Janeiro", então o simples fato de isso ter acontecido já é surpreendente
    • Se o modelo base foi mesclado com um modelo ajustado por outro laboratório, a melhoria pode ter vindo de parte dos pesos ajustados por fine-tuning desse outro modelo
      Se de fato eles "acidentalmente" deixaram de enviar o modelo melhor, já teriam conseguido subir o arquivo correto a essa altura
    • Não entendi o que significa estreia na Copa do Mundo. O Brasil já não ganhou 5 vezes?
    • Pelo que entendi, não houve destilação nenhuma, e todos os pesos são uma média elemento a elemento de 60/40 entre Qwen e Nex
      Se o contratado do Rio realmente fez um pós-treinamento próprio como afirma, fico em dúvida se isso seria possível: https://x.com/tenobrus/status/2066243352211996728/photo/1
  • Ao olhar a parte que diz que "todos os tensores de peso do Rio são iguais a uma mistura 0.6/0.4 de Nex e Qwen no nível de milhares de desvios-padrão, e isso vale para as 60 camadas e todos os componentes da rede. Nenhum outro fine-tuning pode ser explicado por interpolação", o que impressiona é a robustez dos modelos de deep learning hoje em dia
    A ideia é que fizeram apenas uma combinação linear simples de todos os pesos, e o desempenho não só não quebrou como ainda melhorou

    • Dá para dizer que melhorou em alguns benchmarks
      No fim, é um jogo de ficar girando botões até sair uma melhoria em algum benchmark e então lançar. No HuggingFace há muitos modelos com fine-tuning e modelos quimera que são melhores em testes específicos, mas quando usados para outras finalidades em geral ficam piores
      Isso também acontece muito com modelos modificados para remover censura. Eles conseguem produzir saídas que antes eram censuradas, mas a qualidade geral da saída cai
    • Isso é possível porque o próprio Nex é uma versão com fine-tuning do Qwen3.5: https://huggingface.co/nex-agi/Nex-N2-Pro
      Não parece que isso funcionaria com dois LLMs de pré-treinamentos diferentes. Mesmo que funcionasse, as ativações internas, dimensões, número de experts e vocabulário de tokens teriam de ser exatamente os mesmos, então na prática isso dificilmente aconteceria fora de fine-tuning ou de experimentos acadêmicos
    • Isso é chamado de linear mode connectivity e aparentemente funciona em quase todos os modelos grandes
      Funciona tão bem que, em muitos casos, vira uma parte explícita do processo de treinamento. Criam-se vários ramos de treinamento, eles são mesclados e depois o treinamento continua
      Ainda não se entende por que isso funciona tão bem
    • É uma ideia bem conhecida: https://arxiv.org/abs/2203.05482
      Ainda assim, continua sendo surpreendente que algo tão simples funcione
    • É interessante a ideia de que talvez exista algum conjunto "secreto" de ajustes que, aplicado a esses pesos ou a modelos menores, poderia criar uma simulação de inteligência muito superior a coisas como o Fable
  • A prefeitura do Rio de Janeiro, por meio da empresa de TI IplanRIO, divulgou o Rio-3.5-Open-397B e o apresentou como um modelo próprio com fine-tuning sobre o Qwen3.5 que supera modelos abertos semelhantes em benchmarks
    O issue linkado considera que na verdade se trata de uma mesclagem ponderada de cerca de 60% do Nex-N2 Pro + cerca de 40% do Qwen3.5-397B-A17B, incluindo o Nex-N2 que havia sido publicado cerca de uma semana antes

    • Eu não sabia que esse tipo de mesclagem de modelos era possível. Do ponto de vista puramente de software, claro que seria possível, mas é surpreendente que funcione
    • Então o problema não é que faltou citar o Qwen, mas sim não mencionar o Nex-N2 Pro?
    • Se o Rio está gastando tempo com LLM, então já deveria ter a melhor infraestrutura de TI e software do mundo
      Parece desperdício de dinheiro público
  • Alguém está lucrando com o trabalho dos outros sem dar o devido crédito, imagine só!

    • Este é um modelo de pesos abertos baseado em outros modelos de pesos abertos
      O centro da controvérsia é que ele foi divulgado com a alegação de que houve um pós-treinamento que melhorou o resultado. Na prática, descobriu-se que o modelo não era o modelo pós-treinado que alegavam
      Agora a página no HuggingFace diz que é uma mesclagem de modelos, mas antes não dizia isso. Eles estão tentando sustentar que enviaram o modelo errado para o HuggingFace por engano e que em breve subirão o modelo verdadeiro
      Resumindo: acharam que dava para juntar dois modelos de pesos abertos e afirmar que a equipe teve resultados impressionantes de pós-treinamento, mas não imaginaram que outros pesquisadores seriam espertos o bastante para descobrir que não havia pós-treinamento nenhum
    • O importante não é o crédito, mas sim mentir sobre a capacidade do laboratório
    • Fico curioso sobre como as pessoas enxergam governo ou contratados do governo dizendo que fizeram muito trabalho quando na verdade não fizeram nada
    • Isso é fraude pura com dinheiro público. O que mais se poderia esperar?
    • Chamar isso de "trabalho deles" é forçar um pouco: os criadores do conteúdo original fizeram primeiro 99,99% do trabalho, depois empresas americanas empacotaram isso em LLMs de ponta, e "eles" fizeram o "trabalho" de criar o próprio modelo em cima desses modelos americanos
      Se a ideia é que fizeram 0,00001% do trabalho que entrou no produto real, então tudo bem
      É mais parecido com fazer um fork de uma distribuição Linux, adicionar alguns temas e fontes, e depois reclamar porque alguém fez outro fork dessa distribuição e adicionou mais um tema
  • O padrão de rebranding de modelos mesclados sem divulgá-los como tal é preocupante
    Isso prejudica a confiança no desenvolvimento de IA de código aberto, então a divulgação de modelos precisa de melhores padrões de rastreabilidade de origem e transparência

  • Seria bom ter uma explicação ou links sobre como funciona a mesclagem de modelos
    Fico curioso se isso significa realmente combinar pesos matematicamente, ou se é algo como destilação. Se, como o texto diz, não houve treinamento algum, então provavelmente não é destilação

    • Como ponto de partida, este documento é bom: https://huggingface.co/docs/peft/developer_guides/model_merg...
      Em geral, mesclagem significa uma técnica de misturar diretamente, de forma matemática, os pesos de modelos diferentes. Isso ficou muito popular há cerca de 2 anos, e muitos dos chamados Frankenmodels apareceram nos rankings
      Pessoalmente, vejo mesclagem na mesma categoria de coisas como “abliteration”. São técnicas de modificar cirurgicamente os pesos do modelo sem um loop tradicional de treinamento/ajuste. Se você se interessa por essa área, vale a pena seguir Maxime Labonne
    • Também não há muita coisa para ler
      Model A: A_1, …, A_n
      Model B: B_1, …, B_n
      C_i = A_i * p + B_i * (1 - p)
      Ou seja, é só uma combinação linear dos pesos de modelos diferentes, posição por posição
  • Já é surpreendente que tenham sequer tentado criar um modelo
    Ainda assim, o fato de o departamento de TI da prefeitura ter tido coragem de tentar isso talvez seja um sinal positivo

    • Mesclagem e ajuste fino estão num nível que até indivíduos dispostos a gastar algum dinheiro conseguem fazer, então um governo local certamente também consegue
    • Como sugere a hipótese do comentário enterrado, parece plausível que tenham proposto ao governo um enorme orçamento de treinamento de LLM, embolsado a maior parte do dinheiro e depois divulgado um modelo mesclado barato para justificar o desvio
  • “Bem, Steve (Jobs), acho que é mais como se nós dois tivéssemos esse vizinho rico chamado Xerox, e eu tentasse entrar na casa dele para roubar a TV, mas descobrisse que você já a tinha roubado.”
    — Bill Gates

    • A parte anterior dessa citação é ainda mais engraçada: “Bill Gates apareceu sozinho por algum motivo, cercado por 10 funcionários da Apple. … Steve começou a gritar com Bill por ter quebrado o acordo.”
      O desfecho é ainda mais interessante: “A Apple abriu um grande processo de direitos autorais contra a Microsoft em 1988, mas acabou perdendo por motivos técnicos. O juiz concluiu que a Apple havia concedido por descuido à Microsoft, em novembro de 1985, uma licença perpétua para a interface de usuário do Mac.”
      Não foi a Microsoft que roubou a GUI da Apple; foi a Apple que a entregou
    • Seria ótimo se isso fosse uma citação real. É realmente marcante