GPT-5.5 tem taxa de alucinação 3x maior que o GLM-5.2 com licença MIT

(arrowtsx.dev)

1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp

Em meio ao aumento do ceticismo entre grandes laboratórios de IA em relação à estratégia de escalonamento infinito, surge um caso mostrando que o tamanho do modelo não garante precisão factual
O modelo open-weight GLM-5.2, licenciado sob MIT, tem 753B de parâmetros e cerca de 40B de parâmetros ativos, chegando a apenas 4 pontos do GPT-5.5
Na taxa de alucinação do AA-Omniscience, o GLM-5.2 marcou 28%, o GPT-5.5 86% e o DeepSeek V4 Pro 94%, tornando a diferença em calibração de incerteza tão importante quanto a pontuação de desempenho
Em um teste de Python, o DeepSeek V4 Pro errou mesmo usando 3 min 52 s e 7.7k reasoning tokens, enquanto o GLM-5.2 identificou a impossibilidade técnica em 12 s com cerca de 800 tokens
Fica difícil escolher modelos apenas por número de parâmetros ou desempenho teórico; é preciso analisar junto capacidade bruta, taxa de alucinação e eficiência computacional

Dúvidas sobre a estratégia de escalonamento de modelos

Está crescendo entre os principais laboratórios de IA o ceticismo em relação à abordagem de continuar elevando o desempenho apenas com mais parâmetros e mais dados de treinamento
O Claude Fable 5 foi restringido pelo governo dos EUA três dias após o lançamento, sendo tratado como o primeiro caso de proibição de uma IA americana por motivos de segurança nacional
- O fato de um dos maiores modelos do mundo ter sido banido por risco de um único jailbreak é usado como exemplo dos limites do paradigma de escalonamento
Modelos grandes ainda registram pontuações altas no Artificial Analysis Intelligence Index, mas os modelos open-weight também reduziram bastante a diferença
- O GLM-5.2 da Z.ai é um LLM open-weight com licença MIT e 753B de parâmetros, com cerca de 40B de parâmetros ativos
- O GLM-5.2 chegou a ficar a 4 pontos do GPT-5.5 e a 9 pontos do Fable 5 no Artificial Analysis Intelligence Index
- Em um cenário em que se estima que os modelos fechados sejam 1,5 a 2 vezes maiores que o GLM-5.2, essa redução da diferença reforça a possibilidade de um plateau da inteligência real

A taxa de alucinação expõe o problema da calibração de incerteza

Modelos treinados com grandes volumes de dados factuais e não teóricos podem ser reforçados a responder mesmo quando não sabem
A taxa de alucinação no benchmark AA-Omniscience varia muito entre os modelos
- Comparação da taxa de alucinação: {b:94,28,36,48,86}
- DeepSeek V4 Pro: 1.6T de parâmetros, 49B de parâmetros ativos, 44 pontos no AA Intelligence Index, 94% de alucinação
- GLM-5.2: 28% de alucinação
- Opus 4.8: 36% de alucinação
- Fable 5: 48% de alucinação
- GPT-5.5: 86% de alucinação
A taxa de alucinação de 94% do DeepSeek V4 Pro significa que, nas perguntas para as quais não encontrou resposta, ele disse “não sei” em apenas cerca de 6% dos casos, enquanto no restante deu respostas erradas com convicção

Eficiência computacional mostrou diferença no teste de Python

O teste comparativo usou uma pergunta de Python relativamente complexa, com uma falha arquitetural clara
- Ambos os modelos foram testados no OpenRouter com high reasoning effort e temperature 1
- O system prompt foi “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- O GLM-5.2 foi fornecido pela Z.ai com FP8 precision, e o DeepSeek V4 Pro foi fornecido pela Baidu Qianfan com FP8 precision
O DeepSeek V4 Pro gerou uma resposta errada com confiança mesmo após usar 7.7k reasoning tokens durante 3 min 52 s
O GLM-5.2 concluiu em 12 s e com cerca de 800 reasoning tokens que é tecnicamente impossível uma tarefa single-threaded executar multiplexed I/O sem yielding ou system polling
Aumentar indiscriminadamente o reasoning budget, o tamanho do corpus e o número de parâmetros pode apenas desperdiçar computação e elevar o risco de produzir respostas erradas porém plausíveis
Mesmo modelos muito grandes podem falhar em dizer “não sei” ou em reconhecer erros lógicos e técnicos sofisticados, por isso é preciso avaliar em conjunto raw capability, uncertainty calibration/hallucination rate e computational efficiency

1 comentários

GN⁺ 4 시간 전

Opiniões no Hacker News

Afirmar que a inteligência real estagnou bastante e que continuar treinando modelos maiores daqui para frente não só vai estagnar a inteligência como pode até piorá-la é uma alegação bem ousada
Não entendo por que concluir que modelos maiores e mais dados levam necessariamente a mais alucinações. Na prática, nos últimos anos aconteceu o contrário, e embora alguns modelos ainda possam alucinar mais, os modelos atuais alucinam muito menos do que o ChatGPT inicial de 175B, que era treinado com modelos menores e muito menos dados
Mencionei os dados por causa da citação de que os principais laboratórios de IA estão ficando céticos em relação à expansão infinita do número de parâmetros e dos dados de treinamento. A situação atual parece ser que o setor percebeu que ainda há muito a extrair mesmo em modelos com menos de 1T parâmetros, mas que, para liberar as capacidades desejadas, ainda são necessários mais dados de alta qualidade dentro dessa distribuição
- Para tornar o modelo mais inteligente do que é hoje, são necessários casos e exemplos para aprender, mas quanto mais se aproxima dos percentis mais altos do raciocínio humano, mais escasso esse material se torna
  Dá para inventar problemas lógicos à força, mas o inglês não é lógica formal, então isso muitas vezes vira um jogo de linguagem. Problemas do tipo “Monty Hall” também ficam mais parecidos com jogos de linguagem interessantes só para humanos, que se tornam óbvios quando apresentados de outra forma
  No fim, quem treina modelos está lutando contra a esmagadora banalidade do corpus de treinamento, isto é, o conjunto inteiro da produção humana registrada na história. À medida que os modelos melhorarem, o próximo passo provavelmente serão modelos co-projetados com humanos para ultrapassar essas limitações. A forma como usamos a linguagem, resolvemos problemas e até o que hoje chamamos de “orquestração” também deve evoluir junto
  Se ele consegue lidar com um contexto enorme e não precisa das mesmas restrições, as metáforas do mundo real não se encaixam tão bem. Aí surgem perguntas como: qual é realmente a diferença entre alucinação e extrapolação?
  Boa parte do ceticismo e da confusão em torno dos LLMs não é muito diferente de uma pessoa de inteligência mediana ouvindo a explicação de alguém muito inteligente, achando que é bobagem e depois acusando essa pessoa, com arrogância, de ser antipática
  Assim como o lobo foi domesticado e virou cão para ter características adequadas à convivência com humanos, os LLMs também vão evoluir em torno das nossas limitações, arrogância, vieses estéticos e preconceitos. O que a maioria das pessoas quer de um LLM, no fundo, não é inteligência e racionalidade
- A citação não dizia “modelos maiores e mais dados = mais alucinações”. Ela dizia que modelos maiores têm estagnação de inteligência, não falava em mais dados nem em aumento de alucinações
  A citação relacionada é a parte que diz que “quando um modelo é treinado com grandes volumes de dados muito factuais e não teóricos, ele aprende a sempre produzir uma resposta”
  Portanto, há duas alegações separadas. 1) modelos maiores entram em platô de desempenho 2) modelos treinados com mais dados factuais têm taxa maior de alucinação
  A primeira é algo próximo do que já se conhece bem. Pelo que lembro, os estudos da OpenAI sobre leis de escala já mostravam há alguns anos retornos decrescentes no número de parâmetros e no volume de dados de treinamento. Já a segunda, não sei que base existe além do que está no texto original
- As alucinações não são muito afetadas também por capacidade de computação e memória? As empresas podem gastar mais tempo validando resultados em estruturas no estilo agente, usar mais tokens de raciocínio e quantizar menos. Tudo isso depende bastante de computação e memória, mas já se mostrou eficaz para reduzir alucinações
  Talvez o GPT-5.5 esteja fortemente limitado por falta de computação, memória e energia
  Concordo que concluir que modelos maiores entraram em estagnação parece exagerado
- O fato de os principais laboratórios de IA terem ficado céticos em relação à expansão infinita de parâmetros e dados de treinamento provavelmente tem muito a ver com a qualidade dos dados de treinamento. Não sei por que isso quase não é mencionado nesse tipo de discussão
  Como já era evidente desde o começo, as leis de escala só permitiram parte das capacidades descritas nos dados subjacentes, e fizeram as redes neurais artificiais abstraírem isso no espaço latente
- Isso não seria sobreajuste? Há mais dados, mas se você pergunta algo que não está nesses dados, surgem alucinações
Fico pensando se esta é a cara de um “LLM minimamente viável”. Sempre me pergunto quão grande um LLM precisa ser para que, a partir daí, o mais importante passe a ser uma janela de contexto maior e a capacidade de inserir conteúdo de conhecimento dinâmico, como arquivos PDF ou Markdown, para fornecer conhecimento fora dos dados de treinamento
Parece que os LLMs não precisam de mais dados, e sim de um processo de refinamento melhor
À primeira vista, alucinação parece um problema fácil de atacar com RLVR. Já estamos gerando uma quantidade enorme de rastros de raciocínio que podem ser verificados pela resposta correta, então bastaria incluir “não sei” como resposta válida e, nos problemas em que nenhum entre milhares de rastros de raciocínio chega à resposta certa, promover a rastro que chegou a “não sei” a dado de treinamento
Em essência, isso significa ensinar ao modelo que “não sei” é uma resposta válida
Acho que o Sam Altman até escreveu no passado um post de blog insinuando essa ideia, então provavelmente é uma ideia óbvia para todo mundo. Se for assim, então parece que na prática não é tão fácil quanto parece
- Quase todos os benchmarks medem acurácia como 1 ponto se a resposta estiver certa e 0 para qualquer outra coisa. Se você responder “não sei” para 100 perguntas em que sua confiança é de 10%, tira 0 ponto, mas se responder tudo com confiança, o valor esperado é 10 pontos. É assim que a maior parte das IAs é treinada
  Até onde eu sei, o único benchmark de IA em que chutar aleatoriamente tem pontuação média pior do que responder “não sei” para todas as perguntas é o AA-Omniscience
- Acho que o problema está na saída do LLM e na forma como as ferramentas a interpretam. A saída é uma distribuição de probabilidade sobre todos os possíveis próximos tokens. Mesmo que a probabilidade de todos os tokens seja muito baixa, ela é normalizada para que a soma total seja 1. Depois dessa etapa, fica difícil distinguir se o modelo realmente preferiu fortemente um token específico ou se estamos vendo ruído amplificado
  Treinar um token separado de “não sei” significa que é preciso criar um fosso entre ele e todos os outros tokens. Em vez de haver uma zona nebulosa de ruído entre “sim” e “não”, onde ambos têm probabilidades relativamente altas, é preciso existir um novo pico mais alto para “não sei”. Aí surgem novas zonas nebulosas entre “sim” e “não sei”, e entre “não sei” e “não”. Para aprender outra resposta no meio disso, seria preciso muito mais refinamento
  Em vez disso, dá para verificar se várias opções têm probabilidades quase iguais. Mas aí também é preciso verificar se as duas principais opções são algo como “Genève” e “Geneva”, o que seria um bom sinal de que o modelo sabe a resposta, ou se são “sim” e “não”
- O problema central é que a supressão de alucinações não se generaliza. Dá para punir respostas erradas em vários tipos de pergunta, mas isso não leva ao surgimento de uma visão de mundo consistente. Só uma visão de mundo consistente, combinada com capacidade de raciocínio, seria uma solução real para alucinações
  Na arquitetura atual, é bem provável que alucinações permaneçam para sempre em tarefas de domínio aberto
- Não é tão simples assim. Eu fiquei curioso com essa questão e, no passado, tentei exatamente isso, treinando um LLM com esse objetivo
  A tarefa era simples. Montei um conjunto de treino usando o dataset MS-MARCO[0], com consulta, resultados de busca e resposta. 1) perguntas com a resposta correta anexada junto de resultados realmente relevantes e alguns irrelevantes 2) perguntas com apenas resultados irrelevantes e a resposta definida como “No answer present”
  O dataset era grande, com quase 1 milhão de amostras, e treinei com várias técnicas, desde fazer o modelo imitar o dataset como em SFT até DPO contrastando boas e más respostas para a mesma consulta do usuário, e GRPO verificando anotações sobre existência de resposta
  No fim, as alucinações não diminuíram; na verdade, ficaram muito piores. Agora o modelo começou a afirmar “No answer present” mesmo quando a resposta realmente existia, ou até em perguntas simples que nem precisavam de resultados de busca, por exemplo problemas como X+Y
  Claro, dá para dizer que meu treinamento era básico comparado ao que laboratórios de ponta conseguem fazer. Ainda assim, acho que isso aponta para uma limitação mais fundamental. LLMs são complicados e não entendem de forma limpa, a partir de primeiros princípios, algo como “olhe a lista de resultados de busca, verifique a relevância em relação à consulta do usuário e, se a relevância para a resposta ficar abaixo de um certo limite, não use isso na resposta”
  Em resumo, não é tão simples quanto parece e talvez até seja impossível de alcançar
  0: https://huggingface.co/datasets/microsoft/ms_marco
- Se desse para usar uma função de recompensa assim, nem precisaria de LLM; bastaria consultar essa função de recompensa e responder qualquer pergunta com ela. Dá para criar benchmarks e fazer verificação automática, mas no caso geral isso não tem solução. O modelo pode ir bem nos benchmarks e ainda assim continuar dando respostas excessivamente confiantes em áreas que o benchmark não cobre
  Dá para ajustar o modelo para dizer “não sei” com mais frequência, mas isso tem custo de desempenho. Ele passa a recusar também algumas perguntas que conseguiria responder de forma útil. Em casos degenerados, o modelo pode até colapsar e passar a prever essa frase sempre ou quase sempre
A pontuação de taxa de alucinação é um pouco complicada de interpretar. Isso porque é um valor condicionado aos casos em que o modelo não sabe a resposta. Portanto, ela não mede diretamente a probabilidade de encontrar alucinações no uso cotidiano. Essa probabilidade também depende da chance de o modelo não saber a resposta e de quão bem a distribuição de tarefas do usuário corresponde à distribuição de avaliação
Também é preciso cautela para atribuir essa diferença na taxa de alucinação puramente ao tamanho do modelo. O GLM-5.2 alucina muito menos que o DeepSeek-V4 Pro, que tem o dobro dos parâmetros, mas o DeepSeek-V4 Flash tem menos da metade do tamanho do GLM-5.2 e ainda assim ocupa o 1º lugar no índice de alucinação AA-Omniscience
O Opus 4.8 provavelmente é maior que o DeepSeek-V4 Pro e, no índice, tem taxa de alucinação de 36%, acima dos 28% do GLM-5.2, mas muito abaixo dos números do DeepSeek. Além disso, a precisão do Opus é 47%, enquanto a do GLM-5.2 é 25%. Se calcularmos com esses números a taxa absoluta de alucinação, isto é, o número de respostas alucinadas dividido pelo número total de respostas, o Opus fica em 19% e o GLM-5.2 em 21%
Portanto, se todas as outras condições forem iguais, modelos maiores podem ser mais vulneráveis a alucinar em situações em que não sabem a resposta, mas há muitos outros fatores na taxa de alucinação, e também não está totalmente claro se esta é a métrica central que devemos acompanhar
- Não discordo, mas ao mesmo tempo o modelo também não “sabe” algo nesse sentido dicotômico. Parece uma explicação simples, mas na prática é extremamente sutil
  O que o modelo sabe depende de um fato ter aparecido uma vez nos dados de treino, ou nunca, ou dez vezes, ou mil vezes? Os fatos não são armazenados como estão; eles são quebrados em componentes e comprimidos nos pesos
  Fatos “parecidos” que não aparecem de forma esmagadoramente frequente acabam agrupados e, no fim, confundidos. Mas o que são fatos parecidos? Alguns fatos foram totalmente removidos? Outros foram agrupados com coisas diferentes, contaminando o pool e ao mesmo tempo dando capacidade de raciocínio? O modelo não sabe nada, e jamais pode saber o que sabe e o que não sabe
- Talvez, quanto mais fácil a pergunta, mais fácil para o modelo perceber que não sabe a resposta
  Se o Opus acertar tudo exceto as perguntas mais difíceis, então as perguntas em que ele erra podem ser justamente aquelas em que validação ou detecção de alucinação é mais difícil, o que pode elevar a taxa de alucinação
- Parece algo que daria para testar com perguntas hipotéticas. Basta perguntar sobre coisas que não aconteceram depois da data de corte de conhecimento, ou perguntar algo que de fato não tenha solução
- Alucinação deveria ser chamada de “falha de fundamentação”
  Na estrutura de custos dos modelos de ponta nos EUA, parece haver algo como apontar um taser toda vez que o modelo fica em dúvida entre buscar ou não buscar. A resposta de evitação de busca corresponde a quase todas as alucinações
  Eu nem espero a vez do modelo. Se existe uma man page ou resultado do Hoogle, eu enfio isso no último ponto de corte de cache de prefixo. Compensa fazer assim
- Falta aqui um modo de falha comum: informação posterior à data de corte de conhecimento. Se for preciso informação posterior a esse ponto, o modelo falha independentemente do tamanho, então a taxa de alucinação pode ser importante de forma independente da base de conhecimento
  Se todos os casos de uso tivessem risco igual de sair do intervalo suportado, a lógica anterior faria sentido, mas muitas vezes há garantia de que certos pontos de dados estão fora do intervalo suportado, então importa a capacidade absoluta de reconhecer isso
Dizer que GPT-5.5 e DeepSeek V4 Pro são imensos e ainda assim lideram de forma mais evidente em alucinação faz parecer que modelos maiores têm maior probabilidade de alucinar. Isso não bate com a minha experiência
- Parece querer dizer que, quando não sabem a resposta, eles têm maior probabilidade de alucinar. Modelos grandes vão devolver a resposta correta com mais frequência do que modelos pequenos, mas, quando erram, é mais provável que inventem algo em vez de dizer “não sei”
É surpreendente a parte de que “se um modelo for treinado em grandes volumes de dados muito factuais e não teóricos, ele aprende a sempre dar uma resposta”, junto com os números de taxa de alucinação AA-Omniscience: 94% para o DeepSeek V4 Pro, 28% para o GLM-5.2, 36% para o Opus 4.8, 48% para o Fable 5 e 86% para o GPT-5.5
Eu já sabia, por estudos anteriores, que alucinação é um problema fundamental dos LLMs e provavelmente difícil de corrigir, como injeção de prompt, mas não imaginava que a taxa fosse tão ruim assim
Todo mundo vinha agindo como se os melhores modelos só alucinassem em casos de borda, mas aqui até o GLM-5.2, que tem o melhor desempenho, apresenta 28% de alucinação quando “não sabe” alguma coisa
Ainda assim, acho que o título do blog, “Bigger models are not the way”, é mais apropriado e toca num ponto que deveria ser a notícia maior. Se modelos maiores e conjuntos de treino maiores já não estão gerando retorno proporcional, então talvez já estejamos perto do topo da curva S. Considerando que a avaliação de empresas como OpenAI e xAI depende bastante da ideia absurda de escalar esses modelos sem fim, isso é uma notícia enorme
- LLMs não têm conhecimento no sentido de Wikipedia
  Os tokens da pergunta apenas definem os tokens da resposta. O essencial está em agrupar os pesos relevantes
- Concordo quanto ao título, e foi erro meu. Especialmente usando esses modelos “de ponta” em agentes de código, vivi situações realmente terríveis, porque eles frequentemente inventavam fatos sobre a base de código
Se o objetivo for apenas maximizar pontuação de benchmark, maior pode não ser sempre melhor, mas, em inteligência geral e naquela sensação característica de modelos grandes, isso definitivamente não vale
Os modelos open source são impressionantes, mas, em comparação com Opus ou 5.5, fica bem claro o quão rápido eles desmoronam assim que saem daquele conjunto estreito de problemas em que acertaram benchmarks
Considero que a taxa de alucinação não depende do tamanho do modelo, mas da forma de treinamento. Os modelos foram treinados com enormes corpora compostos majoritariamente por perguntas bem formuladas e respostas bem organizadas e corretas. Isso é especialmente verdadeiro no caso de livros, que são materiais fortemente curados por especialistas na área
Em livros, quase nunca se vê alguém fazer uma pergunta sem resposta e depois raciocinar e explicar por que e como ela não tem resposta. Também é raro encontrar livros que façam uma boa pergunta e depois expliquem honestamente que não sabem a resposta. No processo de curadoria, perguntas para as quais o autor não tem resposta tendem a ser excluídas da discussão
Além disso, durante o RLHF, os laboratórios provavelmente ficaram enviesados para perguntas que têm solução e produzem respostas interessantes, enquanto perguntas “ruins”, sem boas respostas, ficaram sub-representadas. Também é bem possível que tenham investido menos esforço de RLHF em perguntas nas quais o modelo deveria admitir que não sabe
Os humanos passaram a vida inteira aprendendo no mundo real, deparando-se com perguntas para as quais não sabiam a resposta de imediato, e aprenderam muito rápido a avaliar quando não sabem ou quando não têm certeza
Além disso, os humanos têm medo, algo que os LLMs não têm. No cérebro humano existe a amígdala, separada da parte do raciocínio lógico, que envia sinais de medo e nos torna muito mais cuidadosos com o que dizemos. Já os LLMs não têm um órgão de medo como a amígdala e aprendem apenas a responder de acordo com os padrões do corpus de treinamento. Como não “temem” passar vergonha ou serem demitidos por darem uma resposta errada, podem soltar respostas completamente erradas com toda a confiança
Por isso, a taxa de alucinação pode ser melhorada com treinamento, mas os laboratórios atuais não estão otimizando isso por causa da corrida de alto risco para criar os modelos mais inteligentes e capazes
Como alternativa, acho que seria possível criar no LLM um órgão separado, semelhante a uma amígdala. Esse órgão poderia emitir sinais de forma assíncrona com base no prompt do usuário e nos rastros de raciocínio do LLM, injetando sinais de medo no processo de inferência do LLM e desviando-o para respostas mais seguras
- Concordo totalmente que o tamanho do modelo não é a causa direta. Ainda assim, existe o fato de que modelos com mais parâmetros precisam de mais dados de treinamento para evitar overfitting ou underfitting
  Por isso, acho que a corrida pelo “tamanho máximo de dados de treinamento” acabou levando, sem querer, a overfitting. Não em um nível catastrófico, mas o suficiente para provocar dentro do modelo uma percepção que parece onisciência
- Skinner provavelmente diria que isso é uma questão de resultados, não de emoções como medo ou ganância

GPT-5.5 tem taxa de alucinação 3x maior que o GLM-5.2 com licença MIT

Dúvidas sobre a estratégia de escalonamento de modelos

A taxa de alucinação expõe o problema da calibração de incerteza

Eficiência computacional mostrou diferença no teste de Python

Leituras relacionadas

1 comentários

Opiniões no Hacker News