Alucinações em LLMs são inevitáveis: limitações inerentes dos grandes modelos de linguagem

(arxiv.org)

5 pontos por GN⁺ 2024-02-26 | 1 comentários | Compartilhar no WhatsApp

Ao contrário de pesquisas que buscam reduzir empiricamente as alucinações em LLMs, este artigo define alucinação como a divergência entre uma função de resposta correta computável e a saída do modelo, examinando formalmente se sua eliminação completa é possível
Segundo o argumento diagonal, um LLM computável não pode aprender todas as funções computáveis e, quando usado como solucionador geral de problemas, não consegue evitar alucinações
Em LLMs realistas de tempo polinomial, há problemas vulneráveis a alucinações como listagem combinatória, aritmética de Presburger, Subset Sum, SAT e implicação da lógica proposicional, e algumas conclusões dependem da hipótese P ≠ NP
Escalar modelos, usar ensembles, mais dados de treinamento e prompts de Chain-of-Thought e verificação pode reduzir erros, mas, se a função correta estiver fora da capacidade do modelo, a eliminação completa é impossível
É difícil colocar automaticamente em decisões críticas de segurança LLMs treinados apenas com pares entrada-saída; são necessários guardrails, bases de conhecimento e controle humano em conjunto

Alucinação em LLMs definida em um mundo formal

A alucinação em LLMs é o problema de gerar informações plausíveis, mas incorretas ou sem sentido, e, à medida que seu uso se expande em pesquisa, indústria e sociedade, crescem as preocupações com segurança e ética
Pesquisas anteriores de mitigação tentaram reduzir alucinações identificando causas nas etapas de coleta de dados, treinamento e inferência, usando benchmarks, métodos baseados em busca, prompts de raciocínio e prompts de verificação
Como não é possível enumerar e testar todas as entradas possíveis, é difícil responder apenas com abordagens empíricas se as alucinações podem ser eliminadas por completo
Como o problema de definir formalmente a semântica do mundo real continua em aberto, o artigo usa um mundo formal composto por funções computáveis
- A função correta f fornece a única saída correta f(s) para uma string de entrada s
- Se um estado do LLM h[i] para alguma entrada s satisfaz h[i](s) ≠ f(s), define-se que ele alucinou em relação à função correta f
- O LLM é tratado como uma função computável total que recebe amostras de treinamento sequencialmente e assume vários estados h[0], h[1], ...
A pergunta central é se um LLM h, treinado por um procedimento fixo, pode, para uma função correta arbitrária f, alcançar algum estágio de treinamento i em que h[i](s) = f(s) para toda entrada s

A inevitabilidade mostrada pelo argumento diagonal

Para um conjunto de LLMs enumerável computavelmente {h0, h1, ...}, existe uma função correta computável f que faz com que todos os estados de treinamento de todos os LLMs alucinem
- Reorganizam-se todos os estados de treinamento de todos os LLMs em uma enumeração {ĥ0, ĥ1, ...} e constrói-se uma tabela de saídas para as strings de entrada {s0, s1, ...}
- Definindo f(si) como uma string diferente de ĥi(si), cria-se um conflito com cada estado de LLM na posição diagonal
Da mesma forma, também é possível construir uma função correta que faça com que todos os estados de LLM alucinem não apenas para uma entrada, mas para infinitas entradas
- Define-se f(si) como uma string diferente de todos os ĥj(si) com j ≤ i
- Assim, um estado específico de LLM ĥk continuará alucinando nas entradas suficientemente posteriores
Como um único LLM computável h também é um conjunto enumerável computavelmente, {h}, para todo LLM computável existe uma função correta computável que provoca alucinações
Segundo o Teorema 3, para todo LLM computável h existe uma função correta f na qual cada estado h[j] alucina, e também existe f' que o faz alucinar em infinitas entradas
Para que um LLM eliminasse sozinho as alucinações, teria de existir um estado sem alucinações para qualquer função computável arbitrária, mas isso entra em conflito com o Teorema 3
- Métodos de mitigação que dependem apenas do próprio LLM, como Chain-of-Thought, não conseguem eliminar completamente as alucinações

Tipos de problema vulneráveis a alucinação

Se encontrarmos uma função correta que um dado conjunto de LLMs não consegue computar, o problema correspondente torna-se um problema vulnerável a alucinação
Para LLMs com restrição de tempo polinomial — categoria em que o artigo coloca todos os LLMs existentes — isso inclui os seguintes problemas
- Listagem combinatória: listar todas as strings de comprimento n sobre um alfabeto de dois caracteres, exigindo tempo Ω(2^n)
- Subset Sum: dado um conjunto de inteiros e um número q, responder se existe um subconjunto cuja soma seja q; é um problema NP-completo
- Boolean Satisfiability (SAT): responder se existe uma atribuição que torne verdadeira uma fórmula com n variáveis booleanas; é um problema NP-completo
- Implicação da lógica proposicional: responder se M(ψ) ⊆ M(ϕ); é um problema co-NP-completo
A conclusão de que Subset Sum, SAT e implicação da lógica proposicional são problemas vulneráveis a alucinação para LLMs de tempo polinomial depende da hipótese P ≠ NP
A aritmética de Presburger é a teoria de primeira ordem sobre adição e ordem < nos números naturais, e responde se uma proposição é demonstrável nessa aritmética
- Seu cálculo exige tempo Ω(2^{2cn}) e ela é classificada como problema vulnerável a alucinação tanto para LLMs de tempo polinomial quanto para LLMs de tempo exponencial
Para todos os LLMs computáveis, existem problemas vulneráveis mais gerais
- O problema de aprender todas as ordens lineares computáveis é tratado no Teorema 4
- Resolver todos os problemas computáveis é o objeto do Teorema 3
- A implicação em lógica de primeira ordem é classificada como problema undecidable
Respostas de LLMs sobre problemas matemáticos e raciocínio lógico sempre exigem revisão separada

O alcance das medidas de mitigação existentes

Modelos maiores, ensembles de modelos e mais dados de treinamento podem ajudar LLMs a capturar funções corretas mais complexas
- À medida que os dados de treinamento aumentam, é possível descartar candidatos inválidos de LLM e contribuir para a convergência do aprendizado
- No entanto, se a função correta estiver fora do alcance do que aquele LLM consegue captar, aumentar parâmetros e dados não elimina as alucinações
- Mesmo adicionando mais attention layers a um LLM de tempo polinomial, ele continua sendo apenas um LLM de tempo polinomial maior e não elimina alucinações sobre funções corretas de tempo exponencial
- Um ensemble de modelos também pode ser visto essencialmente como um único LLM, portanto segue sujeito às limitações do Teorema 3
Chain-of-Thought, reflection e prompts de verificação pertencem à família de abordagens de aprendizado em contexto, que fornecem no contexto exemplos de solução e conhecimento relacionado
- Problemas complexos podem ter várias soluções, e prompts podem induzir o LLM a seguir soluções de menor complexidade preferidas por humanos
- A sequência de Fibonacci é usada como exemplo: a solução recursiva leva tempo exponencial, mas programação dinâmica resolve em tempo linear
- Como é improvável descrever completamente todas as funções corretas por meio de prompts, essa abordagem só pode ser esperada como eficaz em tarefas específicas
Guardrails e cercas consistem em alinhar a saída do LLM com valores humanos, ética e exigências legais, ou manter uma lista de tarefas críticas que não devem ser totalmente automatizadas por LLMs
- Eles podem ser programados formalmente para influenciar explicitamente o comportamento do LLM
- Podem ser medidas úteis de mitigação em mundos formais e em alguns problemas do mundo real
- Sua escalabilidade no mundo real permanece uma questão em aberto
LLMs com reforço de conhecimento usam conhecimento externo e raciocínio simbólico, como grafos de conhecimento, bancos de dados e lógica, no treinamento e na inferência
- Chatbots baseados em LLM, como o ChatGPT, já começaram a usar ferramentas como motores de busca, interpretadores de código e calculadoras para resolver problemas fora das capacidades intrínsecas do LLM
- A busca em bases de conhecimento fornece à função correta informações além das amostras de treinamento de entrada-saída
- Nesse caso, o Teorema 3 não se aplica diretamente, e isso pode ser uma mitigação potencialmente eficaz de alucinações no mundo formal
- Sua escalabilidade em tarefas reais ainda está em aberto

Restrições de implantação e limitações da pesquisa

Todo LLM treinado apenas com pares entrada-saída alucina quando usado como solucionador geral de problemas
- Alguns problemas podem ser intelectualmente fáceis para humanos, mas computacionalmente difíceis para LLMs
- Por outro lado, problemas difíceis para humanos podem ser computacionalmente fáceis para LLMs
- No mundo real, as causas das alucinações não se resumem à complexidade computacional, e dados de treinamento incompletos também podem causar alucinações em tarefas computacionalmente fáceis
Essa conclusão se aplica a LLMs úteis que eventualmente respondem a perguntas fora dos dados de treinamento
- Um LLM pode responder “não sei” a um número arbitrariamente grande de perguntas
- No momento em que algum estado do LLM responde a uma pergunta fora dos dados de treinamento, a técnica de diagonalização dos Teoremas 1 e 2 pode ser aplicada a essa resposta
- Se um LLM nunca responder, ele não alucina, mas, desde que responda a perguntas nunca vistas, em algum mundo formal ele alucinará
LLMs não devem ser usados automaticamente em decisões críticas de segurança sem apoio externo
- Guardrails, cercas, bases de conhecimento e controle humano podem ajudar a superar os limites do Teorema 3 ao fornecer informações além de pares entrada-saída
- Áreas em que é difícil aceitar erros por alucinação, como decisões relacionadas à vida humana, exigem julgamento racional e humano
Pesquisa e regulação sobre os limites de segurança dos LLMs são importantes
- Há casos em que LLMs usados em atendimento ao cliente forneceram informações erradas e causaram perdas financeiras reais
- Em ambientes de detecção e atuação automáticas, como robôs, alucinações podem levar a consequências reais perigosas
- É necessária uma concordância entre teóricos e profissionais sobre os limites de capacidade dos LLMs, bem como regulação para impedir usos fora desses limites
As limitações da pesquisa também são claras
- Ela não trata das alucinações que ocorrem em problemas dentro da capacidade computacional do LLM
- Ao assumir funções corretas de forma determinística, os insights sob uma perspectiva probabilística são limitados
- Nos estudos empíricos, os LLMs existentes são usados sem fine-tuning adicional

1 comentários

GN⁺ 2024-02-26

Opiniões do Hacker News

Dei uma passada pelo artigo e o ponto central parece ser a alegação de que, como P != NP, LLMs dão respostas alucinadas para problemas NP-completos
É um ponto inteligente e uma questão filosófica interessante sobre matemática, ciência da computação e linguagem, mas parece que as pessoas estão tentando aplicá-lo ao conceito comum de “alucinação de LLM”. A conexão entre a alucinação formal usada pelo artigo e a alucinação no senso comum — como inventar capítulos inexistentes ou criar detalhes específicos ao pedir um resumo de um romance — não parece clara
Também é interessante a afirmação de que o mundo formal, isto é, o mundo da matemática, da lógica e das gramáticas formais, é um subconjunto do mundo “real” ou do mundo da linguagem natural. A maioria dos humanos não consegue resolver problemas de lógica formal nem analisar gramáticas formais, mas não sofre fortes efeitos de alucinação e lida muito bem com linguagem natural. Como humanos também não conseguem resolver certos problemas NP-completos, a alucinação é inevitável? Como a vida é finita, algumas questões podem não ser concluídas mesmo quando há capacidade para isso
- Em LLMs, a palavra alucinação é um nome inadequado, e é deprimente que esse termo tenha pegado
  Quando humanos fazem esse tipo de coisa, chamamos de confabulação (confabulation). É um sintoma psiquiátrico em que a pessoa, sem saber que está mentindo, preenche lacunas de conhecimento na hora com bobagens inventadas. Alucinação é um sintoma totalmente diferente
  Confabulação não é algo que humanos façam normalmente, e não vejo como esse fato poderia estar ligado a P != NP. Uma pessoa normal reconhece os limites do próprio conhecimento, seja qual for o motivo, mas LLMs não
- Concordo. Parece que se introduz o infinito e então se cai no problema da parada para o infinito, o que talvez não ajude muito
  O ponto em que esse argumento se complica é a parte que diz “definimos alucinação em um mundo formal no qual só nos importamos com LLMs computáveis e uma função de verdade computável f sobre S”. Isso exige um predicado confiável e computável para a verdade, o que por si só provavelmente é impossível
  Em vez disso, se permitirmos que a saída da função de verdade seja True, False, Unknown, Resource limit exceeded, o problema pode ser evitado. Agora a meta se torna administrável. True ou False só são retornados quando forem válidos, e basta reduzir a proporção de Unknown e Resource Limit Exceeded em consultas úteis
  O mesmo problema ocorre em sistemas de verificação de programas, e há décadas é tratado da mesma maneira. Determinar se uma proposição é verdadeira às vezes exige trabalho demais
- Dizer que “como P != NP, LLMs alucinam em problemas NP-completos” só parece correto se alucinação for definida simplesmente como dar uma resposta errada. Mas não é assim que normalmente se entende o termo
  Quando as pessoas falam em alucinação de LLM, elas de fato querem dizer uma resposta errada e confiante. Mas nem toda resposta errada é alucinação
  Se você perguntar se um programa vai parar e o LLM responder “não sei”, eu não chamaria isso de alucinação. Mas se a alegação dos autores é que um LLM não consegue sempre resolver problemas NP-completos corretamente, então parece que eles considerariam “não sei” uma resposta alucinada. Mas não li o artigo
- Humanos têm, em certa medida, a capacidade de perceber que bateram em uma parede e se ajustar de acordo. Ainda assim, coisas como o teorema da completude, a complexidade de Kolmogorov e a teoria da complexidade computacional são conhecimentos aos quais só chegamos no século XX
- A única forma de reduzir alucinações, tanto em humanos quanto em LLMs, é aumentar a inteligência geral e o conhecimento de mundo
Admito que li apenas o resumo, mas sou em geral cético quanto a se uma abordagem tão altamente formal pode ajudar na pergunta prática de como fazer um LLM responder “não sei” com mais frequência
Isso soa parecido com o teorema da incompletude. Assim como, na prática, o teorema da incompletude não significa que a pesquisa em matemática seja inútil, dizer que um LLM pode não conseguir calcular alguma função também não significa que o problema das alucinações exija que o LLM saiba tudo. O problema que nos importa é o de responder “não sei”, e isso ainda pode ser computável
- LLMs não conseguem dizer “não sei”. Porque, na verdade, não sabem nada
  A resposta não vem de uma mente pensante, mas de um supercomputador de correspondência de padrões complexo, flutuando sobre uma enorme tabela de padrões pré-computados. Ele calcula a entrada e então cospe o que melhor se encaixa nesse padrão. Não há um cérebro pensante que entenda conceitualmente seus próprios limites
  Esperar que a IA atual diga “não sei” é parecido com perguntar a um software de navegação quanto tempo leva até a casa dos Simpsons em Springfield. A máquina dá uma resposta, mas não capta a referência cultural que torna aquela resposta impossível. Em vez disso, procura uma pessoa chamada Simpson no Springfield real mais próximo
- Transformers não têm capacidade de introspecção, nem capacidade de raciocinar sobre o próprio processo de raciocínio, e não “sabem” que não sabem
  Interpreto o artigo como afirmando que essa fraqueza é fundamental. É possível treinar a rede para se comportar como se soubesse os limites do próprio conhecimento, mas em implementações reais sempre restará uma lacuna impossível de cobrir
- Para responder “não sei”, é preciso saber quando se sabe. Para saber quando se sabe, por sua vez, é necessário entendimento
- Não parece haver uma forma fácil de fazer um LLM responder “não sei”
  Para isso, ele teria de aprender, em todo o material ingerido, como as pessoas falam quando realmente não sabem. Mas muitas pessoas na internet, quando não sabem, não escrevem simplesmente “não sei”; escrevem coisas irrelevantes
- Não é uma observação sobre LLMs em si, mas, na ciência da computação em geral, muitos problemas, mesmo classificados como “insolúveis” ou “impossíveis de resolver em tempo razoável (NP)”, podem ter uma solução aproximada limitada por algum valor encontrada em tempo razoável (P)
  No mundo real, se a rota de um caminhão da Amazon for 20% pior que o ótimo matemático, o problema do caixeiro-viajante foi “resolvido” de uma forma boa o suficiente
É preciso formular a pergunta com muito cuidado para que ele não invente. Por exemplo, não pergunte “como faço isso em x?”, mas sim “dá para fazer isso com x?”
Essas “IAs” parecem yes-men. Mesmo que algo não seja verdade ou seja impossível, dizem qualquer coisa para agradar o usuário
Já conheci pessoas assim, e é muito difícil trabalhar com elas. Não dá para confiar que vão realmente entregar o projeto prometido, e é preciso verificar tudo de novo. Nem dá para confiar que aquilo que prometeram seja possível em primeiro lugar
- Mesmo antes do ChatGPT havia problemas parecidos na tradução de linguagem humana, mas as pessoas não falavam disso em tom tão alto
  É frustrante como hoje está ficando cada vez mais difícil fazer o DeepL traduzir thou como du. Era um “hack” que eu usava com frequência para contornar uma incompatibilidade causada por um recurso ausente no inglês
  Para mitigar em alguma medida o problema do “yes-man”, é preciso agir como um matemático exigente ao fazer perguntas, e não acho que a tecnologia de LLM sozinha consiga superar completamente esse problema. Embora soe ridículo, acho provável que abstrações que decomponham as perguntas por nós evoluam, então é preciso reconhecer a existência da “engenharia de prompt”
- Já tive algum sucesso com a instrução “se precisar de mais clareza, faça perguntas de acompanhamento”
  Minha melhor experiência começou com uma conversa livre sobre o que estávamos tentando fazer. Parece ajudar primeiro verificar, por meio de perguntas e respostas, se eu e a IA estamos pensando no mesmo domínio e compartilhando os termos relevantes
- A analogia é realmente adequada. No fim, é uma questão de treinamento e seleção
  Enquanto houver uma recompensa do tipo “aja assim, senão...”, não é surpreendente que surja um sistema que use inteligência para atingir o objetivo definido
  Felizmente, isso diz mais sobre as limitações da estrutura de recompensa colocada ao redor da inteligência subjacente do que sobre uma limitação dessa inteligência em si
- Também houve várias vezes em que o LLM me disse que o que eu queria fazer com certas tecnologias era impossível, ou que havia uma maneira melhor
- A IA atual é ajustada com RLHF para não virar um “yes-man” ou bajulador
  É verdade que são necessários prompts melhores. Não pergunte “quem foi a primeira presidente mulher?”, pergunte “já houve uma presidente mulher?”. Como no StackOverflow, é preciso fazer a pergunta certa sem embutir suposições quando você não sabe
  Pense em quando, no início do Google, as pessoas culpavam apenas o mecanismo de busca sempre que viam resultados com spam, ignorando a escolha de palavras-chave ou o comportamento de sempre tentar retornar alguma coisa. É parecido com um usuário batendo numa placa de concreto com um cinzel e reclamando que dela não sai uma bela estátua
Escrever ficção e histórias é alucinação. É o oposto de um papagaio estocástico
A IA já alcançou os dois extremos. O computador pode ser uma máquina lógica e, ao mesmo tempo, uma máquina alucinatória. O objetivo é criar uma máquina que consiga fazer as duas coisas ao mesmo tempo e distinguir uma da outra
O ponto central não é a alucinação em si, mas o computador ter consciência de quando está alucinando
Claro que é um problema difícil, mas humanos também alucinam enormemente. Basta olhar para a religião. Como apenas uma religião pode estar certa, ou nenhuma, logicamente todas as outras religiões são alucinações
- Comparar religião a erros de LLM é um exemplo da antropomorfização hoje amplamente disseminada na sociedade. Preocupa-me que esses mal-entendidos e confusões acabem de fato atrapalhando a melhoria da tecnologia
  Chegar a uma explicação incorreta como “Hélio puxa o sol pelo céu todos os dias” e um programa matemático retornar incorretamente o próximo token mais provável na sequência são coisas categoricamente diferentes. LLMs não têm crenças nenhuma
  Hélio é uma resposta à pergunta “por que o sol nasce?”. Esse tipo de crença demonstra um entendimento lógico de que alguma força deve causar isso, mas, por falta de conhecimento do mundo, produz uma explicação errada
  Um LLM não consegue formular e raciocinar sobre esse tipo de pergunta. Não é o mesmo tipo de “alucinação”. Se presumirmos que a previsão de palavras resolveu a cognição, no longo prazo chegaremos rapidamente a um beco sem saída
- Isso não é o oposto de um papagaio estocástico; é exatamente a mesma coisa. Só que a previsão é pior por causa de dados de treinamento escassos
- A frase “como apenas uma religião pode estar certa, ou nenhuma, todas as outras religiões são alucinações” contém alguns erros
  Várias religiões podem explicar corretamente certos aspectos do mundo e estar erradas em outros. Tratar o estado útil que uma religião pode ter como uma única “resposta correta” rigorosa e completa é muito enganoso. A física newtoniana e a relatividade especial também não preveem certos fenômenos observados, mas ainda assim são úteis. Nem todas as religiões afirmam ter coerência rigorosa e perfeita
  Mesmo que uma religião possa parecer errada, isso não significa automaticamente que seja uma alucinação. Pessoas podem acreditar em algo por motivos plausíveis e ainda assim estar erradas
  Também é possível uma postura como “não posso provar que isso é verdade e nem estou tentando provar, mas uma experiência subjetiva de visão de Deus me convenceu de que provavelmente é real”. Isso parece muito diferente de um LLM inventar um artigo inteiro sem base nenhuma
- Fugindo um pouco do assunto, vejo como uma das forças motrizes da existência da religião o desejo de personificação
  Humanos parecem interagir mais facilmente quando tratam o mundo e seus elementos como entidades familiares, semelhantes a pessoas, com as quais podem se comunicar
  Ao falar de LLMs e de IA em geral, a personificação também aparece com frequência
- Um exemplo mais simples de que humanos também alucinam em grande escala são os sonhos
Alguém inteligente disse algo assim
Quando é bom, chamam de “criatividade”; quando é ruim, chamam de “alucinação”
Isso não é um bug. Como dizem os autores, também não é uma limitação. É uma funcionalidade
- Exato. LLMs estão sempre alucinando e inventando coisas
  Como essas alucinações às vezes, por acaso, estão corretas, as pessoas concluíram que errar é a exceção e acertar é somehow a regra
  É parecido com encontrar, em textos de milhares de anos, trechos que coincidem com a própria vida hoje e concluir que aquilo previu o futuro
  O significado ou a verdade desses textos não é uma qualidade intrínseca do próprio texto, mas apenas um viés cognitivo que vem da mente de quem lê
- É verdade, mas dá para cair na armadilha de esperar demais dos LLMs. O conhecimento de um LLM pode parecer perfeito. Como ele consegue responder a quase qualquer coisa, é fácil ter a ilusão de que consegue responder a qualquer coisa com veracidade
  Quanto a melhorias futuras, acho excessivamente otimista esperar uma superinteligência além do nível que vemos hoje. Refiro-me ao nível de acessar informações públicas do mundo todo ou gerar rapidamente textos, imagens e vídeos que se encaixam em padrões criativos existentes
  Suspeito que uma inteligência mais criativa precise de um equilíbrio extremamente delicado para não “enlouquecer”. Ou seja, ela precisa produzir resultados que vejamos como criatividade, não como alucinação
  Quanto mais criarmos, dentro da IA, ciclos de feedback que permitam à inteligência evoluir, exponencialmente mais difícil será manter esse equilíbrio
  Também é possível que os humanos já tenham otimizado esse ciclo de feedback da inteligência criativa até o limite permitido pelo universo. Mais neurônios ou mais armazenamento certamente ajudam quando há uma enorme quantidade de conhecimento, mas ainda não sabemos se isso também vale para a inteligência criativa
- Se não é um bug, então não é nem alucinação nem criatividade
  É uma falha de projeto profundamente integrada que revela o que estamos realmente fazendo: modelagem estatística de muita linguagem humana
  Jogar mais dados nesse caminho não fará com que ele magicamente desperte e vire AGI. Esse problema não vai desaparecer
  A comunidade de machine learning precisa descer do trem do hype. O primeiro passo é não antropomorfizar seus próprios projetos
- Pedir para escrever código é, basicamente, o mesmo que pedir a um LLM para alucinar
- Acho que o ponto central está em saber se o LLM entende qual das duas coisas está fazendo
  Não é essa a diferença entre humanos e LLMs?
  Humanos sabem quando estão fazendo uma suposição fundamentada e, se for o caso, devem dizer isso. Ou sabem quando estão criando de forma criativa e podem dizer isso
  Se ele não sabe qual é o caso, fica claro que um LLM, no fim das contas, não foge muito de um dispositivo mecânico de entrada e saída muito sofisticado
Parece que o hype de IA agora está entrando na fase de “vamos encarar a realidade”. Também acho que faz um tempo que não vejo textos empolgados sobre o problema de alinhamento
- O hype foi insano. Acho que LLMs ainda têm muito espaço para crescer e já são muito úteis, mas, como dizem bons pesquisadores, não são o Santo Graal
  Se você quer AGI, LLM não é a resposta. Muita gente parece ver isso como um problema de engenharia e acha que LLMs podem nos levar até lá, mas não podem. Porque não é um problema de engenharia
A frase “alucinação é definida como uma divergência entre um LLM computável e uma função de valor verdadeiro computável” é simplesmente imprecisão ou manipulação
Chamar isso de alucinação só faz concessão à ideia de que esses programas são inteligentes
- Concordo. Imagine uma calculadora de bolso que dá respostas completamente erradas cerca de 10% das vezes, e em vez de simplesmente dizer que ela está quebrada, as pessoas a chamam de temperamental
- Essa frase é generosa demais até com “valor verdadeiro computável”. As tarefas em que usamos LLMs não têm isso. A menos que se criem novas definições destruindo o significado de cada palavra
Define LLM como “um modelo probabilístico que condiciona a saída no tempo t de uma string a todos os tokens anteriores”
Essa definição parece ampla o bastante para incluir a inteligência humana e, portanto, a conclusão deveria valer igualmente para humanos
- Isso certamente é verdade. A memória humana e a capacidade de recuperar corretamente aquilo que achamos que lembramos são influenciadas por todo tipo de coisa e às vezes são muito pouco confiáveis
  Mas, ao contrário dos LLMs, a inteligência humana não se limita a recordar informações aprendidas em algum momento. Também conseguimos fazer raciocínio lógico, e essa capacidade parece estar melhorando nos LLMs, embora ainda esteja longe da perfeição
  Outro problema é que tratamos a confiabilidade de maneiras muito diferentes conforme a fonte da informação, especialmente conforme vieses pessoais. Pela minha experiência, LLMs tendem a desmoronar rapidamente e mudar de opinião conforme a entrada do usuário, então vejo isso como um fator importante
- Quando formos capazes de definir e medir inteligência, esse tipo de discussão passará a fazer sentido
- Isso talvez explique a razão evolutiva dos sonhos. Sonhos podem ser uma poda de alucinações. Será que faz sentido alternar entre aprendizado e sonho?
Com essa definição, é muito fácil provar que a frase do título, ou seja, “alucinação é inevitável”, está errada
Vamos fixar o tamanho do contexto de entrada do LLM em 1 byte. Treine o LLM continuamente até que ele responda “yes” à entrada “A” e responda “no” a todas as outras entradas
A função de valor verdadeiro define a resposta correta para a entrada “A” como “yes”, e a resposta correta para todas as outras entradas como “no”
Esse LLM comprovadamente nunca alucina. Isso porque foi feita uma verificação completa de que, para todas as entradas possíveis, a saída coincide com a função de valor verdadeiro
Nada impede aumentar arbitrariamente, por indução, o tamanho do contexto de entrada e o número de itens da tabela de valores verdadeiros, e em nenhuma etapa a alucinação se torna “inevitável”
- Eu também não concordo com o artigo, mas por outro motivo
  É claro que aquele fragmento de uma frase não contém todas as premissas dos autores. Eles provam algo intuitivamente óbvio, do tipo: um LLM com entradas de comprimento arbitrário e certas restrições de recursos — por exemplo, que pode usar tempo polinomial para computação, e cuja execução em tempo polinomial precisa ser demonstrável, de modo que ele não demore mais por engano durante o treinamento — não consegue computar determinadas funções que não têm essas restrições
  Em alguns casos, essa prova assume P != NP. Depois, eles argumentam que é provável que algumas das perguntas úteis do mundo real estejam em uma classe que o LLM não consegue computar. Afinal, é possível fazer perguntas de matemática a um LLM, e problemas de matemática às vezes são muito difíceis
  Esse modelo formal é assintótico, isto é, assume entradas de comprimento arbitrário etc., mas, pela minha experiência, teoremas desse tipo geralmente também valem para problemas realistas com comprimentos de consulta razoáveis
  Mas isso não é o mesmo que provar que alucinação é inevitável. Numa definição razoável, tanto um LLM quanto uma pessoa deveriam poder dizer “não sei”, e isso não deveria ser considerado alucinação. Nesse caso, o LLM pode evitar alucinações, e a pergunta passa a ser quanto trabalho útil ele consegue fazer sem alucinar
- Dizer “treine até que responda yes para a entrada A e no para as demais” é basicamente o mesmo que dizer: treine até não alucinar
  Então a afirmação se reduz a uma tautologia. Um LLM treinado para não alucinar não alucina. A parte difícil é realmente fazer isso acontecer
- “É possível aumentar arbitrariamente, por indução, o tamanho do contexto de entrada e o número de itens da tabela de valores verdadeiros” não é uma indução
  Só foi feito o caso-base; não há hipótese de indução nem passo indutivo. Talvez você tenha feito esse passo mentalmente, mas, nesse caso, não é uma prova trivial como a afirmação sugere
É por isso que o aprendizado de linguagem precisa ser pareado com experiência no mundo real. Precisamos dar a esses robôs um mundo para explorar, mesmo que seja um mundo virtual, e fazê-los vivenciar as consequências nele e sobreviver
Caso contrário, tudo não passa de signos e sistemas simbólicos flutuantes, desvinculados da experiência
- Tenho certa concordância, mas isso também pode ser antropomorfização
  Há 3 a 5 anos, eu pensava assim sobre LLMs. Eles não conseguiam responder o que cairia quando objetos estivessem presos de maneiras ambíguas, e o argumento na época era que seria preciso ter experiência para perceber essas coisas. Mas os LLMs corrigiram esses problemas há muito tempo
  A forma como um LLM “resolve” perguntas é muito diferente da nossa. Agora, para provar que um LLM precisa estar enraizado no mundo real para adquirir inteligência, acho que seria necessário encontrar um fenômeno do mundo real tão óbvio que ninguém o tenha colocado por escrito. Mas, nesse caso, não acabaríamos escrevendo sobre ele?

Alucinações em LLMs são inevitáveis: limitações inerentes dos grandes modelos de linguagem

Alucinação em LLMs definida em um mundo formal

A inevitabilidade mostrada pelo argumento diagonal

Tipos de problema vulneráveis a alucinação

O alcance das medidas de mitigação existentes

Restrições de implantação e limitações da pesquisa

Leituras relacionadas

1 comentários

Opiniões do Hacker News