1 pontos por GN⁺ 2024-06-25 | 1 comentários | Compartilhar no WhatsApp

Detecção de alucinações usando entropia semântica em grandes modelos de linguagem

Resumo

  • Grandes modelos de linguagem (LLM): sistemas de LLM como ChatGPT e Gemini mostram excelente capacidade de raciocínio e resposta a perguntas, mas frequentemente apresentam o problema de 'alucinação', gerando saídas incorretas ou respostas sem fundamento.
  • Problema das alucinações: causa diversos problemas, como fabricação de precedentes jurídicos, informações falsas em artigos de notícias e riscos na área médica.
  • Limites das soluções existentes: induzir veracidade por meio de supervisão ou aprendizado por reforço teve apenas sucesso parcial.
  • Novo método: propõe um estimador de incerteza baseado em entropia e estatística para detectar gerações arbitrárias e incorretas (confabulações). Ele calcula a incerteza no nível do significado, e não na ordem específica das palavras.
  • Aplicabilidade: funciona independentemente do conjunto de dados e da tarefa, não exige conhecimento prévio da tarefa e generaliza bem para novas tarefas.

Conteúdo principal

Importância do problema das alucinações

  • Definição de alucinação: quando um LLM gera conteúdo que não é fiel ao conteúdo-fonte fornecido ou que é ilógico.
  • Exemplo de confabulação: casos em que gera respostas aleatoriamente diferentes para a mesma pergunta.
  • Problemas existentes: quando é treinado com dados incorretos, quando mente para buscar recompensa, ou em falhas sistemáticas de raciocínio ou generalização.

Detecção de confabulações com entropia semântica

  • Visão geral do método: mede quantitativamente os casos em que uma entrada tem alta probabilidade de gerar respostas arbitrárias e sem fundamento.
  • Entropia semântica: estima a incerteza calculando a entropia com base no significado das frases. Entropia alta indica alta incerteza.
  • Clustering: calcula a entropia agrupando respostas com significado semelhante.

Avaliação e resultados

  • Conjuntos de dados: avaliado em diversos datasets, como TriviaQA, SQuAD, BioASQ, NQ-Open e SVAMP.
  • Modelos: testado em vários modelos, como LLaMA 2 Chat, Falcon Instruct, Mistral Instruct e GPT-4.
  • Desempenho: a entropia semântica apresentou desempenho superior ao da entropia simples existente e ao de métodos de aprendizado supervisionado.

Desempenho geral

  • AUROC: métrica que mede a capacidade do modelo de prever erros; a entropia semântica registrou a maior pontuação.
  • AURAC: métrica que mede a precisão nas perguntas restantes ao rejeitar aquelas com maior probabilidade de causar confabulação; a entropia semântica apresentou o melhor desempenho.

Opinião do GN⁺

  1. Praticidade: a entropia semântica pode ser aplicada a vários datasets e tarefas, o que lhe dá alta utilidade prática. Em especial, generaliza fortemente para novas tarefas.
  2. Contribuição técnica: supera as limitações das abordagens existentes de cálculo simples de entropia e propõe uma nova forma de medir a incerteza no nível semântico.
  3. Potencial futuro: esse método também pode vir a ser aplicado futuramente para melhorar a confiabilidade de resumos abstratos e de LLMs conversacionais.
  4. Limitações: não resolve casos em que o sistema aprendeu dados sistematicamente incorretos nem erros sistemáticos de raciocínio. Isso exige abordagens separadas.
  5. Tecnologias concorrentes: em comparação com outros métodos de estimativa de incerteza, a entropia semântica mostra desempenho superior, mas em situações específicas outros métodos podem ser mais eficazes.

1 comentários

 
GN⁺ 2024-06-25
Opinião do Hacker News
  • Problema matemático: há um problema matemático na abordagem de avaliar a distribuição de saída dos LLMs.
  • Exemplo de similaridade: explica a diferença entre similaridade no espaço vetorial de palavras e exatidão usando o exemplo de Tom Cruise e Taylor Swift.
  • Características da distribuição: há a opinião de que não é possível avaliar a exatidão sem conhecer as características da distribuição de saída.
  • Modelo estatístico: existem modelos estatísticos para avaliar a incerteza de ANNs, mas isso pode ser irrealista na escala dos LLMs.
  • Problema das alucinações: a maioria das alucinações parece muito plausível e convincente, mas na realidade contém informações incorretas.
  • Sistema lógico: há a opinião de que os LLMs deveriam ser treinados incluindo um sistema lógico.
  • Processo de treinamento: modelos existentes deveriam ser usados para gerar relações lógicas, e isso deveria ser utilizado no treinamento de novos LLMs.
  • Papel da linguagem: há a opinião de que a linguagem não é a base da inteligência, e que uma simulação coerente é mais importante.
  • Alucinação e verdade: há a opinião de que os LLMs não têm relação com verdade ou falsidade.
  • Essência da alucinação: para saber se um LLM está alucinando, é preciso já conhecer a resposta correta.
  • Marketing de IA: talvez seja melhor fazer marketing da IA como uma ferramenta de geração de texto.
  • Análise de sensibilidade: pode ser interessante um método de alterar a entrada para observar como o significado da saída muda.
  • Caso Enron: menciona um caso em que teria sido possível prever algo usando um "bullshitometer" após o escândalo da Enron.
  • Medição quantitativa: foi desenvolvido um método para medir quantitativamente a possibilidade de a entrada gerar uma resposta arbitrária.
  • Minimização de alucinações: há a opinião de que é preciso adotar medidas em vários níveis para minimizar alucinações.
  • Grafo de conhecimento: há tentativas de reduzir alucinações usando grafos de conhecimento e FAQ.
  • LLM duplo: usar um segundo LLM para detectar equivalência semântica pode causar complexidade desnecessária.