Detecção de alucinações usando entropia semântica em grandes modelos de linguagem
Resumo
- Grandes modelos de linguagem (LLM): sistemas de LLM como ChatGPT e Gemini mostram excelente capacidade de raciocínio e resposta a perguntas, mas frequentemente apresentam o problema de 'alucinação', gerando saídas incorretas ou respostas sem fundamento.
- Problema das alucinações: causa diversos problemas, como fabricação de precedentes jurídicos, informações falsas em artigos de notícias e riscos na área médica.
- Limites das soluções existentes: induzir veracidade por meio de supervisão ou aprendizado por reforço teve apenas sucesso parcial.
- Novo método: propõe um estimador de incerteza baseado em entropia e estatística para detectar gerações arbitrárias e incorretas (confabulações). Ele calcula a incerteza no nível do significado, e não na ordem específica das palavras.
- Aplicabilidade: funciona independentemente do conjunto de dados e da tarefa, não exige conhecimento prévio da tarefa e generaliza bem para novas tarefas.
Conteúdo principal
Importância do problema das alucinações
- Definição de alucinação: quando um LLM gera conteúdo que não é fiel ao conteúdo-fonte fornecido ou que é ilógico.
- Exemplo de confabulação: casos em que gera respostas aleatoriamente diferentes para a mesma pergunta.
- Problemas existentes: quando é treinado com dados incorretos, quando mente para buscar recompensa, ou em falhas sistemáticas de raciocínio ou generalização.
Detecção de confabulações com entropia semântica
- Visão geral do método: mede quantitativamente os casos em que uma entrada tem alta probabilidade de gerar respostas arbitrárias e sem fundamento.
- Entropia semântica: estima a incerteza calculando a entropia com base no significado das frases. Entropia alta indica alta incerteza.
- Clustering: calcula a entropia agrupando respostas com significado semelhante.
Avaliação e resultados
- Conjuntos de dados: avaliado em diversos datasets, como TriviaQA, SQuAD, BioASQ, NQ-Open e SVAMP.
- Modelos: testado em vários modelos, como LLaMA 2 Chat, Falcon Instruct, Mistral Instruct e GPT-4.
- Desempenho: a entropia semântica apresentou desempenho superior ao da entropia simples existente e ao de métodos de aprendizado supervisionado.
Desempenho geral
- AUROC: métrica que mede a capacidade do modelo de prever erros; a entropia semântica registrou a maior pontuação.
- AURAC: métrica que mede a precisão nas perguntas restantes ao rejeitar aquelas com maior probabilidade de causar confabulação; a entropia semântica apresentou o melhor desempenho.
Opinião do GN⁺
- Praticidade: a entropia semântica pode ser aplicada a vários datasets e tarefas, o que lhe dá alta utilidade prática. Em especial, generaliza fortemente para novas tarefas.
- Contribuição técnica: supera as limitações das abordagens existentes de cálculo simples de entropia e propõe uma nova forma de medir a incerteza no nível semântico.
- Potencial futuro: esse método também pode vir a ser aplicado futuramente para melhorar a confiabilidade de resumos abstratos e de LLMs conversacionais.
- Limitações: não resolve casos em que o sistema aprendeu dados sistematicamente incorretos nem erros sistemáticos de raciocínio. Isso exige abordagens separadas.
- Tecnologias concorrentes: em comparação com outros métodos de estimativa de incerteza, a entropia semântica mostra desempenho superior, mas em situações específicas outros métodos podem ser mais eficazes.
1 comentários
Opinião do Hacker News