Detecção de alucinações em grandes modelos de linguagem com entropia semântica

(nature.com)

1 pontos por GN⁺ 2024-06-25 | 1 comentários | Compartilhar no WhatsApp

Propõe um método para detectar confabulation, respostas erradas plausíveis porém arbitrárias de LLMs, calculando a incerteza na distribuição de significado da resposta, e não na sequência de palavras
Amostra várias respostas para a mesma pergunta, agrupa em um mesmo cluster semântico as respostas que têm implicação bidirecional entre si e calcula a entropia por cluster
Em avaliações com LLaMA 2 Chat, Falcon Instruct e Mistral Instruct em TriviaQA, SQuAD 1.1, BioASQ, NQ-Open e SVAMP, obteve AUROC média de 0,790, acima de naive entropy 0,691, P(True) 0,698 e embedding regression 0,687
No conjunto de dados de biografias geradas por GPT-4 FactualBio, entre 150 afirmações factuais extraídas de biografias de 21 pessoas, 45 estavam erradas; a entropia semântica discreta, que funciona mesmo sem probabilidades de saída, mostrou AUROC e AURAC superiores aos de self-check e variantes de P(True)
A entropia semântica generaliza para novas tarefas sem conhecimento prévio do domínio nem rótulos específicos por tarefa, mas não garante a factualidade de respostas consistentemente erradas, como erros nos dados de treino, falhas sistemáticas de raciocínio ou saídas que induzem o usuário ao erro

Alvo da detecção: não todas as alucinações, mas confabulation

LLMs como ChatGPT e Gemini mostram capacidade de raciocínio e resposta a perguntas, mas riscos como invenção de precedentes jurídicos, fatos falsos em notícias e erros perigosos em áreas médicas como radiologia dificultam sua adoção no mundo real
O foco aqui não é o conjunto amplo de alucinações, e sim confabulation
- O LLM fala com fluidez, mas a resposta está errada e é arbitrária
- Mesmo com a mesma instrução, a resposta muda conforme detalhes irrelevantes, como a semente aleatória
- Por exemplo, para a pergunta “Qual é o target de Sotorasib?”, às vezes responde corretamente KRASG12 ‘C’, e às vezes responde incorretamente KRASG12 ‘D’
Os seguintes tipos de falha são distintos de confabulation
- Casos em que o modelo erra de forma consistente por causa de dados de treino incorretos ou crenças difundidas
- Casos em que o modelo mente durante o processo de busca por recompensa
- Falhas sistemáticas de raciocínio ou de generalização
O método se concentra em detectar erros arbitrários que parecem plausíveis até para humanos e não fornece garantia de factualidade das saídas do LLM

Ideia central da entropia semântica

O cálculo tradicional de entropia usa a distribuição de probabilidade de sequências de tokens geradas pelo modelo
- A mesma resposta correta pode ser escrita de várias formas, então a entropia pode parecer alta mesmo quando o significado é o mesmo
- A naive entropy não distingue diversidade de formulação de diferença de significado
A entropia semântica estima a incerteza agrupando respostas geradas livremente em unidades de significado
- Respostas com o mesmo significado são reunidas em um mesmo cluster semântico
- Soma-se a probabilidade de cada cluster para calcular a entropia no nível semântico
Quando o modelo responde várias vezes à mesma pergunta, se só a forma de expressão muda e o significado permanece igual, a incerteza é considerada baixa; se aparecem significados diferentes, a incerteza é considerada alta
Para modelos em que não se pode usar probabilidades de saída, pode-se aplicar a entropia semântica discreta
- Em vez das probabilidades de token, usa-se a proporção de amostras pertencentes a cada cluster semântico
- Nos experimentos com GPT-4, essa variante foi usada porque, na época, não havia acesso a probabilidades de saída nem a hidden states
- A variante discreta mostrou desempenho semelhante ao estimador padrão

Algoritmo: amostragem, clustering semântico e cálculo da entropia

O procedimento tem três etapas
- Geração: amostra várias respostas para a mesma entrada
- Clustering: agrupa respostas com o mesmo significado
- Estimativa de entropia: soma as probabilidades das sequências dentro do mesmo cluster semântico para calcular a entropia
A equivalência semântica é aproximada por implicação bidirecional
- Se a sentença A implica a sentença B, e a sentença B também implica a sentença A, elas são tratadas como tendo o mesmo significado
- “The capital of France is Paris” e “Paris is the capital of France” são mutuamente implicativas e, portanto, entram no mesmo grupo
- Respostas curtas como “Paris” só podem ter o mesmo significado que uma resposta mais longa dentro do contexto da pergunta
Para julgar implicação, foram usados LLMs gerais e ferramentas de NLI
- Nos experimentos de QA e matemática, o GPT-3.5 foi escolhido por alinhar bem com avaliação humana e ter bom desempenho na detecção de confabulation
- Modelos de NLI como DeBERTa-Large-MNLI também foram avaliados
Na amostragem, foram usados temperature 1, nucleus sampling P=0.9 e top-K sampling K=50
- Para avaliar a acurácia do modelo, usou-se geração única com temperature baixo de 0.1
Como sentenças longas sofrem com probabilidades muito pequenas ao multiplicar probabilidades de token, foi usada normalização por comprimento na comparação de log-probabilidades

Avaliação em QA e problemas de matemática

A avaliação foi feita em conjuntos de dados que exigem respostas livres
- TriviaQA: conhecimento de trivia
- SQuAD 1.1: compreensão de leitura baseada na Wikipedia
- BioASQ: perguntas e respostas em ciências da vida
- NQ-Open: perguntas de domínio aberto derivadas de buscas reais no Google Search
- SVAMP: problemas de matemática em linguagem natural do ensino fundamental
Em cada dataset, foram amostrados aleatoriamente 400 exemplos de treino e 400 de teste
- A própria entropia semântica não usa os dados de treino
- Para tornar a tarefa mais difícil e induzir confabulation, os trechos de contexto originais dos datasets não foram fornecidos
Os modelos usados foram os seguintes
- LLaMA 2 Chat 7B, 13B, 70B
- Falcon Instruct 7B, 40B
- Mistral Instruct 7B
O comprimento médio das respostas do tipo sentença foi de 96±70 caracteres, e a entropia semântica teve a maior AUROC média em 30 combinações de tarefa e modelo
- semantic entropy: 0,790
- naive entropy: 0,691
- P(True): 0,698
- embedding regression: 0,687
O desempenho da entropia semântica também foi estável entre famílias e tamanhos de modelo
- AUROC na faixa de 0,78 a 0,81 em LLaMA, Falcon e Mistral
- Superior aos baselines em tamanhos de 7B a 70B
P(True) tende a melhorar à medida que o tamanho do modelo cresce, então pode ser mais competitivo em cenários que modelos muito capazes e honestos entendem bem
A avaliação de detecção de erro incluía não só confabulation, mas também erros sistemáticos que a entropia semântica não mira diretamente
- Ainda assim, o fato de a entropia semântica ter superado outros métodos sugere que confabulation é uma categoria importante entre os erros reais de geração

Acurácia com rejeição e métricas de avaliação

AUROC é usada para um evento binário: distinguir se uma resposta específica está errada
- O valor vai de 0 a 1; 1 indica um classificador perfeito e 0,5 um classificador sem informação
AURAC é a área sob a curva de acurácia com rejeição
- Mede a acurácia do modelo nas perguntas restantes quando ele rejeita aquelas com alta chance de confabulation
- Resume o ganho de acurácia que o usuário percebe sob vários thresholds
A entropia semântica pode ser usada nas seguintes situações
- Não responder a perguntas com alta probabilidade de induzir confabulation
- Avisar o usuário de que uma resposta específica tem baixa confiabilidade
- Reforçar procedimentos mais fundamentados, como busca ou processos baseados em retrieval
A verificação de certo/errado em respostas do tipo sentença foi automatizada usando GPT-4 para julgar se a referência e a resposta proposta coincidiam em significado
- Materiais suplementares separados verificam a qualidade dessa avaliação automática em comparação com julgamentos humanos

Geração de biografias longas: experimento FactualBio

Em parágrafos longos, várias proposições se misturam, então é difícil julgar diretamente a equivalência semântica do parágrafo inteiro
- Ao regenerar o mesmo parágrafo, podem surgir diferenças na ordem dos fatos ou na estrutura do parágrafo, e não necessariamente na incerteza factual em si
FactualBio é um dataset de biografias geradas pelo GPT-4 v.0613
- Abrange 21 pessoas conhecidas o bastante para terem página na Wikipedia, mas sem muitas biografias detalhadas online
- Foram extraídas automaticamente 150 proposições factuais das biografias geradas
- Dessas 150, 45 foram consideradas afirmações incorretas em rotulagem manual
Para gerações longas, foi aplicado o seguinte procedimento
- O parágrafo é decomposto em afirmações factuais individuais
- São geradas automaticamente perguntas cujas respostas podem ser essas afirmações factuais
- O LLM original gera novas respostas para cada pergunta
- A nova resposta e a afirmação factual original são usadas juntas para calcular a entropia semântica
- A média da entropia semântica entre várias perguntas vira a pontuação de incerteza daquela afirmação factual
Para cada fato, foram criadas 6 perguntas, e para cada pergunta foram geradas 3 novas respostas
- A inclusão da afirmação factual original no cálculo da entropia mantém o grounding na claim original
- Se respostas de recusa como “not available”, “not provided”, “unknown” ou “unclear” passavam de metade, a incerteza semântica era tratada como máxima
A entropia semântica discreta registrou AUROC e AURAC maiores no FactualBio do que o baseline self-check e variantes de P(True) para textos de tamanho de parágrafo
- Em acurácia com rejeição, a entropia semântica discreta foi melhor até o ponto em que 20% das perguntas eram rejeitadas; nesse ponto, P(True) ficou ligeiramente à frente

Limitações e aplicabilidade

A entropia semântica pode ser aplicada a LLMs ou foundation models semelhantes sem modificar a arquitetura do modelo
A variante discreta pode ser usada mesmo em ambientes de acesso restrito sem probabilidades de saída
Diferentemente de abordagens supervisionadas, ela não exige exemplos rotulados de confabulation e generaliza para novas tarefas sem conhecimento prévio do domínio
- Métodos supervisionados como embedding regression pioram quando a distribuição dos dados de treino difere da distribuição dos dados de produção
O método não resolve diretamente situações em que o LLM erra com confiança
- Objetivos de treino que produzem comportamentos perigosos de forma sistemática
- Erros sistemáticos de raciocínio
- Saídas que induzem o usuário ao erro de forma sistemática
- Esses casos podem ter sintomas parecidos com confabulation, mas exigem tratamento separado
É uma abordagem que adapta ferramentas de estimativa de incerteza da aprendizagem de máquina probabilística para geração livre de linguagem com base no significado, generaliza para novas tarefas sem dados específicos por tarefa e ajuda a identificar situações em que o usuário deve redobrar a cautela

Dados e código

Os experimentos com frases curtas e gerações do tamanho de sentença usam datasets públicos, e o método de acesso está incluído no código público
A versão pública do FactualBio é fornecida como parte da base de código para reproduzir os experimentos com textos do tamanho de parágrafo
Locais de publicação do código
- github.com/jlko/semantic_uncertainty: código para experimentos com short-phrase e sentence-length
- github.com/jlko/long_hallucinations: código para experimentos com paragraph-length
- Zenodo DOI: https://doi.org/10.5281/zenodo.10964366

1 comentários

GN⁺ 2024-06-25

Comentários do Hacker News

Os comentários parecem estar discutindo o significado das palavras ou a antropomorfização de LLMs, mas há um problema matemático real nessa abordagem
Para qualquer texto de entrada, existe uma distribuição de textos de saída correspondente, e avaliar entropia ou divergência a partir de várias amostras parece depender da premissa de que já se conhecem as propriedades dessa distribuição de saída
Por exemplo, para “Pelo que Tom Cruise é famoso?”, respostas como “movie star”, “katie holmes”, “topgun” e “scientology” podem todas estar corretas, mesmo estando distantes no espaço vetorial
Por outro lado, se para “Pelo que Taylor Swift é famosa?” saírem respostas semanticamente próximas como “standup comedy”, “comedian” e “comedy actress”, todas podem ser alucinações
Se conhecer a distribuição correta de sequências de palavras para uma determinada entrada é justamente o problema que o LLM precisa resolver, então não há como decidir se está certo ou errado apenas avaliando a distribuição de saída
Existem modelos estatísticos para avaliar a incerteza na saída de redes neurais artificiais, mas eles não parecem realistas na escala dos LLMs, e usar apenas as últimas 1 ou 2 camadas como estimativa parcial corta de forma drástica a incerteza da rede inteira
As alucinações que encontro também costumam ser casos muito plausíveis e aparentemente próximos da resposta correta, como renomear variáveis ou inventar chaves de configuração, mas na prática estão errados
- Como respostas com alta incerteza têm, por definição, baixa probabilidade, ao perguntar várias vezes é mais provável que apareçam respostas semanticamente diferentes do que a mesma resposta rara se repetir, como dizer que Taylor Swift é comediante
  Se os dados de treinamento dizem que Taylor Swift é comediante, então isso não é um problema de alucinação
- Parece uma explicação bem mais técnica daquilo que eu já intuía com meu cérebro de ciência da computação sem matemática
  Isso soa parecido com reduzir a temperatura. Em vez de recuperar melhor verdades bem fundamentadas, parece mais ir para o lado mais provável no espaço vetorial; queria saber se esse entendimento está certo
- A crítica é válida, mas no exemplo da Taylor Swift, um modelo bem ancorado provavelmente teria baixa chance de gerar repetidamente uma resposta como “comediante”, que não existe nos dados de treinamento
  No exemplo do Tom Cruise, tudo é factual e tem base nos dados de treinamento, então essa técnica pode acabar gerando um falso positivo de alucinação
  Ainda assim, os exemplos do artigo são perguntas de resposta única, como “Qual receptor é afetado por este fármaco específico?” e “Onde fica a Torre Eiffel?”, então parece algo que pode ajudar nesse tipo de aplicação
- Em outras palavras, “amostrar e medir a similaridade entre amostras permite saber o espalhamento da distribuição, mas não se a distribuição está correta”
  Dá para tirar amostras de uma distribuição gaussiana e falar sobre o desvio padrão, mas não saber se aquela distribuição está certa
  É possível ter uma distribuição muito precisa para uma variável de alta entropia e, ao mesmo tempo, uma distribuição densa com baixo desvio padrão que simplesmente esteja errada. Se você não souber de antemão como a saída deveria ser, não dá para descobrir isso só com amostragem
- O método do artigo não faz apenas “extrair várias amostras e avaliar só entropia ou divergência”
  Ele amostra várias respostas, agrupa por similaridade semântica e depois soma e normaliza as probabilidades das respostas agrupadas
  Por exemplo, “music:0.8, musician:0.9, concert:0.7, actress:0.5, superbowl:0.6” é agrupado como [music, musician, concert] → MUSIC, [actress] → ACTING, [superbowl] → SPORTS, e então calculado como MUSIC:0.686, SPORTS:0.171, ACTING:0.143
  O artigo define explicitamente o alvo que tenta bloquear como confabulação. Ou seja, afirmações fluentes, erradas e arbitrárias, que mudam de forma sensível com detalhes irrelevantes como a semente aleatória
  Um equívoco comum provavelmente ficaria fortemente presente no dataset, e esse método se parece mais com uma forma de penalizar respostas semanticamente isoladas das outras respostas possíveis e com probabilidade ambígua
  O artigo compara apenas o efeito de detecção e não propõe um método melhorado de amostragem que use essa detecção. Se isso for incorporado na técnica de geração, também surge um custo alto de ter que gerar algo como 10x mais saídas do modelo
  Código: https://github.com/jlko/semantic_uncertainty
As arquiteturas atuais de LLM se concentram principalmente em recuperação, e os pesos aprendidos apenas convergem para prever bem o próximo token
Acho que a capacidade de colocar esses dados dentro de um sistema lógico também deveria ter sido um objetivo de treinamento
Se adicionarmos validação formal do conhecimento na etapa de treinamento à previsão do próximo token, os LLMs poderão manter a consistência da geração de conhecimento e enxergar alucinações corretas, isto é, algo mais próximo da imaginação
O processo poderia ser algo como converter os dados de treinamento existentes em relações de lógica formal com um grande modelo já existente, fazê-lo gerar várias soluções e, com esse dataset reforçado, treinar um novo LLM para produzir não apenas o próximo token, mas também as relações formais entre o conhecimento existente e o texto recém-gerado
A rede pode otimizar os pesos tanto pela precisão da geração de tokens quanto pela obtenção de alta precisão do código formal gerado em um verificador de provas
Pessoalmente, a linguagem me parece não ser a base da inteligência, mas algo secundário; a base parece mais próxima de uma simulação onírica com objetos mutuamente consistentes, e a linguagem soa como uma ferramenta para explicar isso
- Essa proposta nos leva de volta ao debate clássico entre a abordagem formal de cima para baixo e a abordagem informal de baixo para cima na construção de sistemas de gestão de conhecimento semântico
  A abordagem de cima para baixo foi muito tentada antes da era do big data e dos modelos probabilísticos, mas exigia uma curadoria manual enorme e ainda tinha pouco conhecimento
  A chegada do big data não resolveu o problema da curadoria e, como não foi possível automatizá-la, a situação só piorou à medida que a escala cresceu
  Quando a IA migrou para o lado probabilístico por volta dos anos 1990, isso tornou possíveis os modelos probabilísticos associativos de hoje, e não há sinal de que uma abordagem mais curada e mais formal possa superá-los
  Não importa como se tente acoplar pensamento do tipo 2 aos LLMs, com raciocínio, causalidade e afins, a implementação terá de continuar sendo probabilística, informal e de baixo para cima
  Já ficou claro que a forma de fazer a curadoria manual de relações lógicas e semânticas em um modelo de conhecimento não é suficiente para a escala necessária nem para lidar com fragilidade
- A lógica também tem muitos problemas próprios
  Basta olhar para “Godel, Escher, Bach” ou pensar por que o OWL existe há 20 anos e ainda assim quase não teve participação de mercado
  Está no mesmo contexto o motivo de as pessoas terem tentado todo tipo de resposta além de RETE para gerenciar código assíncrono, de “processamento de eventos complexos” ter continuado como um nicho em vez de competir com executores de tarefas como Celery, e de o Drools não conseguir emitir mensagens de erro compreensíveis
- O problema surge com coisas novas que o modelo nunca viu e com perguntas para as quais nem os humanos sabem a resposta
  Todo o problema das alucinações parece apenas o problema da parada com algumas etapas a mais. Talvez seja preciso perguntar ao ChatGPT se P=NP
- CYC pode ser uma solução válida como primeira etapa
  Pela minha experiência, dá para chamar isso de um esquema de relações significativo para DAGs. Existe uma versão open source, mas a empresa já não a mantém diretamente
  https://cyc.com
  https://github.com/asanchez75/opencyc
- Validação formal de conhecimento ou de relações lógicas: e como validar formalmente ficção científica ou poesia?
  E o que fazer com paradoxos que existem na natureza, ou com teorias mutuamente contraditórias, mas cada uma logicamente válida?
  Parece fácil de dizer, mas na prática isso equivale a propor: “vai funcionar se resolvermos um problema NP-difícil que não sabemos resolver”
Dá para chamar isso de alucinação, mas outra forma de dizer é que esses sistemas são ortogonais à verdade
Ou seja, não têm relação nenhuma com verdadeiro ou falso
Essa ideia também aparece neste artigo: https://link.springer.com/article/10.1007/s10676-024-09775-5
- É como perguntar se uma distribuição de probabilidade diz a verdade ou é mentirosa
  Falar como se o algoritmo tivesse traços pessoais é um erro de categoria
- O artigo citado trata de detectar se o LLM escolhe aleatoriamente no nível dos fatos ou se escolhe de forma consistente
  A aleatoriedade gerada proceduralmente pode ser ótima para coisas como brainstorming, e consistência é um sinal de que ele está repetindo algo que também aparecia de forma relativamente consistente no material de treino
  Portanto, pode ser verdade ou mentira, mas é mais provável que tenha vindo de algum lugar
  Saber o quão aleatória é a informação parece um pequeno avanço
- Os LLMs são treinados com algo como o objetivo de “responda com pelo menos três parágrafos aconteça o que acontecer”, e isso é sempre preferido a ficar em silêncio ou dar respostas pouco amistosas como “do que você está falando?”
  Então, na prática, estamos ensinando-os a produzir baboseira plausível
  É parecido com aulas de improviso, em que ensinam a manter a conversa interessante e a não dizer “não” para o outro ator
- Fico com a suspeita de que a realidade compartilhada vai se curvar aos LLMs, e não o contrário
  O que o computador diz pode acabar virando a “verdade”
- Esses LLMs parecem mais próximos do inconsciente do que da consciência
  Jung provavelmente chamaria isso de “antinomy”. O objetivo não é representar a verdade, mas a totalidade das respostas possíveis
No fim das contas, tudo o que um LLM faz não é “alucinação”?
Para saber se houve alucinação, você já precisa conhecer a resposta correta. Se fosse possível criar um sistema que sabe se a resposta está certa, então não precisaríamos mais de LLM
- “Alucinação” originalmente sugere a falha de uma mente íntegra
  No caso dos LLMs atuais, seria mais correto chamar isso de falar bobagem. Quanto melhor essa bobagem fica, maior passa a ser a taxa de acertos por acaso
- Em toda thread sobre esse tema sempre parece ter alguém que faz questão de implicar com o termo “alucinação”, que já é um termo estabelecido e bem compreendido. Está ficando cansativo
- Os humanos também inventam tudo
  Às vezes de forma consistente, com base em dinâmicas físicas e sociais, às vezes não
  Como um sistema obviamente sempre correto é impossível, precisamos de um sistema que busque consistência
- Se você tivesse lido o texto, teria visto que o processo de gerar respostas com LLM é, de fato, uma parte importante do processo de checagem de fatos
Por enquanto, pode ser melhor as empresas de IA apresentarem chatbots apenas como ferramentas de geração de texto levemente direcionadas
Assim, as pessoas podem usá-los de acordo com isso
Há algo que parece um pouco com compreensão, e também dá para fazê-los imitar um pouco o raciocínio passo a passo, mas 95% dessa funcionalidade de caixa-preta é geração de texto
Na verdade, nem a geração é criação de conhecimento; está mais para um parceiro de improviso do que para uma enciclopédia, e o pessoal da indústria de tecnologia sabe disso
Não sei se é realmente necessária uma solução engenhosa baseada em entropia de respostas para o problema de os LLMs induzirem as pessoas ao erro. A solução é interessante e parece que pode trazer melhorias reais, como atribuir uma pontuação de confiança às afirmações
Mas será que a maior parte do dano não seria reduzida, e a ajuda não seria ainda maior, se simplesmente parassem de fazer marketing de geradores de texto de machine learning quase como se fossem AGI?
- Estou trabalhando com LLM enquanto faço um frontend com React e Redux, e ambas são tecnologias das quais eu quase não sabia nada
  Eu fazia perguntas, e o LLM me dava respostas e código JavaScript, e eu também estava bem enferrujado em JavaScript
  Todo o código compilou, e a maior parte funcionou como esperado. Houve erros, mas o LLM explicou erros que eu não entendia e me deu código corrigido que funcionava
  No geral, foi uma ótima experiência, como trabalhar com um mentor, e do ponto de vista de um iniciante me poupou muito tempo. Claro que ainda é preciso validar o resultado
  De onde saiu esse número de 95%? E não importa se isso é geração de texto ou geração de fatos/conhecimento. É uma ferramenta realmente valiosa e muito melhor do que qualquer outra que eu já usei
A abordagem de “amostrar várias respostas possíveis para cada pergunta e agrupá-las algoritmicamente por similaridade semântica” faz sentido para perguntas com uma única resposta objetiva de múltipla escolha
Quando há várias respostas igualmente válidas, pode não ajudar muito
Ainda assim, é boa o bastante para aplicações em motores de busca
Ao ver o conceito de entropia semântica, lembrei de quando algum banco criou um “bullshitometer” para medir o nível de besteira em comunicados à imprensa depois do caso Enron
Não lembro o nome do banco, mas dizem que, ao aplicá-lo aos comunicados da Enron, foi possível mostrar que ele previa o colapso da empresa
Em estatística existe o conceito de análise de sensibilidade
Isso parece um pouco parecido, mas uma alternativa interessante poderia ser modificar a entrada de uma forma que se acredita preservar o significado e então observar como o significado da saída muda
Claro que a parte difícil é alterar a entrada sem mudar o significado, mas não parece totalmente impossível
No mínimo, dá para pedir ao LLM que reformule a entrada sem mudar o significado. Só que ele também pode reformular na direção do erro de interpretação que o modelo já fez da entrada, criando uma situação em que, depois da reformulação, a saída alucinada combine ainda melhor
Faz sentido que a entropia semântica, que aparentemente exige um LLM treinado para detectar equivalência semântica, consiga captar melhor as alucinações
Mas não vejo bem como a equivalência semântica resolve diretamente o problema das alucinações
Por enquanto, suspeito que isso esteja mais para uma heurística para detectar alucinações
Além disso, precisar de um segundo LLM para detectar equivalência semântica a fim de capturar esses casos parece complexidade desnecessária
Se já existe um dataset de equivalência semântica, eu tenderia a colocá-lo diretamente no processo de treinamento do LLM principal em vez de treinar um segundo LLM
- Ainda não entendi essa pesquisa o bastante para criticá-la com confiança, mas dá para integrar um dataset de equivalência semântica ao treinamento
  Ainda assim, continua parecendo estranho tentar compensar as fraquezas de um modelo complexo com objetivos perceptivos pouco claros misturando várias funções explícitas, como “alcançar um bom AUC em significado”
  Nem sabemos se estamos combinando isso bem, nem se estamos introduzindo no treinamento resultados, riscos e vieses difíceis de prever
  Em uma tarefa definida de forma mais estreita, como “é possível julgar equivalência semântica?”, dá para construir um modelo melhor com menos riscos desconhecidos, e se ele for aplicado de forma relativamente clara, os riscos desconhecidos também diminuem
  Portanto, abrir caminho até uma heurística específica e razoável com dois estimadores levemente enviesados pode ser muito mais seguro e mais geral do que simplesmente misturar dados nesse composto complexo já existente e esperar que a contribuição seja previsível
- Detectar alucinações é bastante útil em muitas aplicações
  Estou pesquisando formas de reduzir o impacto de erros factuais em respostas de LLM para órgãos públicos, porque dar uma resposta factualmente errada pode ser ilegal
  Se for possível detectar isso com precisão suficiente, o sistema pode se recusar a responder e pedir ao usuário que entre em contato com o órgão
  Claro que seria melhor treinar o modelo para não dar respostas erradas desde o início
  A complexidade desnecessária também surge quando se usa um LLM caixa-preta comercial pré-treinado acessado por API. Infelizmente, é assim que os LLMs são usados na maioria das aplicações
  Pode até ser possível fazer ajuste fino via API, mas para esse tipo de dataset sintético em larga escala isso é incômodo, limitado e muito caro
  Pelo texto sozinho, foi difícil entender como exatamente a “entropia semântica” é calculada. Se houver interesse, o código é bem mais fácil de entender: https://github.com/jlko/semantic_uncertainty/blob/master/sem...
É uma ideia bem engenhosa. O método consiste em verificar se o modelo responde de forma diferente quando a mesma pergunta é repetida várias vezes
A “verificação” é feita por outro modelo, e a “diferença” é medida por entropia

Detecção de alucinações em grandes modelos de linguagem com entropia semântica

Alvo da detecção: não todas as alucinações, mas confabulation

Ideia central da entropia semântica

Algoritmo: amostragem, clustering semântico e cálculo da entropia

Avaliação em QA e problemas de matemática

Acurácia com rejeição e métricas de avaliação

Geração de biografias longas: experimento FactualBio

Limitações e aplicabilidade

Dados e código

Leituras relacionadas

1 comentários

Comentários do Hacker News