1 pontos por GN⁺ 2024-10-27 | 1 comentários | Compartilhar no WhatsApp

Detecção de incerteza em LLMs

Este texto explica uma nova técnica de inferência desenvolvida no Entropix, um novo projeto da XJDR. O Entropix tenta melhorar o raciocínio do modelo tornando a amostragem mais inteligente em momentos de incerteza. No entanto, como ainda não houve uma avaliação em larga escala, não está claro o quanto isso realmente ajuda.

Visão geral da incerteza

  • A amostragem é o processo de selecionar um token a partir da distribuição de tokens possíveis (logits) escolhida pelo LLM.
  • A confiança do modelo em sua previsão pode ser entendida por meio dessa distribuição.
  • O Entropix usa amostragem adaptativa para fazer com que o modelo tome decisões melhores quando está incerto.

O significado e a importância da incerteza

  • A incerteza nos logits pode ter várias causas, e nem todas são ruins.
  • Entre as causas estão sinônimos ou tokens equivalentes, caminhos de ramificação e casos em que a IA não está confiante.
  • O Entropix propõe que o próximo token deve ser escolhido de maneiras diferentes de acordo com o grau de incerteza.

Entropia e varentropia

  • O Entropix usa dois indicadores para medir a incerteza: entropia e varentropia.
  • A entropia mede o quanto os logits previstos diferem entre si.
  • A varentropia representa a "forma" da incerteza; uma varentropia alta indica que alguns valores diferem bastante dos demais.

Explicação matemática

  • Surprisal é um conceito que mede a imprevisibilidade de um evento.
  • Entropia é o valor esperado do surprisal para todos os resultados possíveis.
  • Varentropia é calculada como a variância do surprisal.

Amostragem adaptativa com base em entropia e varentropia

Baixa entropia, baixa varentropia

  • É o caso ideal, em que o modelo está confiante não apenas na primeira opção, mas também nas outras opções.
  • Usa-se a amostragem padrão argmax para selecionar o token de maior probabilidade.

Baixa entropia, alta varentropia

  • É o caso em que o modelo prevê algumas opções com probabilidade muito alta.
  • Isso pode indicar uma nova ramificação de saída, e a ramificação pode ser implementada de várias maneiras.

Alta entropia, baixa varentropia

  • O modelo pode estar vendo algo que não reconhece, ou todas as opções podem ser intercambiáveis entre si.
  • Usa-se um token de "pensamento" para induzir o modelo a gastar mais tempo de computação.

Alta entropia, alta varentropia

  • É o caso em que o modelo não tem uma preferência clara, mas está mais confiante em algumas saídas do que em outras.
  • Pode-se escolher aleatoriamente, fazer ramificação ou inserir um token de pensamento.

Ramificação e tokens de pensamento

  • A previsão por ramificação é uma forma de seguir alguns logits para ver se levam a tokens diferentes.
  • Tokens de pensamento são uma forma de realizar mais computação em estados de incerteza.

Entropia de atenção

  • O Entropix usa a entropia de atenção para ajustar a temperatura.
  • Entropia de atenção e alinhamento de atenção podem fornecer sinais adicionais para a amostragem.

Isso é importante?

  • As percepções do Entropix são fáceis de entender e não são algo totalmente novo.
  • Mesmo que as avaliações não mostrem grandes vantagens, essas técnicas de inferência são uma direção fácil de experimentar.

Resumo do GN⁺

  • O Entropix propõe uma nova abordagem para lidar com a incerteza em LLMs.
  • Usando entropia e varentropia, é possível medir o nível de confiança do modelo e tomar decisões melhores por meio de amostragem adaptativa.
  • Essas técnicas oferecem a possibilidade de hackers de código aberto melhorarem a capacidade de raciocínio dos modelos mesmo sem um orçamento em larga escala.
  • Como projeto com funcionalidade semelhante, recomenda-se o Transformers da Hugging Face.

1 comentários

 
GN⁺ 2024-10-27
Comentários no Hacker News
  • Charles Babbage ficou confuso com a pergunta sobre se uma entrada incorreta poderia produzir uma saída correta

  • Técnicas baseadas em amostragem usando hardware de consumo são uma oportunidade rara de melhorar modelos SOTA. No entanto, isso não deve durar, e no fim será necessário um sampler treinável

    • optillm é um projeto que implementa essas técnicas
    • O cálculo adicional da Entropics não produz resultados melhores do que a decodificação CoT
  • Muitos problemas dos LLMs são causados por vazamento semântico ou por informações irrelevantes. Pode haver espaço para melhorar a atenção

    • Escreveu posts no blog relacionados: vazamento semântico, LLMs e raciocínio, máquina de Turing com tempo de raciocínio O(1)
  • Os GPTs modernos produzem logits a partir de um grande classificador sobre o vocabulário de tokens. Isso existe no espaço e pode calcular uma variedade com propriedades de convexidade anormais

  • Em situações de alta entropia, é necessário que o modelo consiga detectar a incerteza e alertar o usuário

  • Não há certeza de que exista uma técnica para julgar a incerteza de LLMs. Pesquisas recentes quantificam estatisticamente se o LLM está chutando usando entropia semântica

  • Fica a curiosidade se alguém já experimentou a saída quando o modelo não permite incerteza. A ideia é que o sampler volte atrás até que todos os tokens tenham certeza acima de um limiar

  • Há dúvidas sobre confiar em LLMs para executar tarefas com supervisão mínima. Tudo pode ser "alucinação" ou chute

  • O problema dos LLMs não é apenas "incerteza", mas tem várias dimensões. Pode ser falta de significado na pergunta, falta de informação, ausência de consenso entre especialistas etc.

  • Existem inúmeras estratégias de amostragem para modelos de linguagem. É difícil demonstrar empiricamente que uma estratégia específica é superior ao top-k ou top-p padrão