4 pontos por GN⁺ 2024-05-15 | 2 comentários | Compartilhar no WhatsApp

Needle in a Needlestack: o avanço de memória do GPT-4o! (código NIAN) - Tom Burns

Apresentando um novo benchmark

  • Needle in a Needlestack é um novo benchmark que mede o quão bem os LLMs (modelos de linguagem de grande porte) conseguem prestar atenção às informações dentro da janela de contexto.
  • O NIAN gera prompts contendo milhares de limeriques e faz uma pergunta sobre um único limerique em uma posição específica.
  • Um prompt de exemplo contém cerca de 2500 limeriques.
  • Até agora, nenhum LLM havia apresentado um desempenho realmente bom nesse benchmark.

Tentativas do GPT-4 Turbo e do Claude-3 Sonnet

  • Tentativas do GPT-4 Turbo e do Claude-3 Sonnet:
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

O avanço do GPT-4o

  • O GPT-4o alcançou um grande avanço!
  • Ele mostrou um desempenho quase perfeito nesse benchmark.
  • Fica a curiosidade sobre quando a OpenAI vai revelar como conseguiu tornar o GPT-4o muito melhor do que o GPT-4 Turbo.

Desempenho dos modelos da Mistral

  • Os modelos da Mistral são muito bons de usar. A API é muito rápida e consistente.
  • Porém, o novo modelo 8x22 da Mistral teve muita dificuldade nesse benchmark.
    • Mesmo no começo do prompt, a probabilidade de responder corretamente à pergunta é de apenas 50%.
    • O Mistral large teve desempenho melhor, mas ainda ficou em apenas 70% de precisão.
  • Observação: a contagem de tokens foi estimada usando o tokenizer da OpenAI. Como a Mistral usa um tokenizer diferente que gera cerca de 25% mais tokens, a contagem de tokens no gráfico é menor do que a contagem real.
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

Desempenho com prompts curtos

  • Os modelos apresentam desempenho muito melhor com prompts curtos.
  • Exemplo: comparação do desempenho do Mistral 7b com prompts de 16k tokens e 32k tokens.
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

A importância de repetir informações

  • Repetir informações faz uma grande diferença neste teste.
  • O GPT-3.5-turbo melhora drasticamente quando o limerique perguntado no prompt é repetido 10 vezes.
    • limerick used once
    • limerick used 10 times

Código do benchmark e mais informações

  • O código deste benchmark pode ser visto aqui.
  • É fácil adicionar suporte a mais modelos.
  • Mais detalhes sobre como as respostas são avaliadas e como as perguntas são validadas estão na página de metodologia.
  • Em caso de dúvidas, entre em contato pelo contato.
  • Este site é open source. Melhore esta página.

Opinião do GN⁺

  • Avanço técnico: o desempenho do GPT-4o mostra um grande progresso na memória e na atenção dos LLMs. Isso abre caminho para executar tarefas mais complexas.
  • Escolha de modelo: ao comparar o desempenho de diferentes modelos, é importante escolher o modelo adequado para a tarefa específica. Por exemplo, pode ser vantajoso escolher um modelo que se saia melhor com prompts curtos.
  • Importância da repetição: é preciso considerar o impacto da repetição de informações no desempenho do modelo. Isso pode ser um fator importante na preparação de dados e no design de prompts.
  • Vantagens do open source: o fato de este benchmark ser open source oferece a pesquisadores e desenvolvedores a oportunidade de acessá-lo livremente e melhorá-lo. Isso pode contribuir para o avanço da comunidade.
  • Perspectivas futuras: o avanço de modelos como o GPT-4o pode trazer inovação para diversas áreas de aplicação da IA. No entanto, ao adotar essas tecnologias, são necessárias considerações éticas e uso responsável.

2 comentários

 
wedding 2024-05-18

Os avanços tecnológicos são realmente impressionantes... T_T

 
GN⁺ 2024-05-15
Comentários do Hacker News

Resumo dos comentários do Hacker News

  • Erros na comparação de documentos jurídicos

    • Ao comparar dois pequenos documentos jurídicos, o GPT-4 identificou incorretamente que alguns itens existiam apenas em um dos documentos. Na realidade, o conteúdo era o mesmo.
    • Embora seja apenas uma única amostra, a precisão de 90% é questionável. Eram cerca de 80k tokens.
  • Baseado no dataset de limericks

    • É baseado em um dataset de limericks publicado em 2021. Há uma grande chance de que o GPT-4o tenha sido treinado com esse dataset.
    • A equipe NIAN deveria gerar limericks usando outros modelos e verificar se eles não estão incluídos no dataset.
  • Limitações do teste Needle in the Haystack

    • Esse teste mostra de forma limitada a real capacidade do modelo de lidar com contexto longo. Ele foi usado principalmente porque os modelos iniciais tinham desempenho ruim nele.
    • Os modelos recentes mostram bom desempenho nesse teste, mas depois de 32K tokens a capacidade de executar tarefas complexas cai bastante.
    • O teste RULER é um método de avaliação melhor.
  • Desempenho do Gemini Pro 1.5

    • O Gemini Pro 1.5 conseguiu processar todo Moby Dick e todos os livros de Byung Chul-Han. Também encontrou com precisão as respostas para as perguntas.
  • Necessidade de um teste "Synthesis from Haystack"

    • É necessário um método que teste compreensão profunda, conexão e abstração, e não apenas recuperação simples.
    • Quando uma pessoa lê um livro, ela forma uma intuição geral. É preciso uma forma de quantificar isso.
  • Conversão de layout HTML usando GPT

    • É possível usar GPT para converter dados dinâmicos em belos layouts HTML em tempo real. Isso economiza tempo de desenvolvimento e permite atualizar o HTML mesmo quando a estrutura dos dados muda.
    • Em tentativas anteriores, o GPT-4 Turbo às vezes ignorava o contexto e as instruções.
  • Atenção aprimorada do GPT-4o

    • O GPT-4o demonstra atenção melhor ao longo de toda a janela de entrada em comparação com o GPT-4 Turbo e o Claude-3 Sonnet.
    • O teste "Needle In A Needlestack" é um bom próximo passo. Ele inclui em um prompt milhares de limericks e uma pergunta sobre um limerick em uma posição específica.
  • Dificuldade de avaliar LLMs

    • Há a opinião de que quase ninguém na internet pública está fazendo uma avaliação realmente adequada de LLMs.
  • Dúvidas sobre o dataset de treinamento

    • Há dúvidas sobre como saber que o GPT-4o não foi treinado com esse dataset.
    • O teste só faz sentido se for possível saber que os dados de teste não estavam incluídos nos dados de treinamento.