Needle in a Needlestack: o avanço de memória do GPT-4o! (código NIAN) - Tom Burns
Apresentando um novo benchmark
- Needle in a Needlestack é um novo benchmark que mede o quão bem os LLMs (modelos de linguagem de grande porte) conseguem prestar atenção às informações dentro da janela de contexto.
- O NIAN gera prompts contendo milhares de limeriques e faz uma pergunta sobre um único limerique em uma posição específica.
- Um prompt de exemplo contém cerca de 2500 limeriques.
- Até agora, nenhum LLM havia apresentado um desempenho realmente bom nesse benchmark.
Tentativas do GPT-4 Turbo e do Claude-3 Sonnet
- Tentativas do GPT-4 Turbo e do Claude-3 Sonnet:
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
O avanço do GPT-4o
- O GPT-4o alcançou um grande avanço!
- Ele mostrou um desempenho quase perfeito nesse benchmark.
- Fica a curiosidade sobre quando a OpenAI vai revelar como conseguiu tornar o GPT-4o muito melhor do que o GPT-4 Turbo.
Desempenho dos modelos da Mistral
- Os modelos da Mistral são muito bons de usar. A API é muito rápida e consistente.
- Porém, o novo modelo 8x22 da Mistral teve muita dificuldade nesse benchmark.
- Mesmo no começo do prompt, a probabilidade de responder corretamente à pergunta é de apenas 50%.
- O Mistral large teve desempenho melhor, mas ainda ficou em apenas 70% de precisão.
- Observação: a contagem de tokens foi estimada usando o tokenizer da OpenAI. Como a Mistral usa um tokenizer diferente que gera cerca de 25% mais tokens, a contagem de tokens no gráfico é menor do que a contagem real.
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
Desempenho com prompts curtos
- Os modelos apresentam desempenho muito melhor com prompts curtos.
- Exemplo: comparação do desempenho do Mistral 7b com prompts de 16k tokens e 32k tokens.
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
A importância de repetir informações
- Repetir informações faz uma grande diferença neste teste.
- O GPT-3.5-turbo melhora drasticamente quando o limerique perguntado no prompt é repetido 10 vezes.
- limerick used once
- limerick used 10 times
Código do benchmark e mais informações
- O código deste benchmark pode ser visto aqui.
- É fácil adicionar suporte a mais modelos.
- Mais detalhes sobre como as respostas são avaliadas e como as perguntas são validadas estão na página de metodologia.
- Em caso de dúvidas, entre em contato pelo contato.
- Este site é open source. Melhore esta página.
Opinião do GN⁺
- Avanço técnico: o desempenho do GPT-4o mostra um grande progresso na memória e na atenção dos LLMs. Isso abre caminho para executar tarefas mais complexas.
- Escolha de modelo: ao comparar o desempenho de diferentes modelos, é importante escolher o modelo adequado para a tarefa específica. Por exemplo, pode ser vantajoso escolher um modelo que se saia melhor com prompts curtos.
- Importância da repetição: é preciso considerar o impacto da repetição de informações no desempenho do modelo. Isso pode ser um fator importante na preparação de dados e no design de prompts.
- Vantagens do open source: o fato de este benchmark ser open source oferece a pesquisadores e desenvolvedores a oportunidade de acessá-lo livremente e melhorá-lo. Isso pode contribuir para o avanço da comunidade.
- Perspectivas futuras: o avanço de modelos como o GPT-4o pode trazer inovação para diversas áreas de aplicação da IA. No entanto, ao adotar essas tecnologias, são necessárias considerações éticas e uso responsável.
2 comentários
Os avanços tecnológicos são realmente impressionantes... T_T
Comentários do Hacker News
Resumo dos comentários do Hacker News
Erros na comparação de documentos jurídicos
Baseado no dataset de limericks
Limitações do teste Needle in the Haystack
Desempenho do Gemini Pro 1.5
Necessidade de um teste "Synthesis from Haystack"
Conversão de layout HTML usando GPT
Atenção aprimorada do GPT-4o
Dificuldade de avaliar LLMs
Dúvidas sobre o dataset de treinamento