8 pontos por GN⁺ 2024-08-19 | 3 comentários | Compartilhar no WhatsApp

"Você é mais inteligente do que um modelo de linguagem?"

Muitos benchmarks tentam avaliar quão bem os modelos de linguagem executam tarefas humanas.
Mas quão bem você conseguiria se sair na tarefa típica de um modelo de linguagem de prever a próxima palavra?

Resolva 15 questões

3 comentários

 
curioe 2024-08-19

4 pontos... o resultado dá uma raiva, né

 
xguru 2024-08-19

Nossa. Como eu resolvi isso como se fosse uma prova de inglês, minha pontuação ficou muito baixa 😭

 
GN⁺ 2024-08-19
Opiniões do Hacker News
  • Não é o que eu esperava pelo título "smart", mas é uma ideia interessante

    • Seria melhor mostrar apenas uma pergunta por vez e dar feedback imediato após cada resposta
    • Assim ficaria mais imersivo, e seria útil poder verificar a resposta certa na hora
  • Fizeram um jogo/quiz de adivinhar a próxima palavra com comentários do Hacker News

    • Usaram llama2 para gerar três completações alternativas para cada comentário e montar perguntas de múltipla escolha
    • O modelo de linguagem local escolhe a resposta com a menor perplexidade total entre prompt e resposta
    • Os modelos da OpenAI são configurados com logit_bias para escolher apenas uma das respostas permitidas
    • Não foi possível comparar com Claude ou outros LLMs online
    • Não dá para dizer que o quiz é divertido, mas eu consegui manter mais de 50% de acertos de forma consistente
  • A estratégia vencedora é escolher a palavra que o modelo de linguagem teria menor probabilidade de selecionar

    • Escolher o "outlier" é a melhor estratégia
    • Isso pode ser uma estratégia simples para detectar conteúdo gerado por IA
  • Pelos resultados, prever exatamente a próxima palavra com as informações dadas é impossível

    • Seria melhor ordenar as respostas por probabilidade e pontuar com base em quão alto a resposta correta ficou no ranking, em vez de usar apenas certo ou errado
    • Fico curioso se o LLM estava tentando imitar a voz do autor original
  • Este jogo é um bom teste para ver se você lê comentários do HN demais

  • Como o quiz é aleatório a cada vez, não dá para comparar resultados

    • Se encontrarem um corpus em que a pessoa média consiga vencer o LLM e adicionarem um desafio diário no estilo Wordle com compartilhamento social, isso pode viralizar
  • Graças ao tempo que passei no HN, consegui fazer previsões um pouco melhores que as da IA

  • Para quem vai tentar o quiz de 100 perguntas: pelos critérios estatísticos tradicionais, acertar mais de um terço já conta como melhor que chute

    • Para ser melhor que o LLM, é preciso acertar mais da metade
  • Se as amostras vieram do HN, existe a possibilidade de o texto já fazer parte do dataset

    • Pelos comentários recentes, provavelmente não é o caso
    • O ChatGPT pode usar a ferramenta de busca do Bing, mas é improvável que o modelo de API gpt4o-mini faça isso
  • Alguns trechos foram extraídos de um contexto maior, o que coloca o LLM em vantagem para fazer previsões