7 pontos por xguru 2024-01-28 | 1 comentários | Compartilhar no WhatsApp
  • O Google Bard (Gemini Pro) ultrapassou GPT-4-0314/0613 e outros, saltando para o 2º lugar (1215), logo abaixo do GPT-4 Turbo (Arena ELO 1249)
  • Além disso, a taxa de alucinação no leaderboard HHEM também caiu de 12% para 4,9%. (GPT-4/4 Turbo está em 3,0%, e o GPT 3.5 Turbo em 3,5%)
  • Estou realmente ansioso para ver como o Bard + Gemini Ultra será lançado

1 comentários

 
xguru 2024-01-28

Comentários do Hacker News

  • Limitações de desempenho do Google Bard: Um usuário suspeitava havia algum tempo que o desempenho do Google Bard era limitado por causa do custo. O Google oferece o Bard gratuitamente e provavelmente não queria operar para sempre um modelo gigantesco de graça para todos os usuários. Pode ter havido alguma inovação no custo de inferência, ou a empresa pode ter decidido assumir temporariamente esse custo por estar cansada das avaliações de que estava ficando para trás na concorrência. O usuário acha que o Google deveria lançar um serviço de assinatura para que seja possível ver a empresa operando publicamente seu melhor modelo.

    Segundo um tweet de Jeff Dean, foi lançado um novo modelo chamado "Gemini Pro-scale model", que ficou em 2º lugar no leaderboard independente do lmsys. Não está claro o que "Pro-scale" significa, nem se todos os usuários já estão usando esse modelo.

  • Decepção inicial com o Bard e melhorias: O Bard foi decepcionante no lançamento, mas é bom ver que está melhorando. Na experiência pessoal de um usuário, ele usa mais o Claude 2 do que o GPT 4/Turbo, e prefere seu estilo de resposta e a forma como responde às perguntas. Vale notar que o Kagi avalia o Claude 1 no mesmo nível do GPT 4 (sem Turbo) e considera a qualidade do Claude 2 equivalente à do 4 Turbo.

  • Número de votos do modelo Bard: O modelo Bard tem relativamente poucos votos. A pessoa pretende esperar até que o número de votos fique em um nível parecido com o dos outros modelos.

  • Menos restrições no Bard: O Bard é muito menos restritivo que o GPT-4, e só isso já faz parecer muito melhor que o GPT-4.

  • Utilidade do Bard entre os LLMs gratuitos: Entre todos os LLMs gratuitos, o Bard parece ser o mais útil. O ChatGPT 3.5 nem se compara e é preguiçoso.

  • Curiosidade sobre o método de benchmark: Há curiosidade sobre como o benchmark é realizado. A pessoa suspeita que ele poderia ser melhorado para representar melhor as expectativas dos usuários ou a usabilidade.

    Depois de ver o tweet de Jeff Dean, experimentei o Bard. Ele ainda decepciona em comparação com o GPT-4. Sai do assunto da pergunta sem perceber isso.
    Quando pedi a criação de um gráfico, respondeu três vezes "aqui está o gráfico", mas o gráfico não existia de fato, e no fim disse que não tinha esse recurso.

  • Incompatibilidade com a experiência pessoal: Na experiência pessoal de alguém, sempre que precisa de uma resposta acaba voltando ao GPT. Na maioria dos casos, prefere o ChatGPT 3.5 ao Google Bard, e sente que o GPT 4 é claramente melhor que o Bard.

  • Comparação entre Bard e ChatGPT: Pessoalmente, alguém acha que o Bard é muito melhor que o ChatGPT. Gostaria de usar o Mistral sem censura.

  • Responsividade do Bard e adição de censura: Antes, ele respondia às solicitações e não recusava. Parece que uma camada de censura foi adicionada. A pessoa sente falta do Bard de antigamente.