Google Bard sobe para o 2º lugar no leaderboard de desempenho de LLM, logo abaixo do GPT-4 Turbo
(twitter.com/JeffDean)- O Google Bard (Gemini Pro) ultrapassou GPT-4-0314/0613 e outros, saltando para o 2º lugar (1215), logo abaixo do GPT-4 Turbo (Arena ELO 1249)
- Além disso, a taxa de alucinação no leaderboard HHEM também caiu de 12% para 4,9%. (GPT-4/4 Turbo está em 3,0%, e o GPT 3.5 Turbo em 3,5%)
- Estou realmente ansioso para ver como o Bard + Gemini Ultra será lançado
1 comentários
Comentários do Hacker News
Limitações de desempenho do Google Bard: Um usuário suspeitava havia algum tempo que o desempenho do Google Bard era limitado por causa do custo. O Google oferece o Bard gratuitamente e provavelmente não queria operar para sempre um modelo gigantesco de graça para todos os usuários. Pode ter havido alguma inovação no custo de inferência, ou a empresa pode ter decidido assumir temporariamente esse custo por estar cansada das avaliações de que estava ficando para trás na concorrência. O usuário acha que o Google deveria lançar um serviço de assinatura para que seja possível ver a empresa operando publicamente seu melhor modelo.
Decepção inicial com o Bard e melhorias: O Bard foi decepcionante no lançamento, mas é bom ver que está melhorando. Na experiência pessoal de um usuário, ele usa mais o Claude 2 do que o GPT 4/Turbo, e prefere seu estilo de resposta e a forma como responde às perguntas. Vale notar que o Kagi avalia o Claude 1 no mesmo nível do GPT 4 (sem Turbo) e considera a qualidade do Claude 2 equivalente à do 4 Turbo.
Número de votos do modelo Bard: O modelo Bard tem relativamente poucos votos. A pessoa pretende esperar até que o número de votos fique em um nível parecido com o dos outros modelos.
Menos restrições no Bard: O Bard é muito menos restritivo que o GPT-4, e só isso já faz parecer muito melhor que o GPT-4.
Utilidade do Bard entre os LLMs gratuitos: Entre todos os LLMs gratuitos, o Bard parece ser o mais útil. O ChatGPT 3.5 nem se compara e é preguiçoso.
Curiosidade sobre o método de benchmark: Há curiosidade sobre como o benchmark é realizado. A pessoa suspeita que ele poderia ser melhorado para representar melhor as expectativas dos usuários ou a usabilidade.
Incompatibilidade com a experiência pessoal: Na experiência pessoal de alguém, sempre que precisa de uma resposta acaba voltando ao GPT. Na maioria dos casos, prefere o ChatGPT 3.5 ao Google Bard, e sente que o GPT 4 é claramente melhor que o Bard.
Comparação entre Bard e ChatGPT: Pessoalmente, alguém acha que o Bard é muito melhor que o ChatGPT. Gostaria de usar o Mistral sem censura.
Responsividade do Bard e adição de censura: Antes, ele respondia às solicitações e não recusava. Parece que uma camada de censura foi adicionada. A pessoa sente falta do Bard de antigamente.