Google Bard sobe para o 2º lugar no leaderboard de desempenho de LLM, logo abaixo do GPT-4 Turbo

xguru · 2024-01-28T09:41:59+09:00

O Google Bard (Gemini Pro) ultrapassou GPT-4-0314/0613 e outros, saltando para o 2º lugar (1215), logo abaixo do GPT-4 Turbo (Arena ELO 1249) Além disso, a taxa de alucinação no leaderboard HHEM também caiu de 12% para 4,9%. (GPT-4/4 Turbo está em 3,0%, e o GPT 3.5 Turbo em 3,5%) Estou realmente ansioso para ver como o Bard + Gemini Ultra será lançado

(twitter.com/JeffDean)

7 pontos por xguru 2024-01-28 | 1 comentários | Compartilhar no WhatsApp

O Google Bard (Gemini Pro) ultrapassou GPT-4-0314/0613 e outros, saltando para o 2º lugar (1215), logo abaixo do GPT-4 Turbo (Arena ELO 1249)
Além disso, a taxa de alucinação no leaderboard HHEM também caiu de 12% para 4,9%. (GPT-4/4 Turbo está em 3,0%, e o GPT 3.5 Turbo em 3,5%)
Estou realmente ansioso para ver como o Bard + Gemini Ultra será lançado

1 comentários

xguru 2024-01-28

Comentários do Hacker News

Limitações de desempenho do Google Bard: Um usuário suspeitava havia algum tempo que o desempenho do Google Bard era limitado por causa do custo. O Google oferece o Bard gratuitamente e provavelmente não queria operar para sempre um modelo gigantesco de graça para todos os usuários. Pode ter havido alguma inovação no custo de inferência, ou a empresa pode ter decidido assumir temporariamente esse custo por estar cansada das avaliações de que estava ficando para trás na concorrência. O usuário acha que o Google deveria lançar um serviço de assinatura para que seja possível ver a empresa operando publicamente seu melhor modelo.

Segundo um tweet de Jeff Dean, foi lançado um novo modelo chamado "Gemini Pro-scale model", que ficou em 2º lugar no leaderboard independente do lmsys. Não está claro o que "Pro-scale" significa, nem se todos os usuários já estão usando esse modelo.
Decepção inicial com o Bard e melhorias: O Bard foi decepcionante no lançamento, mas é bom ver que está melhorando. Na experiência pessoal de um usuário, ele usa mais o Claude 2 do que o GPT 4/Turbo, e prefere seu estilo de resposta e a forma como responde às perguntas. Vale notar que o Kagi avalia o Claude 1 no mesmo nível do GPT 4 (sem Turbo) e considera a qualidade do Claude 2 equivalente à do 4 Turbo.
Número de votos do modelo Bard: O modelo Bard tem relativamente poucos votos. A pessoa pretende esperar até que o número de votos fique em um nível parecido com o dos outros modelos.
Menos restrições no Bard: O Bard é muito menos restritivo que o GPT-4, e só isso já faz parecer muito melhor que o GPT-4.
Utilidade do Bard entre os LLMs gratuitos: Entre todos os LLMs gratuitos, o Bard parece ser o mais útil. O ChatGPT 3.5 nem se compara e é preguiçoso.
Curiosidade sobre o método de benchmark: Há curiosidade sobre como o benchmark é realizado. A pessoa suspeita que ele poderia ser melhorado para representar melhor as expectativas dos usuários ou a usabilidade.

Depois de ver o tweet de Jeff Dean, experimentei o Bard. Ele ainda decepciona em comparação com o GPT-4. Sai do assunto da pergunta sem perceber isso.
Quando pedi a criação de um gráfico, respondeu três vezes "aqui está o gráfico", mas o gráfico não existia de fato, e no fim disse que não tinha esse recurso.
Incompatibilidade com a experiência pessoal: Na experiência pessoal de alguém, sempre que precisa de uma resposta acaba voltando ao GPT. Na maioria dos casos, prefere o ChatGPT 3.5 ao Google Bard, e sente que o GPT 4 é claramente melhor que o Bard.
Comparação entre Bard e ChatGPT: Pessoalmente, alguém acha que o Bard é muito melhor que o ChatGPT. Gostaria de usar o Mistral sem censura.
Responsividade do Bard e adição de censura: Antes, ele respondia às solicitações e não recusava. Parece que uma camada de censura foi adicionada. A pessoa sente falta do Bard de antigamente.

Google Bard sobe para o 2º lugar no leaderboard de desempenho de LLM, logo abaixo do GPT-4 Turbo

Leituras relacionadas

1 comentários

Comentários do Hacker News