Gemini AI

(deepmind.google)

2 pontos por GN⁺ 2023-12-07 | 1 comentários | Compartilhar no WhatsApp

A chegada da era Gemini

O Gemini foi construído com base em capacidades multimodais que abrangem texto, imagem, vídeo, áudio e código.
A primeira versão do Gemini é apresentada como o modelo de IA mais capaz até agora.
Como o primeiro modelo a superar especialistas humanos, mostrou alto desempenho no MMLU, que testa o conhecimento e a capacidade de resolução de problemas dos modelos de IA.

Benchmark de capacidades de texto

O Gemini Ultra registrou alto desempenho em diversos benchmarks, como o MMLU geral, o Big-Bench Hard, que exige raciocínio complexo, e o DROP, que avalia compreensão de leitura.
Também apresentou excelentes resultados em raciocínio de senso comum do dia a dia, resolução de problemas matemáticos e geração de código Python.
O desempenho em outras metodologias pode ser consultado em detalhes no relatório técnico.

Benchmark de capacidades multimodais

Nas áreas de imagem, vídeo e áudio, o Gemini também superou o melhor desempenho anterior.
O Gemini Ultra apresentou alto desempenho em resolução de problemas acadêmicos de nível universitário, compreensão de imagens naturais e compreensão de documentos.
Na área de áudio, o Gemini Pro superou modelos concorrentes em tradução automática de fala e reconhecimento.

Uso do Gemini Pro no Bard

Ao experimentar o Gemini Pro no Bard, é possível descobrir novas formas de criar, planejar e fazer brainstorming.

Opinião do GN⁺

O ponto mais importante deste artigo é que o modelo Gemini AI possui capacidades multimodais para compreender e processar vários tipos de dados, como texto, imagem, vídeo, áudio e código, além de demonstrar desempenho superior ao de especialistas humanos em vários benchmarks.
Esse avanço mostra o progresso da tecnologia de IA e é uma notícia interessante porque deve ampliar significativamente as possibilidades de uso da IA em diversas áreas, como criação, planejamento e aprendizado no futuro.

1 comentários

GN⁺ 2023-12-07

Opiniões do Hacker News

Post de blog relacionado: fornece um link para o post de blog sobre o novo AI do Google, Gemini, e um link para a discussão no Hacker News. O Gemini Ultra ainda não foi lançado e faltam alguns meses.
Bard w/ Gemini Pro não está disponível na Europa e não é multimodal. Não há estatísticas públicas sobre o Gemini Pro, mas existem informações escondidas na documentação técnica.
Opinião de que foi um marketing exagerado, já que um produto para competir com o GPT-4 não foi lançado hoje. Teria sido melhor lançar um produto disponível na maioria dos países e com as estatísticas anunciadas.
Desempenho impressionante do Gemini AI: ao ser perguntado sobre um recurso impossível em TypeScript, respondeu corretamente que era impossível e forneceu o link para a issue relevante no GitHub. O GPT-4 não costuma gerar links tão bem quando não está no modo de navegação na web. Além disso, reconheceu o Pixi.js v8, ainda em beta, mais rapidamente que o GPT-4 e explicou corretamente seus principais recursos.
Explicação para quem está confuso com as versões do Gemini: o que está sendo mais discutido é o Gemini Ultra, que afirma superar o GPT-4. O que está disponível via Bard é o Gemini Pro.
Comparação de desempenho em benchmarks entre Gemini Ultra, Gemini Pro e GPT-4 com base no relatório técnico. São fornecidas comparações de pontuação em vários conjuntos de dados.
Fornece um link para o vídeo de demonstração do Gemini AI.
Observação sobre as principais falas de Sundar Pichai no vídeo: passa a impressão de que o Google quer enfatizar que faz AI há muito tempo. Como o modelo mais recente divulgado no momento foi feito pela OpenAI, essa ênfase soa um pouco inadequada. A opinião é que mostrar resultados reais seria uma estratégia melhor.
Informações de que os modelos Gemini podem ser integrados a aplicações por meio do Google AI Studio e do Google Cloud Vertex AI. Parece que isso estará disponível a partir de 13 de dezembro.
Preocupação com o problema de ser difícil determinar se os dados de teste dos benchmarks faziam parte dos dados de treinamento. É dado o exemplo de o GPT-4 cometer erros em problemas de matemática, mas ainda assim obter pontuação alta no GSM8k.
Opiniões variadas sobre superar o GPT-4 por uma margem mínima. Há expectativa de que, se a concorrência ficar mais acirrada, todos saiam ganhando. Também há reclamações sobre anúncios antecipados e a observação de que é preciso esperar até que o produto esteja realmente disponível.
Fornece um link para uma discussão sobre o modelo Gemini no Codeforces (plataforma de programação competitiva). É expressa dúvida sobre a alegação de que ele resolveu um problema de nível 3200 sem vazamento de dados.
Grande expectativa em relação ao Gemini Nano. Em uma thread sobre o Pixel 8, houve a opinião de que usar a Web API era algo temporário e poderia ser substituído por um modelo rodando no próprio dispositivo no futuro; isso pode ser o começo.

Gemini AI

A chegada da era Gemini

Benchmark de capacidades de texto

Benchmark de capacidades multimodais

Uso do Gemini Pro no Bard

Opinião do GN⁺

Leituras relacionadas

1 comentários

Opiniões do Hacker News