Modelo de próxima geração do Google: Gemini 1.5

(blog.google)

9 pontos por GN⁺ 2024-02-16 | 3 comentários | Compartilhar no WhatsApp

Na semana passada, o Google lançou o Gemini 1.0 Ultra, seu modelo mais capaz até agora, marcando um avanço importante para tornar os produtos do Google mais úteis
Desenvolvedores e clientes de nuvem já podem começar a criar com o 1.0 Ultra por meio da Gemini API no AI Studio e no Vertex AI
As equipes que avançam a fronteira dos modelos com segurança como prioridade central estão progredindo rapidamente e estão prontas para apresentar a próxima geração, o Gemini 1.5
O Gemini 1.5 mostra melhorias significativas em várias dimensões, e o 1.5 Pro alcança qualidade semelhante à do 1.0 Ultra usando menos capacidade computacional
A nova geração oferece um avanço na compreensão de contexto longo entre diferentes modalidades, aumentando muito a quantidade de informação que o modelo pode processar e executando de forma consistente com até 1 milhão de tokens

Apresentando o Gemini 1.5

Novos avanços em IA têm o potencial de tornar a IA mais útil para bilhões de pessoas nos próximos anos
Desde a apresentação do Gemini 1.0, o Google vem continuando os testes, o refinamento e a ampliação de capacidades
O Gemini 1.5 oferece desempenho consideravelmente melhor e representa uma mudança de abordagem baseada em inovações de pesquisa e engenharia
Usa uma nova arquitetura Mixture-of-Experts (MoE) para tornar treinamento e operação mais eficientes
O Gemini 1.5 Pro é um modelo multimodal de porte intermediário, otimizado para uma ampla variedade de tarefas, e entrega um nível de desempenho comparável ao 1.0 Ultra, o maior modelo já lançado até agora
O Gemini 1.5 Pro oferece uma janela de contexto padrão de 128.000 tokens, mas desenvolvedores e clientes corporativos podem experimentar uma janela de contexto de até 1 milhão de tokens pelo AI Studio e Vertex AI

Arquitetura eficiente

O Gemini 1.5 foi construído com base em pesquisas de ponta sobre arquiteturas Transformer e MoE
Um Transformer tradicional funciona como uma grande rede neural, enquanto modelos MoE são divididos em redes neurais menores, os "especialistas"
Dependendo do tipo de entrada, o modelo MoE aprende a ativar seletivamente apenas os caminhos de especialistas mais relevantes dentro da rede neural
Essa especialização melhora drasticamente a eficiência do modelo

Mais contexto, recursos mais úteis

A "janela de contexto" de um modelo de IA é composta pelos tokens usados no processamento das informações
Quanto maior a janela de contexto do modelo, mais informação ele pode processar de uma vez, tornando as saídas mais consistentes, relevantes e úteis
Graças a inovações em machine learning, foi possível expandir a capacidade da janela de contexto do 1.5 Pro muito além dos 32.000 tokens originais do Gemini 1.0
Agora o 1.5 Pro pode processar enormes volumes de informação de uma só vez, e em pesquisa já foi testado com sucesso em até 10 milhões de tokens

Melhorias de desempenho

Em um painel abrangente de testes, incluindo avaliações de texto, código, imagem, áudio e vídeo, o 1.5 Pro supera o 1.0 Pro em 87% dos benchmarks usados no desenvolvimento de large language models (LLMs)
O 1.5 Pro mantém um alto nível de desempenho mesmo com o aumento da janela de contexto

Testes amplos de ética e segurança

Em linha com os princípios de IA e políticas robustas de segurança, o Google garante que os modelos passem por testes amplos de ética e segurança
Desde o lançamento do 1.0 Ultra, a equipe vem refinando continuamente o modelo para torná-lo seguro para um lançamento mais amplo
Antes do lançamento do 1.5 Pro, foram realizadas avaliações extensas em áreas como segurança de conteúdo e danos de representatividade, e esses testes continuarão a ser ampliados

Criar e experimentar com os modelos Gemini

Foi estabelecido o objetivo de disponibilizar a nova geração de modelos Gemini de forma responsável para bilhões de pessoas, desenvolvedores e empresas no mundo todo
A partir de hoje, uma prévia limitada do 1.5 Pro está disponível para desenvolvedores e clientes corporativos via AI Studio e Vertex AI
Quando o modelo estiver pronto para um lançamento mais amplo, o 1.5 Pro será apresentado com a janela de contexto padrão de 128.000 tokens
Testadores iniciais podem experimentar gratuitamente a janela de contexto de 1 milhão de tokens durante o período de testes, mas esse recurso experimental pode aumentar a latência

Opinião do GN⁺

O ponto mais importante do Gemini 1.5 é que ele amplia significativamente a quantidade de informação que os modelos de IA podem processar, permitindo executar tarefas mais complexas e variadas
Esse modelo leva o avanço da IA a um novo patamar e deve ajudar desenvolvedores e empresas a construir modelos e aplicações mais úteis
É um exemplo de como a pesquisa e a inovação do Google estão moldando o futuro da tecnologia de IA, oferecendo uma perspectiva interessante sobre como essa tecnologia poderá se integrar ao nosso dia a dia no futuro

3 comentários

yoo04233 2024-02-17

Entre as IAs que uso no momento, a que mais utilizo é o GPT-4, e parece que, aos poucos, a tecnologia de IA vai se integrar cada vez mais ao dia a dia.

riskatcher 2024-02-16

Parece que o Google está bem pressionado, fica vazando antes mesmo de lançar se é melhor ou pior, e o Ultra ainda nem tem suporte multilíngue direito, estando num nível em que precisa do prompt genie do OpenAI de um ano atrás.

GN⁺ 2024-02-16

Opiniões no Hacker News

Resumo dos comentários sobre o white paper:
- Falta de explicação sobre como chegar a 10M de tokens de contexto: o white paper não menciona como atinge um contexto de 10M de tokens.
- Redução da complexidade da stack de RAG: a capacidade de 10M de contexto elimina instantaneamente a maior parte da complexidade das stacks de RAG, o que simplifica muito muitos casos de uso.
- Superioridade do 1.5 Pro: fica claro que o 1.5 Pro é, em geral, melhor que o GPT-4, o que o torna interessante como novo líder em LLM-as-judge.
- Alta capacidade do 1.5 Ultra: o 1.5 Ultra parece ser extremamente capaz, e o 1.5 Pro já é muito capaz. Ele obteve pontuações altas em vários testes, e foi apontado que os testes em que a pontuação saiu baixa em grande parte acabam sendo falsos negativos.
- Potencial do 1.5 Pro: o 1.5 Pro deve estabelecer a referência para tarefas de workflow. O 1.0 Ultra é muito capaz, mas um pouco lento. Modelos abertos que o utilizarem provavelmente terão uma grande melhora de qualidade.
- Revisão dos testes de código: já é hora de refazer os testes de programação que exigem a escrita de novos módulos.
- Curiosidade sobre como se chega a 10M de contexto: pelos testes de “agulha” em áudio e vídeo, que sugerem recuperação perfeita ao longo de 10M de tokens, especula-se que exista alguma forma de compressão, em vez de um único vetor ultralongo.
Informações interessantes do relatório técnico:
- Problema de vazamento de dados no benchmark HumanEval: HumanEval é um benchmark aberto padrão da indústria para avaliação, mas não é fácil controlar vazamentos acidentais em páginas da web e repositórios de código aberto. A análise de vazamento de dados de teste do Gemini 1.0 Ultra mostra que continuar o pré-treinamento em um dataset contendo apenas uma época da divisão de teste do HumanEval aumenta fortemente a pontuação, de 74,4% para 89,0%. Esse aumento persiste mesmo quando os exemplos estão incluídos em outros formatos, como JSON e HTML. Os pesquisadores pedem que se minimize o risco de vazamento mantendo sempre um pequeno conjunto interno de funções de teste genuinamente reservadas para avaliar a capacidade de programação desses modelos. O benchmark Natural2Code foi criado para preencher essa lacuna; ele segue o mesmo formato do HumanEval, mas com prompts e conjuntos de teste diferentes.
Desempenho notável no relatório técnico:
- Capacidade de contexto longo do Gemini 1.5 Pro: o estudo da capacidade de contexto longo do Gemini 1.5 Pro encontrou melhoria contínua na previsão do próximo token e recuperação quase perfeita (>99%) até pelo menos 10M de tokens.
Nova capacidade dos grandes modelos de linguagem:
- Tradução da língua Kalamang: ao receber um manual gramatical da língua Kalamang, que tem menos de 200 falantes no mundo, o modelo aprendeu a traduzir do inglês para o Kalamang em um nível semelhante ao de uma pessoa aprendendo a partir do mesmo conteúdo.
Falta de confiança no Google:
- Desconfiança em relação aos anúncios do Google: como um vídeo promocional editado lançado anteriormente não mostrava o produto real, não se confia no que o Google apresenta a menos que haja um formulário de entrada que possa ser testado imediatamente.
Dúvidas sobre Demis Hassabis:
- Visão cética sobre estratégias promocionais passadas: há uma atitude cética em relação à promoção feita por Demis Hassabis desde a época em que desenvolvia videogames. “Infinite Polygons” virou piada na indústria, e seu jogo Republic é visto como um fracasso sem graça.
O caráter revolucionário dos 10M de tokens:
- Correlação entre tamanho do prompt e qualidade: 10M de tokens é um divisor de águas; se não houver uma queda perceptível entre o tamanho do prompt e a qualidade, isso será altamente revolucionário. As pessoas começarão a pensar no próprio prompt não como entrada estática, mas como uma espécie de runtime.
Experiência negativa com o Gemini:
- Desempenho insuficiente do Gemini: ao testar o Gemini, o desempenho foi muito decepcionante. Ele ficou muito abaixo do ChatGPT ou de um llama local. Não há confiança na estratégia de IA do Google, e presume-se que todo o talento realmente competente tenha migrado para a OpenAI ou a Anthropic.
Diferença entre Pro e Ultra:
- Tamanho da janela de contexto: no momento, janelas de contexto de mais de 100k tokens até 1 milhão abrem funcionalidades muito interessantes. O RAG pode ser extremamente poderoso com esse volume de informação.
Inovação no tamanho da janela de contexto:
- Solução para o problema dos tokens de entrada: se funcionar de fato como anunciado, isso substituirá a necessidade de RAG ou de fine-tuning para certas análises. Há curiosidade sobre como foi resolvido o problema de preencher os tokens de entrada.