Modelo de próxima geração do Google: Gemini 1.5
(blog.google)- Na semana passada, o Google lançou o Gemini 1.0 Ultra, seu modelo mais capaz até agora, marcando um avanço importante para tornar os produtos do Google mais úteis
- Desenvolvedores e clientes de nuvem já podem começar a criar com o 1.0 Ultra por meio da Gemini API no AI Studio e no Vertex AI
- As equipes que avançam a fronteira dos modelos com segurança como prioridade central estão progredindo rapidamente e estão prontas para apresentar a próxima geração, o Gemini 1.5
- O Gemini 1.5 mostra melhorias significativas em várias dimensões, e o 1.5 Pro alcança qualidade semelhante à do 1.0 Ultra usando menos capacidade computacional
- A nova geração oferece um avanço na compreensão de contexto longo entre diferentes modalidades, aumentando muito a quantidade de informação que o modelo pode processar e executando de forma consistente com até 1 milhão de tokens
Apresentando o Gemini 1.5
- Novos avanços em IA têm o potencial de tornar a IA mais útil para bilhões de pessoas nos próximos anos
- Desde a apresentação do Gemini 1.0, o Google vem continuando os testes, o refinamento e a ampliação de capacidades
- O Gemini 1.5 oferece desempenho consideravelmente melhor e representa uma mudança de abordagem baseada em inovações de pesquisa e engenharia
- Usa uma nova arquitetura Mixture-of-Experts (MoE) para tornar treinamento e operação mais eficientes
- O Gemini 1.5 Pro é um modelo multimodal de porte intermediário, otimizado para uma ampla variedade de tarefas, e entrega um nível de desempenho comparável ao 1.0 Ultra, o maior modelo já lançado até agora
- O Gemini 1.5 Pro oferece uma janela de contexto padrão de 128.000 tokens, mas desenvolvedores e clientes corporativos podem experimentar uma janela de contexto de até 1 milhão de tokens pelo AI Studio e Vertex AI
Arquitetura eficiente
- O Gemini 1.5 foi construído com base em pesquisas de ponta sobre arquiteturas Transformer e MoE
- Um Transformer tradicional funciona como uma grande rede neural, enquanto modelos MoE são divididos em redes neurais menores, os "especialistas"
- Dependendo do tipo de entrada, o modelo MoE aprende a ativar seletivamente apenas os caminhos de especialistas mais relevantes dentro da rede neural
- Essa especialização melhora drasticamente a eficiência do modelo
Mais contexto, recursos mais úteis
- A "janela de contexto" de um modelo de IA é composta pelos tokens usados no processamento das informações
- Quanto maior a janela de contexto do modelo, mais informação ele pode processar de uma vez, tornando as saídas mais consistentes, relevantes e úteis
- Graças a inovações em machine learning, foi possível expandir a capacidade da janela de contexto do 1.5 Pro muito além dos 32.000 tokens originais do Gemini 1.0
- Agora o 1.5 Pro pode processar enormes volumes de informação de uma só vez, e em pesquisa já foi testado com sucesso em até 10 milhões de tokens
Melhorias de desempenho
- Em um painel abrangente de testes, incluindo avaliações de texto, código, imagem, áudio e vídeo, o 1.5 Pro supera o 1.0 Pro em 87% dos benchmarks usados no desenvolvimento de large language models (LLMs)
- O 1.5 Pro mantém um alto nível de desempenho mesmo com o aumento da janela de contexto
Testes amplos de ética e segurança
- Em linha com os princípios de IA e políticas robustas de segurança, o Google garante que os modelos passem por testes amplos de ética e segurança
- Desde o lançamento do 1.0 Ultra, a equipe vem refinando continuamente o modelo para torná-lo seguro para um lançamento mais amplo
- Antes do lançamento do 1.5 Pro, foram realizadas avaliações extensas em áreas como segurança de conteúdo e danos de representatividade, e esses testes continuarão a ser ampliados
Criar e experimentar com os modelos Gemini
- Foi estabelecido o objetivo de disponibilizar a nova geração de modelos Gemini de forma responsável para bilhões de pessoas, desenvolvedores e empresas no mundo todo
- A partir de hoje, uma prévia limitada do 1.5 Pro está disponível para desenvolvedores e clientes corporativos via AI Studio e Vertex AI
- Quando o modelo estiver pronto para um lançamento mais amplo, o 1.5 Pro será apresentado com a janela de contexto padrão de 128.000 tokens
- Testadores iniciais podem experimentar gratuitamente a janela de contexto de 1 milhão de tokens durante o período de testes, mas esse recurso experimental pode aumentar a latência
Opinião do GN⁺
- O ponto mais importante do Gemini 1.5 é que ele amplia significativamente a quantidade de informação que os modelos de IA podem processar, permitindo executar tarefas mais complexas e variadas
- Esse modelo leva o avanço da IA a um novo patamar e deve ajudar desenvolvedores e empresas a construir modelos e aplicações mais úteis
- É um exemplo de como a pesquisa e a inovação do Google estão moldando o futuro da tecnologia de IA, oferecendo uma perspectiva interessante sobre como essa tecnologia poderá se integrar ao nosso dia a dia no futuro
3 comentários
Entre as IAs que uso no momento, a que mais utilizo é o GPT-4, e parece que, aos poucos, a tecnologia de IA vai se integrar cada vez mais ao dia a dia.
Parece que o Google está bem pressionado, fica vazando antes mesmo de lançar se é melhor ou pior, e o Ultra ainda nem tem suporte multilíngue direito, estando num nível em que precisa do prompt genie do OpenAI de um ano atrás.
Opiniões no Hacker News
Resumo dos comentários sobre o white paper:
Informações interessantes do relatório técnico:
Desempenho notável no relatório técnico:
Nova capacidade dos grandes modelos de linguagem:
Falta de confiança no Google:
Dúvidas sobre Demis Hassabis:
O caráter revolucionário dos 10M de tokens:
Experiência negativa com o Gemini:
Diferença entre Pro e Ultra:
Inovação no tamanho da janela de contexto: