Google DeepMind apresenta o Gemini 2.0, novo modelo de IA para a era agentic

(blog.google)

2 pontos por GN⁺ 2024-12-12 | 1 comentários | Compartilhar no WhatsApp

O Gemini 1.0 inovou como um modelo multimodal capaz de processar informações em texto, vídeo, imagem, áudio e código
O Gemini 2.0 leva essa visão adiante e evolui para um modelo agentic capaz de compreender o mundo, planejar várias etapas e executar tarefas
O Gemini 2.0 será integrado a produtos principais, como a Busca do Google, oferecendo capacidade para lidar também com tópicos mais complexos e perguntas de múltiplas etapas

Principais características do Gemini 2.0 Flash

Com base no sucesso do 1.5 Flash, oferece desempenho ainda melhor e tempos de resposta mais rápidos
É 2 vezes mais rápido que o 1.5 Pro e apresenta desempenho superior nos principais benchmarks
Suporta não apenas entradas multimodais como imagem, vídeo e áudio, mas também geração de imagens combinadas com texto e síntese de voz multilíngue
Pode chamar nativamente ferramentas como Google Search, execução de código e funções personalizadas
Será disponibilizado primeiro para desenvolvedores e testadores confiáveis, com lançamento mais amplo previsto para o início do próximo ano

Apresentação dos projetos de pesquisa

Project Astra: assistente de IA de uso geral com recursos de memória aprimorados
- Melhorias em recursos como conversas multilíngues, uso de Google Search/Lens/Maps e memória de sessão de cerca de 10 minutos
- Está evoluindo com a coleta de feedback de testadores confiáveis por meio de dispositivos Android
Project Mariner: protótipo de pesquisa que interage com o navegador e pode ajudar em tarefas complexas
- Alcançou um alto resultado de 83,5% no benchmark WebVoyager
- Inclui medidas de segurança integradas que pedem confirmação antes que o usuário aprove a ação final
Jules: agente de programação com IA integrado ao workflow do GitHub
- Dá suporte aos desenvolvedores na resolução de issues e na execução de planos

Áreas de aplicação dos agentes de IA

Em parceria com a desenvolvedora de jogos Supercell, a empresa está explorando o uso de agentes de IA dentro de jogos
Também estão em andamento experimentos para aplicar a capacidade de raciocínio espacial do Gemini 2.0 na área de robótica

Segurança e desenvolvimento responsável

Foi adotada uma abordagem gradual e exploratória para o desenvolvimento de novas tecnologias
Por meio de uma abordagem de red teaming com apoio de IA, são geradas automaticamente formas de detectar riscos e medidas de mitigação
No Project Mariner, foram implementados recursos para proteger os usuários contra tentativas maliciosas de prompt injection
São oferecidos controles de privacidade do usuário e recursos para apagar sessões

Próximos planos

Os recursos do Gemini 2.0 serão expandidos para o app Gemini e outros produtos do Google
Segurança e responsabilidade continuarão sendo prioridade máxima no caminho rumo à AGI

1 comentários

GN⁺ 2024-12-12

Comentários do Hacker News

O novo plug-in llm-gemini oferece suporte ao modelo Gemini 2.0 Flash. Compartilharam como usá-lo no terminal
- Os modelos Gemini têm a capacidade de escrever e executar código Python
- Chamadas de rede não são possíveis, mas estão tentando várias abordagens
- Mostra desempenho excelente em descrições visuais
Grandes empresas mudam de direção lentamente, mas, quando definem um rumo, conseguem realizar coisas que empresas pequenas não conseguem
- O Google tem muito talento nessa área e está obtendo bons resultados
- A capacidade de transformar modelos LLM em produto e fazer marketing ainda é uma incógnita, mas o desempenho é excelente
Supera o Gemini 1.5 Pro na maioria dos benchmarks
- O Google DeepMind está se adaptando à era dos LLMs
- Controla diretamente o hardware por meio dos TPUs
Um novo SDK foi anunciado. Parece seguir práticas modernas recomendadas
- Eles vinham oferecendo um endpoint compatível com OpenAI, mas não estava claro se haveria suporte de longo prazo
- Recomendam configurar um cluster Kubernetes e buckets no GCP
Fico feliz que o novo lançamento do Google esteja disponível para uso imediato
- O Gemini Flash 2.0 supera o Gemini Pro 1.5 em problemas do Advent of Code
- O Flash 2.0 corrige erros de compilação
A palavra "agentic" soa desagradável
- Palavras como "versatile", "multifaceted" e "autonomous" parecem mais apropriadas
Os modelos Gemini 2 oferecem suporte a geração de áudio e imagens
- A geração de imagens deve ficar geralmente disponível em janeiro
- Tarefas de visão computacional poderão ser feitas por meio de LLMs
O Gemini 2 está à frente do 4o no Chatbot Arena
Acho a palavra "agentic" inadequada
- Na prática, trata-se principalmente de um pipeline composto por system prompts e ferramentas
Acessei o Gemini 2.0 Flash no navegador Safari do iPhone por meio do Google AI Studio
- Identificou com precisão o que viu pela câmera
- Consegue ler texto em inglês e japonês
- Identificou visualmente notas de piano, mas não conseguiu fazer isso apenas pelo som

Google DeepMind apresenta o Gemini 2.0, novo modelo de IA para a era agentic

Principais características do Gemini 2.0 Flash

Apresentação dos projetos de pesquisa

Áreas de aplicação dos agentes de IA

Segurança e desenvolvimento responsável

Próximos planos

Leituras relacionadas

1 comentários

Comentários do Hacker News