- O Gemini 1.0 inovou como um modelo multimodal capaz de processar informações em texto, vídeo, imagem, áudio e código
- O Gemini 2.0 leva essa visão adiante e evolui para um modelo agentic capaz de compreender o mundo, planejar várias etapas e executar tarefas
- O Gemini 2.0 será integrado a produtos principais, como a Busca do Google, oferecendo capacidade para lidar também com tópicos mais complexos e perguntas de múltiplas etapas
Principais características do Gemini 2.0 Flash
- Com base no sucesso do 1.5 Flash, oferece desempenho ainda melhor e tempos de resposta mais rápidos
- É 2 vezes mais rápido que o 1.5 Pro e apresenta desempenho superior nos principais benchmarks
- Suporta não apenas entradas multimodais como imagem, vídeo e áudio, mas também geração de imagens combinadas com texto e síntese de voz multilíngue
- Pode chamar nativamente ferramentas como Google Search, execução de código e funções personalizadas
- Será disponibilizado primeiro para desenvolvedores e testadores confiáveis, com lançamento mais amplo previsto para o início do próximo ano
Apresentação dos projetos de pesquisa
- Project Astra: assistente de IA de uso geral com recursos de memória aprimorados
- Melhorias em recursos como conversas multilíngues, uso de Google Search/Lens/Maps e memória de sessão de cerca de 10 minutos
- Está evoluindo com a coleta de feedback de testadores confiáveis por meio de dispositivos Android
- Project Mariner: protótipo de pesquisa que interage com o navegador e pode ajudar em tarefas complexas
- Alcançou um alto resultado de 83,5% no benchmark WebVoyager
- Inclui medidas de segurança integradas que pedem confirmação antes que o usuário aprove a ação final
- Jules: agente de programação com IA integrado ao workflow do GitHub
- Dá suporte aos desenvolvedores na resolução de issues e na execução de planos
Áreas de aplicação dos agentes de IA
- Em parceria com a desenvolvedora de jogos Supercell, a empresa está explorando o uso de agentes de IA dentro de jogos
- Também estão em andamento experimentos para aplicar a capacidade de raciocínio espacial do Gemini 2.0 na área de robótica
Segurança e desenvolvimento responsável
- Foi adotada uma abordagem gradual e exploratória para o desenvolvimento de novas tecnologias
- Por meio de uma abordagem de red teaming com apoio de IA, são geradas automaticamente formas de detectar riscos e medidas de mitigação
- No Project Mariner, foram implementados recursos para proteger os usuários contra tentativas maliciosas de prompt injection
- São oferecidos controles de privacidade do usuário e recursos para apagar sessões
Próximos planos
- Os recursos do Gemini 2.0 serão expandidos para o app Gemini e outros produtos do Google
- Segurança e responsabilidade continuarão sendo prioridade máxima no caminho rumo à AGI
1 comentários
Comentários do Hacker News
O novo plug-in llm-gemini oferece suporte ao modelo Gemini 2.0 Flash. Compartilharam como usá-lo no terminal
Grandes empresas mudam de direção lentamente, mas, quando definem um rumo, conseguem realizar coisas que empresas pequenas não conseguem
Supera o Gemini 1.5 Pro na maioria dos benchmarks
Um novo SDK foi anunciado. Parece seguir práticas modernas recomendadas
Fico feliz que o novo lançamento do Google esteja disponível para uso imediato
A palavra "agentic" soa desagradável
Os modelos Gemini 2 oferecem suporte a geração de áudio e imagens
O Gemini 2 está à frente do 4o no Chatbot Arena
Acho a palavra "agentic" inadequada
Acessei o Gemini 2.0 Flash no navegador Safari do iPhone por meio do Google AI Studio