Lançamento do Gemini 2.0
(developers.googleblog.com)Gemini 2.0: o modelo de IA de próxima geração para desenvolvedores
- Um modelo de IA de ponta desenvolvido pelo Google para ajudar desenvolvedores a construir o futuro da IA.
- Desde o lançamento do Gemini 1.0, milhões de desenvolvedores usam o Gemini em 109 idiomas por meio do Google AI Studio e do Vertex AI.
- Com o Gemini 2.0 Flash Experimental, torna-se possível desenvolver aplicações mais imersivas e interativas, além de contar com um novo agente de programação que executa tarefas em nome do desenvolvedor.
Gemini 2.0 Flash
- Um modelo criado com base no sucesso do Gemini 1.5 Flash, oferecendo desempenho poderoso com velocidade 2 vezes maior que a do 1.5 Pro.
- Oferece novos recursos de saída multimodal e uso nativo de ferramentas.
- Introduz a API multimodal em tempo real, que permite criar aplicações dinâmicas com streaming de áudio e vídeo em tempo real.
- Desenvolvedores podem testar e explorar o Gemini 2.0 Flash em fase experimental no Google AI Studio e no Vertex AI, com lançamento geral previsto para o início do próximo ano.
Principais recursos:
-
Desempenho aprimorado:
- Mais poderoso que o Gemini 1.5 Pro, mantendo a velocidade e a eficiência da linha Flash.
- Houve melhorias no desempenho em multimodalidade, texto, código, vídeo, compreensão espacial e raciocínio.
- Em especial, a melhoria na compreensão espacial aumentou a precisão na geração de caixas delimitadoras para pequenos objetos em imagens complexas.
-
Novas formas de saída:
- É possível gerar respostas unificadas com texto, áudio e imagens em uma única chamada de API.
- A marca-d’água invisível SynthID é aplicada a todas as saídas de imagem e áudio para reduzir problemas de desinformação e atribuição incorreta.
- Saída de áudio nativa multilíngue: é possível controlar com precisão a saída de áudio de texto para fala escolhendo entre 8 vozes de alta qualidade, vários idiomas e sotaques.
- Saída nativa de imagem: gera imagens e oferece suporte a edição conversacional em múltiplas etapas, permitindo aprimorar imagens com base em saídas anteriores. Isso é útil para criar conteúdo multimodal, como receitas, combinando texto e imagens.
-
Uso nativo de ferramentas:
- Conta com a capacidade de usar ferramentas, uma função essencial para criar experiências com agentes.
- Pode chamar nativamente ferramentas como Google Search e execução de código, além de usar recursos de terceiros por meio de chamadas de função personalizadas.
- Usar o Google Search como ferramenta permite fornecer respostas mais factuais e abrangentes, além de aumentar o tráfego para os publishers.
- É possível executar várias buscas em paralelo para encontrar informações relevantes em diversas fontes ao mesmo tempo, aumentando a precisão.
-
API multimodal em tempo real:
- Permite criar aplicações multimodais em tempo real usando entrada de streaming de áudio e vídeo da câmera ou da tela.
- Suporta padrões naturais de conversa, como interrupções e detecção de atividade de voz.
- Pode integrar várias ferramentas para resolver casos de uso complexos com uma única chamada de API.
Avanços no suporte de IA para código
- O suporte de IA para código está evoluindo rapidamente, saindo de simples busca de código para assistentes baseados em IA incorporados ao fluxo de trabalho do desenvolvedor.
- Agentes de programação com Gemini 2.0 podem executar tarefas em nome do desenvolvedor.
- O 2.0 Flash com ferramenta de execução de código alcançou taxa de sucesso de 51,8% no SWE-bench Verified, que testa o desempenho de agentes em tarefas reais de engenharia de software.
Jules: agente de código com IA
- Um agente experimental de código com IA que lida com tarefas de programação em Python e Javascript.
- Integra-se ao fluxo de trabalho do GitHub, opera de forma assíncrona e cuida de correções de bugs e outras tarefas que consomem tempo.
- O Jules cria um plano abrangente em várias etapas para resolver problemas, modifica vários arquivos com eficiência e prepara pull requests para aplicar diretamente as correções no GitHub.
Vantagens do Jules:
- Mais produtividade: aumenta a eficiência ao permitir atribuir problemas e tarefas de programação ao Jules por meio de programação assíncrona.
- Acompanhamento do progresso: permite manter-se informado com atualizações em tempo real e priorizar tarefas que exigem atenção.
- Controle do desenvolvedor: é possível revisar o plano gerado pelo Jules, fornecer feedback ou solicitar ajustes. Também é possível revisar o código escrito pelo Jules e integrá-lo ao projeto.
- Atualmente está disponível para um grupo de testadores confiáveis e deverá ser disponibilizado para outros desenvolvedores no início de 2025.
Agente de ciência de dados no Colab
- Um agente experimental de ciência de dados, disponível em labs.google/code, permite fazer upload de conjuntos de dados e obter insights em poucos minutos.
- As mesmas capacidades desse agente serão integradas ao Colab usando o Gemini 2.0.
- Ao descrever objetivos de análise por meio de instruções em linguagem natural, um notebook é gerado automaticamente para acelerar pesquisa e análise de dados.
- O acesso antecipado é oferecido por meio de um programa de testadores confiáveis, com lançamento mais amplo para usuários do Colab previsto para o primeiro semestre de 2025.
Suporte aos desenvolvedores
- Os modelos Gemini 2.0 ajudam desenvolvedores a criar apps de IA poderosos de forma mais rápida e fácil.
- Há planos de integrar o Gemini 2.0 a plataformas como Android Studio, Chrome DevTools e Firebase.
- O Gemini 2.0 Flash poderá ser usado no Gemini Code Assist para recursos de suporte a programação aprimorados em IDEs populares como Visual Studio Code, IntelliJ e PyCharm.
1 comentários
Parece que já está disponível para uso no Google AI Studio e no Vertex AI.
O desempenho do modelo e a latência do áudio E2E ao vivo são impressionantes.