Lançamento do Gemini 2.0

(developers.googleblog.com)

3 pontos por lemonmint 2024-12-12 | 1 comentários | Compartilhar no WhatsApp

Gemini 2.0: o modelo de IA de próxima geração para desenvolvedores

Um modelo de IA de ponta desenvolvido pelo Google para ajudar desenvolvedores a construir o futuro da IA.
Desde o lançamento do Gemini 1.0, milhões de desenvolvedores usam o Gemini em 109 idiomas por meio do Google AI Studio e do Vertex AI.
Com o Gemini 2.0 Flash Experimental, torna-se possível desenvolver aplicações mais imersivas e interativas, além de contar com um novo agente de programação que executa tarefas em nome do desenvolvedor.

Gemini 2.0 Flash

Um modelo criado com base no sucesso do Gemini 1.5 Flash, oferecendo desempenho poderoso com velocidade 2 vezes maior que a do 1.5 Pro.
Oferece novos recursos de saída multimodal e uso nativo de ferramentas.
Introduz a API multimodal em tempo real, que permite criar aplicações dinâmicas com streaming de áudio e vídeo em tempo real.
Desenvolvedores podem testar e explorar o Gemini 2.0 Flash em fase experimental no Google AI Studio e no Vertex AI, com lançamento geral previsto para o início do próximo ano.

Principais recursos:

Desempenho aprimorado:
- Mais poderoso que o Gemini 1.5 Pro, mantendo a velocidade e a eficiência da linha Flash.
- Houve melhorias no desempenho em multimodalidade, texto, código, vídeo, compreensão espacial e raciocínio.
- Em especial, a melhoria na compreensão espacial aumentou a precisão na geração de caixas delimitadoras para pequenos objetos em imagens complexas.
Novas formas de saída:
- É possível gerar respostas unificadas com texto, áudio e imagens em uma única chamada de API.
- A marca-d’água invisível SynthID é aplicada a todas as saídas de imagem e áudio para reduzir problemas de desinformação e atribuição incorreta.
- Saída de áudio nativa multilíngue: é possível controlar com precisão a saída de áudio de texto para fala escolhendo entre 8 vozes de alta qualidade, vários idiomas e sotaques.
- Saída nativa de imagem: gera imagens e oferece suporte a edição conversacional em múltiplas etapas, permitindo aprimorar imagens com base em saídas anteriores. Isso é útil para criar conteúdo multimodal, como receitas, combinando texto e imagens.
Uso nativo de ferramentas:
- Conta com a capacidade de usar ferramentas, uma função essencial para criar experiências com agentes.
- Pode chamar nativamente ferramentas como Google Search e execução de código, além de usar recursos de terceiros por meio de chamadas de função personalizadas.
- Usar o Google Search como ferramenta permite fornecer respostas mais factuais e abrangentes, além de aumentar o tráfego para os publishers.
- É possível executar várias buscas em paralelo para encontrar informações relevantes em diversas fontes ao mesmo tempo, aumentando a precisão.
API multimodal em tempo real:
- Permite criar aplicações multimodais em tempo real usando entrada de streaming de áudio e vídeo da câmera ou da tela.
- Suporta padrões naturais de conversa, como interrupções e detecção de atividade de voz.
- Pode integrar várias ferramentas para resolver casos de uso complexos com uma única chamada de API.

Avanços no suporte de IA para código

O suporte de IA para código está evoluindo rapidamente, saindo de simples busca de código para assistentes baseados em IA incorporados ao fluxo de trabalho do desenvolvedor.
Agentes de programação com Gemini 2.0 podem executar tarefas em nome do desenvolvedor.
O 2.0 Flash com ferramenta de execução de código alcançou taxa de sucesso de 51,8% no SWE-bench Verified, que testa o desempenho de agentes em tarefas reais de engenharia de software.

Jules: agente de código com IA

Um agente experimental de código com IA que lida com tarefas de programação em Python e Javascript.
Integra-se ao fluxo de trabalho do GitHub, opera de forma assíncrona e cuida de correções de bugs e outras tarefas que consomem tempo.
O Jules cria um plano abrangente em várias etapas para resolver problemas, modifica vários arquivos com eficiência e prepara pull requests para aplicar diretamente as correções no GitHub.

Vantagens do Jules:

Mais produtividade: aumenta a eficiência ao permitir atribuir problemas e tarefas de programação ao Jules por meio de programação assíncrona.
Acompanhamento do progresso: permite manter-se informado com atualizações em tempo real e priorizar tarefas que exigem atenção.
Controle do desenvolvedor: é possível revisar o plano gerado pelo Jules, fornecer feedback ou solicitar ajustes. Também é possível revisar o código escrito pelo Jules e integrá-lo ao projeto.
Atualmente está disponível para um grupo de testadores confiáveis e deverá ser disponibilizado para outros desenvolvedores no início de 2025.

Agente de ciência de dados no Colab

Um agente experimental de ciência de dados, disponível em labs.google/code, permite fazer upload de conjuntos de dados e obter insights em poucos minutos.
As mesmas capacidades desse agente serão integradas ao Colab usando o Gemini 2.0.
Ao descrever objetivos de análise por meio de instruções em linguagem natural, um notebook é gerado automaticamente para acelerar pesquisa e análise de dados.
O acesso antecipado é oferecido por meio de um programa de testadores confiáveis, com lançamento mais amplo para usuários do Colab previsto para o primeiro semestre de 2025.

Suporte aos desenvolvedores

Os modelos Gemini 2.0 ajudam desenvolvedores a criar apps de IA poderosos de forma mais rápida e fácil.
Há planos de integrar o Gemini 2.0 a plataformas como Android Studio, Chrome DevTools e Firebase.
O Gemini 2.0 Flash poderá ser usado no Gemini Code Assist para recursos de suporte a programação aprimorados em IDEs populares como Visual Studio Code, IntelliJ e PyCharm.

1 comentários

lemonmint 2024-12-12

Parece que já está disponível para uso no Google AI Studio e no Vertex AI.

O desempenho do modelo e a latência do áudio E2E ao vivo são impressionantes.