3 pontos por lemonmint 2024-12-12 | 1 comentários | Compartilhar no WhatsApp

Gemini 2.0: o modelo de IA de próxima geração para desenvolvedores

  • Um modelo de IA de ponta desenvolvido pelo Google para ajudar desenvolvedores a construir o futuro da IA.
  • Desde o lançamento do Gemini 1.0, milhões de desenvolvedores usam o Gemini em 109 idiomas por meio do Google AI Studio e do Vertex AI.
  • Com o Gemini 2.0 Flash Experimental, torna-se possível desenvolver aplicações mais imersivas e interativas, além de contar com um novo agente de programação que executa tarefas em nome do desenvolvedor.

Gemini 2.0 Flash

  • Um modelo criado com base no sucesso do Gemini 1.5 Flash, oferecendo desempenho poderoso com velocidade 2 vezes maior que a do 1.5 Pro.
  • Oferece novos recursos de saída multimodal e uso nativo de ferramentas.
  • Introduz a API multimodal em tempo real, que permite criar aplicações dinâmicas com streaming de áudio e vídeo em tempo real.
  • Desenvolvedores podem testar e explorar o Gemini 2.0 Flash em fase experimental no Google AI Studio e no Vertex AI, com lançamento geral previsto para o início do próximo ano.

Principais recursos:

  1. Desempenho aprimorado:

    • Mais poderoso que o Gemini 1.5 Pro, mantendo a velocidade e a eficiência da linha Flash.
    • Houve melhorias no desempenho em multimodalidade, texto, código, vídeo, compreensão espacial e raciocínio.
    • Em especial, a melhoria na compreensão espacial aumentou a precisão na geração de caixas delimitadoras para pequenos objetos em imagens complexas.
  2. Novas formas de saída:

    • É possível gerar respostas unificadas com texto, áudio e imagens em uma única chamada de API.
    • A marca-d’água invisível SynthID é aplicada a todas as saídas de imagem e áudio para reduzir problemas de desinformação e atribuição incorreta.
    • Saída de áudio nativa multilíngue: é possível controlar com precisão a saída de áudio de texto para fala escolhendo entre 8 vozes de alta qualidade, vários idiomas e sotaques.
    • Saída nativa de imagem: gera imagens e oferece suporte a edição conversacional em múltiplas etapas, permitindo aprimorar imagens com base em saídas anteriores. Isso é útil para criar conteúdo multimodal, como receitas, combinando texto e imagens.
  3. Uso nativo de ferramentas:

    • Conta com a capacidade de usar ferramentas, uma função essencial para criar experiências com agentes.
    • Pode chamar nativamente ferramentas como Google Search e execução de código, além de usar recursos de terceiros por meio de chamadas de função personalizadas.
    • Usar o Google Search como ferramenta permite fornecer respostas mais factuais e abrangentes, além de aumentar o tráfego para os publishers.
    • É possível executar várias buscas em paralelo para encontrar informações relevantes em diversas fontes ao mesmo tempo, aumentando a precisão.
  4. API multimodal em tempo real:

    • Permite criar aplicações multimodais em tempo real usando entrada de streaming de áudio e vídeo da câmera ou da tela.
    • Suporta padrões naturais de conversa, como interrupções e detecção de atividade de voz.
    • Pode integrar várias ferramentas para resolver casos de uso complexos com uma única chamada de API.

Avanços no suporte de IA para código

  • O suporte de IA para código está evoluindo rapidamente, saindo de simples busca de código para assistentes baseados em IA incorporados ao fluxo de trabalho do desenvolvedor.
  • Agentes de programação com Gemini 2.0 podem executar tarefas em nome do desenvolvedor.
  • O 2.0 Flash com ferramenta de execução de código alcançou taxa de sucesso de 51,8% no SWE-bench Verified, que testa o desempenho de agentes em tarefas reais de engenharia de software.

Jules: agente de código com IA

  • Um agente experimental de código com IA que lida com tarefas de programação em Python e Javascript.
  • Integra-se ao fluxo de trabalho do GitHub, opera de forma assíncrona e cuida de correções de bugs e outras tarefas que consomem tempo.
  • O Jules cria um plano abrangente em várias etapas para resolver problemas, modifica vários arquivos com eficiência e prepara pull requests para aplicar diretamente as correções no GitHub.

Vantagens do Jules:

  • Mais produtividade: aumenta a eficiência ao permitir atribuir problemas e tarefas de programação ao Jules por meio de programação assíncrona.
  • Acompanhamento do progresso: permite manter-se informado com atualizações em tempo real e priorizar tarefas que exigem atenção.
  • Controle do desenvolvedor: é possível revisar o plano gerado pelo Jules, fornecer feedback ou solicitar ajustes. Também é possível revisar o código escrito pelo Jules e integrá-lo ao projeto.
  • Atualmente está disponível para um grupo de testadores confiáveis e deverá ser disponibilizado para outros desenvolvedores no início de 2025.

Agente de ciência de dados no Colab

  • Um agente experimental de ciência de dados, disponível em labs.google/code, permite fazer upload de conjuntos de dados e obter insights em poucos minutos.
  • As mesmas capacidades desse agente serão integradas ao Colab usando o Gemini 2.0.
  • Ao descrever objetivos de análise por meio de instruções em linguagem natural, um notebook é gerado automaticamente para acelerar pesquisa e análise de dados.
  • O acesso antecipado é oferecido por meio de um programa de testadores confiáveis, com lançamento mais amplo para usuários do Colab previsto para o primeiro semestre de 2025.

Suporte aos desenvolvedores

  • Os modelos Gemini 2.0 ajudam desenvolvedores a criar apps de IA poderosos de forma mais rápida e fácil.
  • Há planos de integrar o Gemini 2.0 a plataformas como Android Studio, Chrome DevTools e Firebase.
  • O Gemini 2.0 Flash poderá ser usado no Gemini Code Assist para recursos de suporte a programação aprimorados em IDEs populares como Visual Studio Code, IntelliJ e PyCharm.

1 comentários

 
lemonmint 2024-12-12

Parece que já está disponível para uso no Google AI Studio e no Vertex AI.

O desempenho do modelo e a latência do áudio E2E ao vivo são impressionantes.