2 pontos por GN⁺ 2024-12-12 | 1 comentários | Compartilhar no WhatsApp
  • O Gemini 1.0 inovou como um modelo multimodal capaz de processar informações em texto, vídeo, imagem, áudio e código
  • O Gemini 2.0 leva essa visão adiante e evolui para um modelo agentic capaz de compreender o mundo, planejar várias etapas e executar tarefas
  • O Gemini 2.0 será integrado a produtos principais, como a Busca do Google, oferecendo capacidade para lidar também com tópicos mais complexos e perguntas de múltiplas etapas

Principais características do Gemini 2.0 Flash

  • Com base no sucesso do 1.5 Flash, oferece desempenho ainda melhor e tempos de resposta mais rápidos
  • É 2 vezes mais rápido que o 1.5 Pro e apresenta desempenho superior nos principais benchmarks
  • Suporta não apenas entradas multimodais como imagem, vídeo e áudio, mas também geração de imagens combinadas com texto e síntese de voz multilíngue
  • Pode chamar nativamente ferramentas como Google Search, execução de código e funções personalizadas
  • Será disponibilizado primeiro para desenvolvedores e testadores confiáveis, com lançamento mais amplo previsto para o início do próximo ano

Apresentação dos projetos de pesquisa

  • Project Astra: assistente de IA de uso geral com recursos de memória aprimorados
    • Melhorias em recursos como conversas multilíngues, uso de Google Search/Lens/Maps e memória de sessão de cerca de 10 minutos
    • Está evoluindo com a coleta de feedback de testadores confiáveis por meio de dispositivos Android
  • Project Mariner: protótipo de pesquisa que interage com o navegador e pode ajudar em tarefas complexas
    • Alcançou um alto resultado de 83,5% no benchmark WebVoyager
    • Inclui medidas de segurança integradas que pedem confirmação antes que o usuário aprove a ação final
  • Jules: agente de programação com IA integrado ao workflow do GitHub
    • Dá suporte aos desenvolvedores na resolução de issues e na execução de planos

Áreas de aplicação dos agentes de IA

  • Em parceria com a desenvolvedora de jogos Supercell, a empresa está explorando o uso de agentes de IA dentro de jogos
  • Também estão em andamento experimentos para aplicar a capacidade de raciocínio espacial do Gemini 2.0 na área de robótica

Segurança e desenvolvimento responsável

  • Foi adotada uma abordagem gradual e exploratória para o desenvolvimento de novas tecnologias
  • Por meio de uma abordagem de red teaming com apoio de IA, são geradas automaticamente formas de detectar riscos e medidas de mitigação
  • No Project Mariner, foram implementados recursos para proteger os usuários contra tentativas maliciosas de prompt injection
  • São oferecidos controles de privacidade do usuário e recursos para apagar sessões

Próximos planos

  • Os recursos do Gemini 2.0 serão expandidos para o app Gemini e outros produtos do Google
  • Segurança e responsabilidade continuarão sendo prioridade máxima no caminho rumo à AGI

1 comentários

 
GN⁺ 2024-12-12
Comentários do Hacker News
  • O novo plug-in llm-gemini oferece suporte ao modelo Gemini 2.0 Flash. Compartilharam como usá-lo no terminal

    • Os modelos Gemini têm a capacidade de escrever e executar código Python
    • Chamadas de rede não são possíveis, mas estão tentando várias abordagens
    • Mostra desempenho excelente em descrições visuais
  • Grandes empresas mudam de direção lentamente, mas, quando definem um rumo, conseguem realizar coisas que empresas pequenas não conseguem

    • O Google tem muito talento nessa área e está obtendo bons resultados
    • A capacidade de transformar modelos LLM em produto e fazer marketing ainda é uma incógnita, mas o desempenho é excelente
  • Supera o Gemini 1.5 Pro na maioria dos benchmarks

    • O Google DeepMind está se adaptando à era dos LLMs
    • Controla diretamente o hardware por meio dos TPUs
  • Um novo SDK foi anunciado. Parece seguir práticas modernas recomendadas

    • Eles vinham oferecendo um endpoint compatível com OpenAI, mas não estava claro se haveria suporte de longo prazo
    • Recomendam configurar um cluster Kubernetes e buckets no GCP
  • Fico feliz que o novo lançamento do Google esteja disponível para uso imediato

    • O Gemini Flash 2.0 supera o Gemini Pro 1.5 em problemas do Advent of Code
    • O Flash 2.0 corrige erros de compilação
  • A palavra "agentic" soa desagradável

    • Palavras como "versatile", "multifaceted" e "autonomous" parecem mais apropriadas
  • Os modelos Gemini 2 oferecem suporte a geração de áudio e imagens

    • A geração de imagens deve ficar geralmente disponível em janeiro
    • Tarefas de visão computacional poderão ser feitas por meio de LLMs
  • O Gemini 2 está à frente do 4o no Chatbot Arena

  • Acho a palavra "agentic" inadequada

    • Na prática, trata-se principalmente de um pipeline composto por system prompts e ferramentas
  • Acessei o Gemini 2.0 Flash no navegador Safari do iPhone por meio do Google AI Studio

    • Identificou com precisão o que viu pela câmera
    • Consegue ler texto em inglês e japonês
    • Identificou visualmente notas de piano, mas não conseguiu fazer isso apenas pelo som