1 pontos por GN⁺ 1 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Gemini 3.5 Flash é o primeiro modelo Gemini 3.5 a combinar inteligência de nível frontier com capacidade de execução, voltado para trabalhos longos de agentes e programação
  • Mantendo a velocidade da série Flash, supera o Gemini 3.1 Pro em benchmarks como Terminal-Bench 2.1 76,2% e GDPval-AA 1656 Elo
  • Em tokens de saída, a taxa de processamento por segundo é 4 vezes mais rápida que a de outros modelos frontier e, em muitos casos, o custo é menos da metade, o que o favorece para tarefas longas de agentes
  • Realiza tarefas em várias etapas no Antigravity e no AI Studio, como desenvolvimento de apps, migração de código legado para Next.js, implementação de jogos com base em artigos e criação de propostas de UX
  • É oferecido como modelo padrão no app Gemini e no AI Mode do Search, além de ser aplicado ao Gemini Spark e a fluxos de trabalho de parceiros corporativos; o 3.5 Pro está previsto para o mês que vem

Lançamento do Gemini 3.5 e escopo de disponibilidade

  • Gemini 3.5 é a mais recente família de modelos que combina inteligência de nível frontier com capacidade de execução, posicionando-se como um modelo para criar agentes mais capazes
  • O primeiro modelo lançado é o 3.5 Flash, que oferece desempenho de nível frontier em agentes e programação, com foco em tarefas complexas e longas que têm utilidade real
  • O 3.5 Flash está disponível por meio de vários produtos do Google e ferramentas para desenvolvedores
    • Disponível para usuários gerais pelo app Gemini e pelo AI Mode do Google Search
    • Desenvolvedores podem usá-lo pelo Google Antigravity, pela Gemini API no Google AI Studio e pelo Android Studio
    • Disponível para empresas por meio do Gemini Enterprise Agent Platform e do Gemini Enterprise
  • O 3.5 Pro também está em desenvolvimento, já está sendo usado internamente e deve ser lançado no próximo mês

Desempenho do 3.5 Flash

  • O 3.5 Flash mantém a velocidade da série Flash e, ao mesmo tempo, entrega inteligência que compete com grandes modelos flagship em várias dimensões
  • É o modelo de programação orientada a agentes mais poderoso do Google, superando o Gemini 3.1 Pro em benchmarks difíceis de programação e agentes
    • Terminal-Bench 2.1: 76,2%
    • GDPval-AA: 1656 Elo
    • MCP Atlas: 83,6%
    • Entendimento multimodal CharXiv Reasoning: 84,2%
  • Em tokens de saída, a taxa de processamento por segundo é 4 vezes mais rápida que a de outros modelos frontier
  • Nos indicadores da Artificial Analysis, aparece no quadrante superior direito, indicando um modelo com menos compromisso entre qualidade e latência

Tarefas de agentes em larga escala

  • Graças ao equilíbrio entre velocidade e desempenho, o 3.5 Flash é adequado para tarefas longas de agentes
  • Ajuda a concluir em menos tempo tarefas que antes levavam dias para desenvolvedores e semanas para auditores e, em muitos casos, por menos da metade do custo de outros modelos frontier
  • Permite planejar, construir e iterar rapidamente na resolução de problemas reais
    • Desenvolvimento de novas aplicações
    • Manutenção de codebases
    • Suporte à preparação de documentos financeiros
  • Combinado ao harness do Antigravity atualizado, torna-se um motor de execução que implanta subagentes colaborativos em casos de uso desafiadores para lidar com problemas em escala
  • Executa de forma confiável fluxos de trabalho em várias etapas e tarefas de programação sob supervisão, mantendo desempenho de nível frontier

Exemplos de uso com Antigravity e AI Studio

  • O 3.5 Flash executa no Antigravity fluxos de trabalho em várias etapas para renomear e classificar automaticamente ativos não estruturados com base em critérios dinâmicos
  • No Antigravity, usa dois agentes para sintetizar o artigo do AlphaZero e programar um jogo totalmente jogável em 6 horas
  • Converte uma codebase legada complexa para Next.js com o harness do Antigravity
  • No Antigravity, usa subagentes para gerar uma nova paisagem urbana e desenvolver um jogo com um rápido loop de autoaperfeiçoamento entre os agentes builder e player
  • Com base na forte base multimodal do Gemini 3, o 3.5 Flash gera interfaces web e gráficos mais ricos e interativos
    • No AI Studio, gera animações interativas para artigos de pesquisa em IA
    • No AI Studio, transforma descrições em texto simples em hardware interativo
    • No AI Studio, executa vários conceitos em paralelo para criar um conceito completo de branding para uma campanha de arrecadação escolar
    • No AI Studio, gera diferentes abordagens de UX para um fluxo de checkout em 60 segundos

Uso corporativo e por desenvolvedores

  • As capacidades de agente do 3.5 Flash já estão sendo usadas em fluxos de trabalho de desenvolvedores e empresas
  • Durante o desenvolvimento da família de modelos Gemini 3.5, foram identificados com parceiros da indústria os pontos em que surgem trabalhos repetitivos e complexidade
  • Os parceiros estão vendo resultados desde a automação de fluxos de trabalho de várias semanas em bancos e fintechs até o apoio a equipes de ciência de dados na busca por insights em ambientes de dados complexos
  • Shopify

    • Executa subagentes em paralelo para analisar dados complexos no longo prazo e fazer previsões de crescimento de comerciantes mais precisas em escala global
  • Macquarie Bank

    • Está pilotando uma forma de acelerar o onboarding de clientes por meio do raciocínio sobre documentos complexos com mais de 100 páginas, da busca de informações relevantes e da geração de recomendações confiáveis com baixa latência
  • Salesforce

    • Integra o 3.5 Flash ao Agentforce para automatizar tarefas corporativas complexas com vários subagentes que mantêm o contexto e executam chamadas de ferramentas complexas em múltiplas interações
  • Ramp

    • Dá suporte a um OCR mais inteligente e confiável ao combinar entendimento multimodal de faturas complexas com raciocínio sobre padrões históricos
  • Xero

    • Permite que agentes gerenciem de forma autônoma fluxos de trabalho complexos que se estendem por várias semanas, como identificação de fornecedores e coleta de informações para formulários fiscais 1099, viabilizando a automação de tarefas administrativas repetitivas para pequenas empresas
  • Databricks

    • Usa fluxos de trabalho orientados a agentes para monitorar e buscar informações em tempo real, raciocinar sobre grandes conjuntos de dados, diagnosticar problemas e sugerir correções e soluções

Aplicações em agentes pessoais de IA e no Search

  • O 3.5 Flash se torna o modelo padrão no app Gemini e no AI Mode do Search em todo o mundo
  • No Google I/O, foram revelados novos recursos que aplicam as capacidades de agente do 3.5 Flash ao dia a dia
  • Gemini Spark é um agente pessoal de IA que usa o 3.5 Flash
    • Funciona 24 horas por dia
    • Navega pela vida digital do usuário e age em seu nome conforme suas instruções
    • Começa a ser lançado hoje para testadores confiáveis
    • Deve ser disponibilizado em beta na próxima semana para assinantes do Google AI Ultra nos EUA
  • As capacidades aprimoradas de programação orientada a agentes do 3.5 Flash oferecem experiências mais inteligentes em todo o Search
    • Introduz um novo agente de informação que funciona 24 horas por dia para o usuário
    • Torna possíveis experiências de UI generativa mais dinâmicas
    • O Search usa o 3.5 Flash para gerar materiais visuais interativos que explicam o padrão Gyroid

Salvaguardas

  • O Gemini 3.5 foi desenvolvido de acordo com o Frontier Safety Framework
  • As salvaguardas de cibersegurança e CBRN foram reforçadas, reduzindo a probabilidade de gerar conteúdo nocivo e de recusar incorretamente responder a consultas seguras
  • Foram aplicadas novas técnicas, mais avançadas, de treinamento e mitigação de segurança
  • Inclui ferramentas de interpretabilidade que ajudam a inspecionar e entender o raciocínio interno da IA antes de fornecer respostas

1 comentários

 
GN⁺ 1 시간 전
Comentários do Hacker News
  • O pelicano ficou bem convincente: https://github.com/simonw/llm-gemini/issues/133#issuecomment...
    Só que a bicicleta ficou ruim. Faltou a barra entre o pedal e a roda traseira, e o outro quadro também está todo estranhamente embolado
    E também saiu caro. Aquele pelicano sozinho custou 13 centavos: https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...

    • Aquele pelicano parece que foi para Miami por causa de uma conferência de cripto
    • Isso mostra perfeitamente um fenômeno que senti no avanço dos grandes modelos de linguagem. Quando você pede esse tipo de melhoria em SVG, ele não corrige a barra horizontal faltando nem os membros separados, só adiciona mais elementos
      Este exemplo claramente melhorou bastante e tem uma quantidade absurda de detalhes, mas o formato básico do quadro continua errado. Em páginas web aparece o mesmo padrão, tipo adicionar mais botões e coisas assim
      Também tentei colocar o SVG quebrado do pelicano em um modelo de imagem para ele encontrar os defeitos, e mesmo assim ele ainda não conseguiu identificar os elementos quebrados
    • Esquecer o chainstay é algo que aparece com frequência quando você pede para qualquer pessoa desenhar uma bicicleta
      https://www.gianlucagimini.it/portfolio-item/velocipedia/

      most ended up drawing something that was pretty far off from a regular men’s bicycle

    • Parece captar bem aquela vibe típica do Google de ser meio sem graça, mas continuar tentando parecer relevante para o público jovem
    • Aquele sol é muito parecido com o sol que apareceu no fundo de outro post popular do HN sobre o museu de sistemas operacionais: https://news.ycombinator.com/item?id=48195009
  • Preço por milhão de tokens de entrada/saída:
    Gemini 2.5 Flash: $0.30/$2.50
    Gemini 3.0 Flash Preview: $0.50/$3.00
    Gemini 3.5 Flash: $1.50/$9.00
    A direção dos preços é interessante. Não lembro de já ter visto um aumento de 3x no preço de um modelo para o próximo de mesmo porte, e também é engraçado que o 3 só teve versão Preview
    O 3.5 Flash custa quase o mesmo que o Gemini 2.5 Pro, que era $1.25/$10

    • Isso subestima o aumento de custo. O 3.5 Flash também usa mais tokens. Segundo o artificialanalysis.ai, a diferença de custo para rodar a avaliação completa parece mais próxima do preço real:
      Gemini 2.5 Flash (27 pontos): $172 (1.0x)
      Gemini 2.5 Pro (35 pontos): $649 (3.8x)
      Gemini 3.0 Flash (46 pontos): $278 (1.6x)
      Gemini 3.5 Flash (55 pontos): $1,552 (9.0x, ou 2.4x em relação ao 2.5 Pro)
      É um aumento de preço enorme. Comparado ao Gemini 3.0 Flash, é 5.6x
    • Talvez eles nunca tenham pretendido continuar oferecendo modelos baratos. É a forma natural de começar a pressionar depois que surgem empresas construindo serviços em cima da API
      Por isso faz muito sentido ter uma camada de abstração que evite ficar preso ao provedor. Se você usa Kotlin, o Koog é excelente
    • Precisamos de outro momento DeepSeek. Senão, vai ficar difícil para a pessoa comum usar IA, e isso vai virar algo que só grandes empresas conseguem bancar
    • Se o Google realmente está rodando inferência mais barato do que os outros por causa das TPUs, isso parece um sinal de alerta. Pode ser que esteja se revelando difícil servir grandes modelos de linguagem com lucro
      Ou talvez eles achem que, como os benchmarks estão bons, dá para subir o preço. Só que ainda não parece haver participação de mercado suficiente para justificar essa decisão
    • O 3.5 Flash não está marcado como Stable e não como Preview? Li errado?
      https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
  • Vale notar que o Google marcou este modelo como Stable, e não como Preview. Isso é incomum em comparação com o ritmo recente de lançamentos
    Somando isso ao aumento de preço de 3x, a precificação do Flash parece menos uma medida temporária para reverter depois e mais um piso de longo prazo que o Google quer estabelecer
    Ainda assim, é difícil dizer se isso é só o Google lendo o ambiente de mercado ou se o setor inteiro está silenciosamente redefinindo a linha de base da inferência barata

  • Create animated SVG of a frog on a boat rowing through jungle river. Single page self contained HTML page with SVG
    3.5 Flash: Thinking Medium - 7516 tokens
    https://gistpreview.github.io/?5c9858fd2057e678b55d563d9bff0...
    3.5 Flash: Thinking High - 7280 tokens
    https://gistpreview.github.io/?1cab3d70064349d08cf5952cdc165...
    3.1 Pro - 28,258 tokens
    https://gistpreview.github.io/?6bf3da2f80487608b9525bce53018...
    O 3.1 pensou por 3 minutos para gerar, mas foi o único modelo que colocou a animação em movimento direito

  • Será que eu estou realmente velho a ponto de, quando alguém diz "Flash", eu imediatamente pensar "considere HTML5 no lugar"?

    • Quase nada do que tornava a cultura do Flash tão divertida passou para o HTML5
    • O Flash Designer era realmente bom. Uma das coisas em que a web deu uma certa regredida foi em relação às ferramentas RAD dos anos 90 e 2000
    • Jovens!
      Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
      Há tantos anos que eu nem sei mais quantos, sempre penso nisso quando ouço a palavra "flash"
  • Corte de conhecimento: janeiro de 2025
    Última atualização: maio de 2026
    Isso me dá uma sensação bem sinistra sobre esse atraso

    • Pelo menos em alguns casos, parece que estão indo na direção de treinar com mais dados sintéticos e dados rigidamente selecionados. Modelos pequenos, em especial, não têm espaço para armazenar o mundo inteiro dentro de dezenas ou centenas de GB de pesos, então não conseguem ampliar a abrangência do conhecimento indefinidamente
      Então, para obter raciocínio de maior qualidade, o treinamento precisa ser mais focado, e os dados têm que ser de altíssima qualidade e densidade
      Se o uso de ferramentas for forte, talvez não importe tanto que o modelo use dados antigos, porque ele pode buscar informação atualizada. Só que hoje a maioria dos modelos não faz isso sem um certo empurrão
      Até onde eu sei, toda a linha Qwen 3 parte do mesmo modelo base e só faz ajuste fino/pós-treinamento para melhorar métricas diferentes. A linha Gemini 3 também pode ser toda igual, e talvez neste exato momento eles estejam treinando simultaneamente modelos baseados em Gemini 4 com conhecimento atualizado
    • Não se deve extrair fatos dos pesos do modelo. Eles precisam ser ancorados em uma fonte de dados real
    • Pode explicar o que isso quer dizer?
    • Eu achava que isso era uma escolha do Google
  • Eu uso o plano google ai pro e testei o 3.5 Flash no Antigravity, e em dois prompts já torrei toda a cota. Se não for bug, está em um nível realmente inutilizável

    • Ontem ou anteontem o Google reduziu a cota do AI Pro de 33x o uso padrão para 4x
      Pelo clima no subreddit do Gemini, parece que ficou muito pior do que antes. Eu também provavelmente vou cancelar o AI Pro
      Esta atualização também quebrou o app. Toda vez que você edita uma mensagem, o app trava. E isso mesmo usando um Pixel
  • O relógio de 2000 tokens do Gemini 3.5 Flash não é ruim. https://clocks.brianmoore.com/

  • Um aumento de preço de 3x para um modelo quase igual. E diziam que a IA ficaria mais barata e seria usada em todo lugar

    • Talvez quisessem dizer que se espalharia por toda parte como a epidemia de crack
    • Se você acreditar nos benchmarks, também dá para ver como três quartos do preço do 3.1 Pro
  • O preço não faz o menor sentido
    O Gemini 3.5 Pro provavelmente também vai subir de preço. 12 x 5 = 60?
    Parece que o Google quer que a gente use modelos chineses