Gemini 3.0 é identificado publicamente por meio de testes A/B

(ricklamers.io)

5 pontos por GN⁺ 2025-10-17 | 1 comentários | Compartilhar no WhatsApp

Alguns usuários identificaram no Google AI Studio que um novo modelo Gemini 3.0 está sendo disponibilizado em formato de teste A/B
Espera-se que o Gemini 3.0 seja um modelo de próxima geração com melhor desempenho em programação, e usuários reais confirmaram a diferença de qualidade por meio de testes de geração de imagens SVG
Nos testes, o resultado da geração em SVG de um controle de Xbox 360 melhorou de forma significativa, mostrando um grande avanço em relação ao Gemini 2.5 Pro
O identificador do modelo é ecpt50a2y6mpgkcn e há grande chance de se tratar da versão Gemini 3.0 Pro; também foram observadas mudanças de desempenho, como aumento de 40% no comprimento da saída e aumento de 24 segundos no TTFT
Isso sugere que o Google iniciou a distribuição experimental do modelo Gemini de próxima geração, indicando que o lançamento oficial está próximo

Lançamento não oficial do Gemini 3.0 e contexto

Rumores recentes indicam que alguns usuários conseguiram acesso ao Gemini 3.0 no Google AI Studio por meio de testes A/B
O Gemini 3.0 é um modelo que vem despertando grande interesse na área de IA, com expectativa de melhorias em renderização de imagens por IA e desempenho em programação
Depois de várias tentativas, foi possível ver diretamente a tela do teste A/B.
Prompt usado: Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
Como resultado, o SVG do controle de Xbox gerado pelo Gemini 3.0 foi muito superior aos modelos anteriores em termos de detalhes, precisão e qualidade do layout
Foi confirmado que o ID do modelo do Gemini 3.0 é ecpt50a2y6mpgkcn, mas é difícil saber os detalhes exatos da versão
Como o modelo selecionado por padrão era o Gemini 2.5 Pro, é possível supor que a comparação real tenha sido com o Gemini 3.0 Pro
Em relação ao Gemini 2.5 Pro
- TTFT (Time to First Token) com aumento de cerca de 24 segundos
- Comprimento da saída com aumento de cerca de 40%
- Possibilidade de incluir reasoning tokens

Apêndice

Lista das imagens de saída da comparação A/B entre Gemini 3.0 e Gemini 2.5 Pro

1 comentários

GN⁺ 2025-10-17

Opiniões no Hacker News

Talvez eu esteja na minoria, mas, embora eu possa usar todos os modelos Pro no trabalho, minha experiência é que o Gemini sempre supera ChatGPT, Claude e Deepseek. Pode ser porque faço muito desenvolvimento web, especialmente trabalho com HTML/SCSS, e também acho que a vantagem do Google é ter mais dados por rastrear a internet. Cada modelo deve ter áreas em que é melhor, mas, em desenvolvimento web de UI/UX, sinto que o Gemini realmente se destaca. Estou muito animado com a versão 3.0
- Senti que o Gemini 2.5 Pro é especialmente melhor que Claude e GPT-5 nos dois casos abaixo.
  - Escrita criativa: o Gemini é de longe superior aos outros modelos. Pessoalmente, o Gemini 2.5 Pro é o único modelo minimamente utilizável para escrita criativa (poesia, contos). O nível de compreensão de nuances é muito bom, então eu o uso para criticar meus textos criativos. Claro, em áreas como escrever poesia, todos os modelos ainda deixam a desejar
  - Raciocínio complexo (matemática de graduação/pós-graduação): acho que o Gemini é o melhor por ser ligeiramente mais preciso. Claude Opus 4.1 e Sonnet 4.5 também estão em nível parecido, mas o Gemini 2.5 dá respostas mais consistentes e previsíveis (uso com frequência em álgebra, álgebra comutativa, teoria das categorias, geometria algébrica, topologia etc.)
  - Porém, no papel de “agente”, como vasculhar uma codebase grande inteira ou pedir refatoração em perguntas abertas, o Gemini fica abaixo de Claude e GPT-5. Há problemas parciais com chamada de ferramentas, então ele se comporta de forma inconsistente no Copilot/Cursor
  - No geral, acho o Gemini 2.5 Pro o mais inteligente, mas também considero correto usar modelos diferentes para tarefas diferentes
- Algumas semanas atrás, um script de terceiros estava interferindo no evento de clique de um botão React, então eu ia corrigir isso adicionando um evento mousedown. Eu estava cansado e expliquei ao Gemini um plano rápido e meio improvisado de simular um clique alguns ms depois do mousedown, mas o Gemini recusou frontalmente e, em vez disso, sugeriu uma solução mais limpa, combinando mousedown e mouseup. Fiquei realmente impressionado com o fato de ele entender perfeitamente o problema e recomendar um método melhor em vez do que eu queria fazer
- Estamos fazendo benchmark dos principais modelos de LLM na empresa, e o Gemini 2.5 está em primeiro lugar com folga, exceto em algumas áreas muito específicas. Isso combina bem com os rumores de que o pré-treinamento do Google é o melhor, e o que deixa um pouco a desejar é mais o tuning/alinhamento. É exatamente por isso que estou tão animado com o Gemini 3. O 2.5 é o melhor, mas ainda há bastante espaço para melhorar. (Áreas específicas: “raciocínio de verdade” (GPT-5) e escrita de scripts em Python (família Claude))
- Em precisão de busca ou tarefas baseadas em fatos, sinto que tanto Claude quanto Gemini ficam bem atrás do ChatGPT. O Gemini, depois de pesquisar algumas vezes, começa a inventar mais ou menos, enquanto o ChatGPT repete buscas dezenas ou até centenas de vezes e continua fazendo buscas adicionais com base no que encontrou antes
- Gosto muito da janela de contexto maior do Gemini. Meu fluxo de trabalho é converter a codebase inteira em texto e colar no Gemini, depois fazer perguntas. As pessoas gostam de “agentes” que escolhem só alguns arquivos para olhar, mas, para mim, é muito mais prático e eficaz simplesmente jogar a codebase inteira lá e trabalhar de forma interativa com geração de código, edição de arquivos etc.
Não entendo muito bem esse interesse exagerado em gerar SVG com LLM. É uma tarefa difícil de acertar de primeira e até para humanos é complicada, então não tem tanta utilidade. Acho que seria mais útil se o modelo pudesse receber feedback visual e melhorar o resultado. Como isso virou uma tarefa popular de benchmark, as empresas estão adicionando dados de exemplo ao conjunto de treino, então no fim isso só compara quem usou um dataset melhor de “texto para SVG”, e não tem relação com a qualidade geral do modelo
Já faz cerca de um mês que vêm surgindo notícias sobre Gemini 3 junto com várias especulações. Até o anúncio oficial, prefiro suspender o julgamento: ninguém sabe se será um substituto para Pro, Flash e Flash Lite, se será um modelo totalmente novo, se vai mesmo ser lançado etc. Por causa do método de teste A/B no AIStudio, só dá para obter o resultado de um único prompt e entender apenas velocidade, latência e se segue instruções. Não acho que avaliar o desempenho real de cada modelo com um único prompt seja uma avaliação profissional. Naturalmente, não dá para saber como ele lida com vários arquivos ou com chamadas de ferramentas. Em vez de inflar a expectativa sem critério, espero que ninguém caia nem em hype excessivo nem em decepção exagerada. Esse também é um dos motivos de eu não gostar muito de conteúdo especulativo: ele enfatiza só o lado chamativo, sem contexto ou análise real
- Hoje em dia parece até que hype virou uma profissão, mas é meio irritante ver cada link no Twitter cheio de reações exageradas como "GAME CHANGER!!!" e "Todo mundo vai ficar chocado!". Os exemplos reais são legais, mas é uma pena que só se veja esse tipo de avaliação pouco profissional mencionado acima
É um desenho de pelicano realmente impressionante. Estou muito animado para experimentar o Gemini 3 exemplo relacionado no Twitter
- O benchmark foi (finalmente) quebrado
- Ficou mais artístico do que eu esperava
- Isso é bom mesmo? Para mim parece só ruim
O que achei curioso é que o Gemini 2.5 Pro está no topo para a maioria dos usos, mas somente na primeira pergunta. Ou seja, ele funciona melhor quando todo o contexto já foi inserido, você faz uma pergunta e recebe uma única resposta. Quanto mais longa a conversa, mais a qualidade despenca. É estranho, ainda mais porque ele tem uma janela de contexto maior que a dos outros modelos. Eu o uso colocando o projeto inteiro (cerca de 200 mil tokens) na janela de conversa, fazendo uma única pergunta bem elaborada e fechando aquele chat logo em seguida
- Essa piora contínua na qualidade das respostas em conversas longas aconteceu da mesma forma com todos os LLMs que já usei. Por isso, eu não passo de duas mensagens. Se a primeira resposta não traz o que eu quero, quanto mais mensagens eu acrescento, menor fica a chance de sair a resposta certa. Acho melhor sempre começar em um chat novo e ir ajustando o prompt
Dizem que “Gemini 3.0 é um dos lançamentos de IA mais esperados no momento, especialmente pela melhoria no desempenho de programação”, mas, pelo que ouvi de amigos que o usam dentro do Google, todo mundo vai se decepcionar.
Edit: na prática, eles não conseguem usar o Gemini 3, então é até natural que digam que ele é ruim
- O Gemini 3.0 não está amplamente distribuído nem dentro do Google neste momento. O "Gemini for Google" é uma versão ajustada do 2.5 Pro ou do 2.5 Flash. O modelo 3.0 em si não está sendo usado de forma ampla. (Sou funcionário do Google, trabalho em uma equipe relacionada a pagamentos, e esta é minha opinião pessoal)
- Desculpa jogar água fria nesse entusiasmo, mas, na nossa equipe de Vibecoding dentro do Google, também não estamos usando o Gemini 3
- Nada surpreendente. Os LLMs entraram numa fase de limite de ganhos de desempenho (retornos decrescentes), e o que precisamos é de um jeito de fabricar GPUs mais baratas
Estão aparecendo muito mais exemplos de Gemini 3 no Twitter. Depois de ver isso, comprei ações do Google na hora. Pelos resultados, parece que ele realmente cria designs novos e criativos, em vez de só copiar e colar templates antigos. Produzir resultados tão consistentes e bonitos nesse nível de código é extremamente difícil, e fiquei chocado porque parece que o Gemini 3 conseguiu isso. Além disso, o Google é a única empresa que completou a integração vertical do modelo até o hardware, então acho que tem uma chance muito grande de vencer na era da IA
- Não sou especialista em finanças, mas posso te dar a dica de que comprar ações só com base em posts de hype no Twitter não é exatamente um método seguro de investimento. Mas, se for dinheiro de sobra e pela diversão, aí tudo bem
O Twitter de chetaslua está postando vários resultados de experimentos com Gemini 3 (desktop web, clone de Vampire Survivor, modelo 3D de pássaro jogável de verdade, vários clones de jogos, SVG etc.). Especialmente em formato one-shot, os resultados são muito bons e impressionantes
- Esse exemplo foi realmente original: demo em tempo real no codepen
  Quando você executa o terminal Python, aparece um efeito interessante de quebra da quarta parede
  1. Se você usar a palavra-chave print do "Python", a caixa de diálogo de impressão real do navegador aparece
  2. Se você usar a palavra-chave open do "Python", o navegador abre uma nova aba e tenta acessar aquele arquivo
    Ou seja, a execução de print e open se conecta diretamente ao navegador
Espero que o problema de looping (repetição) melhore. É um problema realmente sério. O CLI até tem detecção de loop, mas detectou isso logo no primeiro minuto de uso. O 2.5 Pro no app Gemini também acaba repetindo palavras sem parar e fica quase inutilizável, mesmo quando você pede várias vezes para não repetir
Fico me perguntando se os modelos avaliam SVG “com os olhos”, fazendo várias correções, ou se se espera que acertem perfeitamente de uma vez só
- No meu benchmark, só há uma chance.
  Também testei mostrar ao modelo visual o resultado renderizado e deixar melhorar até três vezes, mas, surpreendentemente, isso não melhora o resultado

Gemini 3.0 é identificado publicamente por meio de testes A/B

Lançamento não oficial do Gemini 3.0 e contexto

Apêndice

Leituras relacionadas

1 comentários

Opiniões no Hacker News