- Alguns usuários identificaram no Google AI Studio que um novo modelo Gemini 3.0 está sendo disponibilizado em formato de teste A/B
- Espera-se que o Gemini 3.0 seja um modelo de próxima geração com melhor desempenho em programação, e usuários reais confirmaram a diferença de qualidade por meio de testes de geração de imagens SVG
- Nos testes, o resultado da geração em SVG de um controle de Xbox 360 melhorou de forma significativa, mostrando um grande avanço em relação ao Gemini 2.5 Pro
- O identificador do modelo é
ecpt50a2y6mpgkcn e há grande chance de se tratar da versão Gemini 3.0 Pro; também foram observadas mudanças de desempenho, como aumento de 40% no comprimento da saída e aumento de 24 segundos no TTFT
- Isso sugere que o Google iniciou a distribuição experimental do modelo Gemini de próxima geração, indicando que o lançamento oficial está próximo
Lançamento não oficial do Gemini 3.0 e contexto
- Rumores recentes indicam que alguns usuários conseguiram acesso ao Gemini 3.0 no Google AI Studio por meio de testes A/B
- O Gemini 3.0 é um modelo que vem despertando grande interesse na área de IA, com expectativa de melhorias em renderização de imagens por IA e desempenho em programação
- Depois de várias tentativas, foi possível ver diretamente a tela do teste A/B.
- Prompt usado:
Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
- Como resultado, o SVG do controle de Xbox gerado pelo Gemini 3.0 foi muito superior aos modelos anteriores em termos de detalhes, precisão e qualidade do layout
- Foi confirmado que o ID do modelo do Gemini 3.0 é
ecpt50a2y6mpgkcn, mas é difícil saber os detalhes exatos da versão
- Como o modelo selecionado por padrão era o Gemini 2.5 Pro, é possível supor que a comparação real tenha sido com o Gemini 3.0 Pro
- Em relação ao Gemini 2.5 Pro
- TTFT (Time to First Token) com aumento de cerca de 24 segundos
- Comprimento da saída com aumento de cerca de 40%
- Possibilidade de incluir reasoning tokens
Apêndice
- Lista das imagens de saída da comparação A/B entre Gemini 3.0 e Gemini 2.5 Pro
1 comentários
Opiniões no Hacker News
Talvez eu esteja na minoria, mas, embora eu possa usar todos os modelos Pro no trabalho, minha experiência é que o Gemini sempre supera ChatGPT, Claude e Deepseek. Pode ser porque faço muito desenvolvimento web, especialmente trabalho com HTML/SCSS, e também acho que a vantagem do Google é ter mais dados por rastrear a internet. Cada modelo deve ter áreas em que é melhor, mas, em desenvolvimento web de UI/UX, sinto que o Gemini realmente se destaca. Estou muito animado com a versão 3.0
Senti que o Gemini 2.5 Pro é especialmente melhor que Claude e GPT-5 nos dois casos abaixo.
Algumas semanas atrás, um script de terceiros estava interferindo no evento de clique de um botão React, então eu ia corrigir isso adicionando um evento
mousedown. Eu estava cansado e expliquei ao Gemini um plano rápido e meio improvisado de simular um clique alguns ms depois domousedown, mas o Gemini recusou frontalmente e, em vez disso, sugeriu uma solução mais limpa, combinandomousedownemouseup. Fiquei realmente impressionado com o fato de ele entender perfeitamente o problema e recomendar um método melhor em vez do que eu queria fazerEstamos fazendo benchmark dos principais modelos de LLM na empresa, e o Gemini 2.5 está em primeiro lugar com folga, exceto em algumas áreas muito específicas. Isso combina bem com os rumores de que o pré-treinamento do Google é o melhor, e o que deixa um pouco a desejar é mais o tuning/alinhamento. É exatamente por isso que estou tão animado com o Gemini 3. O 2.5 é o melhor, mas ainda há bastante espaço para melhorar. (Áreas específicas: “raciocínio de verdade” (GPT-5) e escrita de scripts em Python (família Claude))
Em precisão de busca ou tarefas baseadas em fatos, sinto que tanto Claude quanto Gemini ficam bem atrás do ChatGPT. O Gemini, depois de pesquisar algumas vezes, começa a inventar mais ou menos, enquanto o ChatGPT repete buscas dezenas ou até centenas de vezes e continua fazendo buscas adicionais com base no que encontrou antes
Gosto muito da janela de contexto maior do Gemini. Meu fluxo de trabalho é converter a codebase inteira em texto e colar no Gemini, depois fazer perguntas. As pessoas gostam de “agentes” que escolhem só alguns arquivos para olhar, mas, para mim, é muito mais prático e eficaz simplesmente jogar a codebase inteira lá e trabalhar de forma interativa com geração de código, edição de arquivos etc.
Não entendo muito bem esse interesse exagerado em gerar SVG com LLM. É uma tarefa difícil de acertar de primeira e até para humanos é complicada, então não tem tanta utilidade. Acho que seria mais útil se o modelo pudesse receber feedback visual e melhorar o resultado. Como isso virou uma tarefa popular de benchmark, as empresas estão adicionando dados de exemplo ao conjunto de treino, então no fim isso só compara quem usou um dataset melhor de “texto para SVG”, e não tem relação com a qualidade geral do modelo
Já faz cerca de um mês que vêm surgindo notícias sobre Gemini 3 junto com várias especulações. Até o anúncio oficial, prefiro suspender o julgamento: ninguém sabe se será um substituto para Pro, Flash e Flash Lite, se será um modelo totalmente novo, se vai mesmo ser lançado etc. Por causa do método de teste A/B no AIStudio, só dá para obter o resultado de um único prompt e entender apenas velocidade, latência e se segue instruções. Não acho que avaliar o desempenho real de cada modelo com um único prompt seja uma avaliação profissional. Naturalmente, não dá para saber como ele lida com vários arquivos ou com chamadas de ferramentas. Em vez de inflar a expectativa sem critério, espero que ninguém caia nem em hype excessivo nem em decepção exagerada. Esse também é um dos motivos de eu não gostar muito de conteúdo especulativo: ele enfatiza só o lado chamativo, sem contexto ou análise real
É um desenho de pelicano realmente impressionante. Estou muito animado para experimentar o Gemini 3 exemplo relacionado no Twitter
O benchmark foi (finalmente) quebrado
Ficou mais artístico do que eu esperava
Isso é bom mesmo? Para mim parece só ruim
O que achei curioso é que o Gemini 2.5 Pro está no topo para a maioria dos usos, mas somente na primeira pergunta. Ou seja, ele funciona melhor quando todo o contexto já foi inserido, você faz uma pergunta e recebe uma única resposta. Quanto mais longa a conversa, mais a qualidade despenca. É estranho, ainda mais porque ele tem uma janela de contexto maior que a dos outros modelos. Eu o uso colocando o projeto inteiro (cerca de 200 mil tokens) na janela de conversa, fazendo uma única pergunta bem elaborada e fechando aquele chat logo em seguida
Dizem que “Gemini 3.0 é um dos lançamentos de IA mais esperados no momento, especialmente pela melhoria no desempenho de programação”, mas, pelo que ouvi de amigos que o usam dentro do Google, todo mundo vai se decepcionar.
Edit: na prática, eles não conseguem usar o Gemini 3, então é até natural que digam que ele é ruim
O Gemini 3.0 não está amplamente distribuído nem dentro do Google neste momento. O "Gemini for Google" é uma versão ajustada do 2.5 Pro ou do 2.5 Flash. O modelo 3.0 em si não está sendo usado de forma ampla. (Sou funcionário do Google, trabalho em uma equipe relacionada a pagamentos, e esta é minha opinião pessoal)
Desculpa jogar água fria nesse entusiasmo, mas, na nossa equipe de Vibecoding dentro do Google, também não estamos usando o Gemini 3
Nada surpreendente. Os LLMs entraram numa fase de limite de ganhos de desempenho (retornos decrescentes), e o que precisamos é de um jeito de fabricar GPUs mais baratas
Estão aparecendo muito mais exemplos de Gemini 3 no Twitter. Depois de ver isso, comprei ações do Google na hora. Pelos resultados, parece que ele realmente cria designs novos e criativos, em vez de só copiar e colar templates antigos. Produzir resultados tão consistentes e bonitos nesse nível de código é extremamente difícil, e fiquei chocado porque parece que o Gemini 3 conseguiu isso. Além disso, o Google é a única empresa que completou a integração vertical do modelo até o hardware, então acho que tem uma chance muito grande de vencer na era da IA
O Twitter de chetaslua está postando vários resultados de experimentos com Gemini 3 (desktop web, clone de Vampire Survivor, modelo 3D de pássaro jogável de verdade, vários clones de jogos, SVG etc.). Especialmente em formato one-shot, os resultados são muito bons e impressionantes
Quando você executa o terminal Python, aparece um efeito interessante de quebra da quarta parede
printdo "Python", a caixa de diálogo de impressão real do navegador apareceopendo "Python", o navegador abre uma nova aba e tenta acessar aquele arquivoOu seja, a execução de
printeopense conecta diretamente ao navegadorEspero que o problema de looping (repetição) melhore. É um problema realmente sério. O CLI até tem detecção de loop, mas detectou isso logo no primeiro minuto de uso. O 2.5 Pro no app Gemini também acaba repetindo palavras sem parar e fica quase inutilizável, mesmo quando você pede várias vezes para não repetir
Fico me perguntando se os modelos avaliam SVG “com os olhos”, fazendo várias correções, ou se se espera que acertem perfeitamente de uma vez só
Também testei mostrar ao modelo visual o resultado renderizado e deixar melhorar até três vezes, mas, surpreendentemente, isso não melhora o resultado