Três anos do GPT-3 ao Gemini 3

(oneusefulthing.org)

5 pontos por GN⁺ 2025-11-26 | 1 comentários | Compartilhar no WhatsApp

Gemini 3, do Google, evoluiu além de um simples chatbot conversacional e passou a atuar como uma IA em formato de colega digital, capaz de realizar tarefas reais como escrever código, navegar na web e manipular arquivos
Apresentado junto com ele, o Antigravity é uma ferramenta baseada em agentes que acessa o computador do usuário para escrever programas de forma autônoma e solicita aprovação ou ajuda por meio de um sistema de Inbox
O Gemini 3 executa, de acordo com as instruções do usuário, tarefas como criação de sites, análise de dados e redação de artigos acadêmicos, demonstrando capacidade de pesquisa em nível de PhD
Os erros ainda existem, mas estão mais no nível de diferenças de julgamento e compreensão, aproximando-se de um formato de “membro de equipe de IA” que colabora com humanos
O texto destaca que estamos “passando da era dos chatbots para a era dos colegas digitais”, e que os humanos estão deixando de ser quem corrige os erros da IA para se tornar gestores que dirigem o trabalho da IA

A chegada do Gemini 3 e as mudanças em 3 anos

O Google Gemini 3, lançado cerca de 3 anos após a chegada do ChatGPT, é um exemplo da velocidade do avanço da IA
- Em 2022, na era do GPT-3.5, o nível ainda era o de simplesmente gerar parágrafos ou poemas
- Em 2025, o Gemini 3 evoluiu a ponto de codificar e projetar diretamente jogos interativos
O Gemini 3 gerou um jogo realmente jogável chamado “Candy-Powered FTL Starship Simulator”, conforme o pedido do usuário
- Isso mostra a evolução da IA do estágio em que apenas explicava texto para um estágio em que implementa diretamente código e interface

Antigravity e a IA em formato de agente

O Google revelou, junto com o Gemini 3, uma ferramenta para desenvolvedores chamada Antigravity
- Assim como Claude Code ou OpenAI Codex, trata-se de um sistema que acessa o computador do usuário e escreve código de forma autônoma
O Antigravity introduz o conceito de Inbox, enviando notificações ao usuário quando a IA precisa de aprovação ou ajuda durante o trabalho
O usuário dá instruções em inglês, e a IA as executa em código
- Como exemplo, ela analisou os arquivos de newsletter do autor e gerou automaticamente um site que organiza previsões relacionadas à IA
- A IA faz buscas na web, executa código, testa no navegador e empacota o resultado de forma que possa ser implantado no Netlify

Gemini 3 como IA colaborativa

Durante o trabalho, o Gemini 3 compartilha o progresso de forma transparente por meio de pedidos de aprovação do usuário
- O usuário revisa e ajusta as sugestões da IA, colaborando com ela
- Esse processo se aproxima de uma experiência de “gerenciar IA”
A IA não é perfeita, mas os erros estão mais no nível de diferenças de julgamento ou mal-entendidos na interpretação da intenção, e quase não há mais o problema tradicional de alucinações (hallucinations)
A colaboração com o Gemini 3 é comparada a “gerenciar um membro da equipe”, enfatizando uma interação que vai além de simplesmente inserir prompts

Capacidade de pesquisa e avaliação de “nível PhD”

O Gemini 3 realizou tarefas de análise de conjuntos de dados de pesquisa e redação de artigos acadêmicos
- Recuperou e organizou um arquivo antigo de dados de crowdfunding e realizou uma nova análise
- Escreveu um artigo de 14 páginas sobre o tema “empreendedorismo e estratégia de negócios”
A IA formulou hipóteses próprias, realizou análises estatísticas e criou métricas próprias (medição da originalidade das ideias)
O resultado mostrou um nível de acabamento equivalente ao de um pós-graduando, embora algumas técnicas estatísticas e o desenvolvimento teórico ainda fossem insuficientes
- Com instruções adicionais, a qualidade melhorou bastante
- O autor avaliou que a “inteligência em nível de PhD não está longe”

A transição para colegas digitais

O Gemini 3 é uma IA parceira que pensa e executa, acessível a bilhões de pessoas no mundo todo
Não há sinais de desaceleração no avanço da IA, e ganham destaque a ascensão dos modelos baseados em agentes e a importância da capacidade de gerenciar IA
O autor descreve esse momento dizendo que “a era dos chatbots está se transformando na era dos colegas digitais”
- Os humanos deixam de ser quem corrige os erros da IA e passam a ser gestores que dirigem o trabalho da IA
Por fim, o Gemini 3 demonstrou capacidade criativa além do texto, como gerar uma imagem de capa para blog apenas com código
Ainda assim, é preciso cautela, pois conceder à IA acesso ao computador traz riscos de segurança

1 comentários

GN⁺ 2025-11-26

Comentários do Hacker News

Sempre falta uma parte quando vejo artigos assim — a pergunta “isso é bom, isso é correto?”
- Mostram só as partes impressionantes, mas muitas vezes não há validação de qualidade de verdade
- No código que eu entendo, eu vejo problemas de segurança ou erros, mas quando aparece um artigo de 14 páginas sobre uma área que eu não conheço, fico pensando se devo simplesmente “acreditar que é bom”
- No fim, o que eu conheço está num nível que não dá para enviar para produção, enquanto o que eu não conheço só parece incrível
- Essa contradição não me convence
- Há duas formas: confiar na avaliação de especialistas ou pedir tarefas complexas que possam ser verificadas diretamente
  - Por exemplo, antigamente, quando eu pedia um código de filtro Sobel como edgeDetect(image), o sucesso variava bastante de modelo para modelo
  - Recentemente, pedi um shader de glow em WebGL, e ele criou uma demo funcional compatível com um módulo que eu havia feito
  - Isso dá para verificar imediatamente pelo desempenho e pela precisão visual
  - Mas, mesmo quando ele diz que “consegue fazer”, isso não significa que vai dar certo sempre; significa só que ao menos uma vez já conseguiu
- Os modelos da geração mais recente (Codex 5.1, Sonnet 4.5, Opus 4.5) estão chegando cada vez mais perto de um nível pronto para produção
  - Meu critério é “wtfs por linha”, e esse número está caindo rápido
  - Já publiquei vários projetos sem problemas usando Codex 5.1 (ex.: pine.town)
- Na parte final do artigo, os pontos fortes e fracos do paper são de fato mencionados
- Como os modelos têm uma tendência a satisfazer o usuário, às vezes dão respostas erradas com falsa confiança
  - Se o usuário não verificar, pode acabar sendo enganado
É interessante como, até agora, a maior parte da interação com IA ainda gira em torno de uma caixa de texto
- O surgimento de ferramentas como Claude Code e OpenAI Codex foi uma grande mudança
- Parece que haverá um valor enorme para quem conseguir implementar de verdade a interface de IA do futuro
- Texto ainda é eficiente porque tem alta densidade de informação
  - Dá para percorrer com scroll em poucos segundos, e o teclado continua sendo a ferramenta de entrada mais produtiva
- O motivo de a CLI Unix ter permanecido baseada em texto por mais de 50 anos vai na mesma linha
  - Mesmo quando há tentativas com dados estruturados, como no PowerShell, no fim elas perdem em generalidade
  - Fazer a IA entender as interfaces humanas que já existem é uma abordagem mais poderosa
- Essa obsessão em achar uma UI totalmente nova para IA parece exagerada
  - No fim das contas, o que continua mais fácil para humanos lidar são texto, tabelas e gráficos
- O mundo é essencialmente multimodal
  - Acho que o próximo passo é uma interface unificada que lide de forma integrada com texto e vários tipos de dados
  - Especialmente com o avanço da robótica, elementos 3D também devem se tornar importantes
- A interface de voz do ChatGPT é surpreendentemente natural, e para brainstorming pode ser até mais adequada
O problema das alucinações ainda existe
- Houve aumento de erros sutis e mais humanos, mas junto continuam aparecendo também erros fatais
- Pedi ao Claude um conto curto de 20 páginas, e ele não conseguiu manter nem a ordem temporal básica nem a consistência dos personagens
- Os modelos recentes, em vez de erros simples, fazem afirmações erradas com confiança e até inventam referências que não existem
Sobre a pergunta “isso já é inteligência de nível PhD?”, como pós-graduando eu tenho uma sensação parecida
- Conversar com os modelos mais recentes passa a impressão de estar falando com um pesquisador especializado
- Ainda assim, acho que a inteligência natural e a motivação humanas continuam sendo importantes
- Na programação, é como trabalhar com dois desenvolvedores — um é um intermediário competente, o outro é completamente sem noção
  - O problema é que os dois têm exatamente a mesma aparência, então não dá para distinguir
- Eu frequentemente faço experimentos colocando dois modelos SOTA para conversarem entre si
  - Recentemente, coloquei Gemini-3 e ChatGPT-5.1 juntos, e eles discutiram o problema de atrofia neural que pode surgir quando humanos desistem de pensar
  - Foi marcante vê-los refletindo se a IA deveria deliberadamente “fazer os humanos pensarem”
- No HN, é uma pena que opiniões assim muitas vezes recebam downvotes sem motivo
O avanço do Google está acontecendo não só no software, mas também no hardware
- Eles fazem tanto o treinamento quanto a inferência com hardware próprio
- Antes, a força do Google estava em usar hardware genérico, mas agora evoluiu completamente em outra direção
Gemini 3 é impressionante, mas ainda dá a sensação de estar preso às limitações da literatura existente
- Quando se pede uma ideia nova para um problema matemático, ele só repete resultados existentes
- Até Terrence Tao o utilizou para resolver problemas matemáticos, mas parece mais como uma ferramenta de apoio a ideias do que como fonte de resultados realmente novos
- Eu também experimentei com Thinking with 3 Pro, mas só consegui fazê-lo se aproximar da minha ideia depois de dar dicas praticamente mastigadas
- No fim, o deslumbramento pode vir menos da capacidade do modelo e mais dos limites da expectativa do usuário
- Esses modelos são, em essência, mais próximos de um bibliotecário do conhecimento do que de uma fonte de ideias novas
- A verdadeira exploração criativa exige explorar, de forma probabilística, espaços menos percorridos e definir e avaliar objetivos por conta própria
  - A arquitetura Transformer atual foi projetada para escolher o token mais provável, então por natureza busca consistência mais do que novidade
  - Por isso, mesmo aumentar a temperature tende a levar mais à queda da consistência textual do que à criatividade
  - Para resolver isso, seriam necessários geração adaptativa de objetivos e avaliação baseada em simulação, mas o custo computacional é muito alto
  - No fim, acho difícil chegar à inteligência verdadeira com a arquitetura atual de LLMs
- Adicionar uma instrução personalizada como “use busca na web em tempo real” ajuda na busca de informações atualizadas
A data de lançamento do GPT-3 foi junho de 2020, e o ChatGPT era a versão 3.5
- É um erro pequeno, mas eu queria registrar isso com precisão
Já ouço há muito tempo que o “Human in the loop” está evoluindo de humano que corrige erros da IA para humano que coordena a IA
- Fico curioso sobre quando exatamente isso vai se tornar uma realidade claramente visível
- Talvez nunca haja um momento totalmente claro
  - Assim como um gerente não pode virar alguém que “só dá ordens”, sempre existe uma taxa de correção
- Quando se conecta diretamente ferramentas de CLI com agentes, já dá a sensação de que esse ponto de virada foi ultrapassado
- Pessoalmente, sinto que eu já entrei na fase de coordenar a IA
Fico na dúvida se é seguro rodar ferramentas como Claude Code ou Antigrav diretamente no sistema local
- Produtos baseados em VS Code são seguros porque têm restrições de acesso ao workspace, mas terminais como o Warp usam listas de permissão/bloqueio de comandos para controle
- Em alguns casos dá até para remover as restrições com flags, mas isso só acontece se for feito de propósito
- Eu sempre executo esse tipo de trabalho apenas dentro de um container de desenvolvimento com Podman
- Uma ferramenta criada justamente para resolver esse problema é o Leash — um projeto open source voltado a controles de segurança
- Algumas pessoas simplesmente mandam um “Yolo” e executam assumindo o risco
- Na prática, a maioria dos usuários realmente roda isso direto no ambiente local

Três anos do GPT-3 ao Gemini 3

A chegada do Gemini 3 e as mudanças em 3 anos

Antigravity e a IA em formato de agente

Gemini 3 como IA colaborativa

Capacidade de pesquisa e avaliação de “nível PhD”

A transição para colegas digitais

Leituras relacionadas

1 comentários

Comentários do Hacker News