Opus 4.5 é completamente diferente de qualquer agente de IA que experimentei até agora

(burkeholland.github.io)

23 pontos por GN⁺ 2026-01-07 | 3 comentários | Compartilhar no WhatsApp

Claude Opus 4.5 demonstra um nível de capacidade autônoma de desenvolvimento que, ao contrário dos agentes de IA de programação anteriores, permite criar aplicações de alta qualidade sem intervenção do desenvolvedor
De um simples utilitário de conversão de imagens para Windows a uma ferramenta de gravação e edição de vídeo, um app de automação de publicações com IA e um app de rastreamento de pedidos e cálculo de rotas, concluiu projetos realmente funcionais em pouco tempo
O Opus 4.5 lida sozinho com tarefas complexas de desenvolvimento, como configuração de backend no Firebase, análise de logs de erro e correção automática, e configuração de deploy com GitHub Actions
O autor afirma não entender completamente a estrutura do código, mas confirma que o Opus 4.5 resolve bugs por conta própria e até sugere refatorações
A experiência reforça que a possibilidade de a IA substituir totalmente desenvolvedores está se tornando real, marcando um ponto de virada na era do desenvolvimento centrado em IA

A chegada do Opus 4.5 e a diferença em relação aos agentes de IA anteriores

Agentes de IA anteriores frequentemente tinham baixa produtividade por causa de geração de código ineficiente e correções repetitivas de erros
- Em muitos casos, depois de várias rodadas de copiar e colar e corrigir erros, a base de código acabava comprometida
O Opus 4.5 supera esses problemas ao escrever corretamente a maior parte do código desde o início e, quando surgem erros, repetir diretamente o ciclo de build e correção via CLI
O autor o avalia como “o modelo em que a promessa da programação com IA finalmente se concretizou”

Projeto 1 – Utilitário de conversão de imagens para Windows

O Opus 4.5 concluiu, com um único pedido, um utilitário com a função de converter formatos de imagem no menu de clique direito do Explorador do Windows
- Automatizou o processo de build e correção de erros usando a dotnet CLI
- Apenas erros de XAML foram verificados no Visual Studio, copiados e enviados
Também configurou site de distribuição, script de instalação em PowerShell e pipeline de deploy automático com GitHub Actions
A criação do logotipo foi feita com Figma AI, e o Opus escreveu os scripts de conversão para SVG e formatação de ícones

Projeto 2 – Ferramenta de gravação e edição de tela

Começando por um utilitário de gravação de GIF semelhante ao LICEcap, expandiu para recursos de edição de vídeo e imagem
- Implementou em poucas horas funções de edição como adicionar formas, cortar e aplicar blur
O código-fonte está disponível no GitHub, e o autor comenta que “foi desenvolvido até um nível bastante avançado em poucas horas”
Ficou claro que o Opus 4.5 consegue realizar não só a UI, mas também o trabalho de integração de backend

Projeto 3 – App de automação de publicações com IA

Um app mobile baseado em IA para publicar automaticamente em páginas do Facebook foi desenvolvido com o Opus 4.5
- Após o upload de fotos, a IA faz a geração de legendas e o agendamento das publicações
- O Opus configurou diretamente via CLI o backend no Firebase, autenticação, storage e cloud functions
O autor explica que, enquanto instalava persianas, o Opus concluiu o app
O Opus também analisou logs de erro automaticamente para corrigir problemas e criou até um dashboard administrativo
Uma tarefa que antes levava meses foi concluída em poucas horas

Projeto 4 – App de rastreamento de pedidos e cálculo de rotas

Faz o parsing de e-mails de pedido do Gmail para calcular automaticamente agenda, rotas, tempo de direção e registro de quilometragem para fins fiscais
O Opus 4.5 resolveu de uma vez a integração com autenticação do Google e a conexão com o Firebase
O autor avalia que “uma tarefa dolorosa de fazer manualmente foi executada perfeitamente pelo Opus”

Entendimento de código e questões de qualidade

O autor menciona que, mesmo sem saber Swift, o app funcionou perfeitamente
O Opus 4.5 encontra e corrige bugs sozinho, permitindo que o desenvolvimento avance sem que o autor conheça a estrutura interna do código
Sobre dúvidas quanto à qualidade do código, afirma que “se o código será lido e mantido por IA, a legibilidade para humanos não é importante”
Usando um prompt de escrita de código voltado para IA no VS Code, gera código com foco em estruturas fáceis para LLMs entenderem

Princípios de programação centrada em IA

O prompt parte do pressuposto de que o código será “escrito e mantido por IA”
- Enfatiza estrutura simples, pontos de entrada claros, abstração mínima e baixo acoplamento
- Dá prioridade a fluxo de controle explícito, funções simples, logging estruturado e facilidade de regeneração
Ao refatorar código, o Opus organiza em documento os itens de melhoria por prioridade (alta, média e baixa)
Em verificações de segurança, é solicitado revisar chaves de API, tratamento de login e armazenamento de dados sensíveis
- O autor comenta que, quanto à segurança completa, “ainda está inseguro, em cerca de 80%”

A virada da era do desenvolvimento com IA

O autor descreve que “há ao mesmo tempo empolgação e vazio diante da realidade de conseguir criar isso em poucas horas”
No passado, acreditava que “a IA não poderia substituir desenvolvedores”, mas agora reconhece que não dá mais para negar essa possibilidade
Em conclusão, enfatiza: não hesite e tente construir você mesmo em um ambiente de desenvolvimento centrado em IA
Por fim, alerta que a gestão das chaves de API ainda deve ser responsabilidade do próprio usuário

Resumo: O Opus 4.5 é avaliado como um modelo no nível de um desenvolvedor de IA capaz de ir além do simples apoio à programação e projetar, implementar e fazer deploy de aplicações completas de forma autônoma. Por meio dessa experiência, o autor afirma ter vivenciado diretamente a possibilidade real de a IA substituir desenvolvedores humanos.

3 comentários

wegaia 2026-01-08

Quando pedi ao Opus 4.5 para corrigir uma única linha de código, ele simplesmente apagou por conta própria umas 10 linhas de configuração que estavam acima. Quando perguntei por que tinha apagado aquilo, ele disse que parecia ser código sem sentido, então removeu...

GN⁺ 2026-01-07

Opiniões do Hacker News

O trabalho de um engenheiro de nível intermediário não é simplesmente criar um app novo, mas projetar uma estrutura levando em conta escalabilidade e compreensibilidade
O Opus 4.5 lida bem com pedidos do tipo “crie um app”, mas, quando se tenta adicionar funcionalidades a um código existente como no trabalho real, ele usa abstrações estranhas ou precisa de várias revisões para chegar à qualidade desejada
Um não técnico pode pensar “se funciona, está bom”, mas um engenheiro sabe que isso não basta
- Existem duas formas de fazer “do jeito certo” — a forma adequada ao contexto e a forma como engenheiros costumam generalizar as coisas
  Lembro de discussões na equipe sobre qual era a “resposta certa”. No fim, precisou vir alguém de fora para lembrar o que realmente importava do ponto de vista do negócio
  Às vezes, o jeito realmente “certo” é fazer algo meio bagunçado, mas rápido, para validar se a direção está certa
  O problema surge quando se projeta demais desde o início ou, no extremo oposto, quando o gerente impede o refactoring. No fim, o essencial é o equilíbrio
- Quando vejo projetos assim, parece que bastaria fazer um fork de um conversor de imagens ou clone de Campo Minado já disponível no GitHub, então usar um LLM para isso só parece servir para remover questões de direitos autorais
- Algumas pessoas afirmam que “qualidade de código não importa mais”. Se passar nos testes hoje, já basta; se amanhã for preciso refatorar tudo, é só gastar mais créditos e gerar tudo de novo em algumas horas
- Fiquei surpreso ao ver como o Opus 4.5 segue bem os padrões idiomáticos de uma base de código existente
  Se você instruir explicitamente que ele leia o código adjacente, ele funciona muito melhor. Basta adicionar uma ou duas frases
- Ao adicionar funcionalidades a código existente, se você indicar diretamente a abstração desejada, ele vai funcionando bem de forma gradual
  Ainda assim, pessoalmente prefiro o GPT‑5.2
Muitos engenheiros estão subestimando o desempenho atual de agentes LLM como o Claude Code
Nossa equipe automatizou com Claude Code revisão de código, automação de ESLint, checklist de PR, sincronização de documentação e até checagem de cobertura de testes
Também automatizamos a triagem de tickets, então, quando o engenheiro começa a trabalhar, metade do trabalho já está feita
Há um repositório de exemplo em claude-code-showcase
Tenho certeza de que, por volta de 2026, isso será o fluxo de trabalho padrão da indústria
- Há uma grande diferença de experiência de uso de LLM entre frontend (React, HTML, mobile) e áreas de baixo nível (OpenGL, io_uring, libev etc.)
  O Opus 4.5 faz bem apps em JS, mas, se você pedir para implementar em C++ um algoritmo de sombras de um artigo de 2003, o resultado vira um desastre completo
  Mesmo alimentando com a análise de threading do Doom3 BFG por Fabien Sanglard, ele só gera código inútil
  No fim, não é que estejamos subestimando os LLMs, e sim que eles ainda não são práticos para isso, então estamos esperando
- Muita gente tentou programação com IA no começo e desistiu por causa de erros e frustração
  Mas o Opus 4.5 está um nível acima. Os erros são muito menos frequentes e, na maioria, são falhas pequenas
- Ensinando alunos na universidade, experimentei Cursor, Claude Code e Codex,
  e com IA concluí um projeto que levaria 2 semanas em 5 horas.
  Sem IA, eu provavelmente nem teria tentado
- É engraçado quando a IA coloca estrutura de diretórios no README; com o comando tree já dá para ver tudo
- Daqui para frente, a própria profissão de “programador” deve diminuir, e a capacidade de criar usando ferramentas vai se tornar mais importante
Usei bastante o Opus 4.5 e ele é excelente em análise de código complexo, mas ainda não tem capacidade de resolução de problemas no nível humano
Por exemplo, ele identifica corretamente um algoritmo de layout de grafos, mas não consegue corrigir sozinho o erro presente nele
É ótimo para análise de código e reforço de conhecimento, mas resolver problemas compostos ainda está além do que consegue fazer
- O Copilot tem limitações por causa de uma estrutura que corta contexto para economizar tokens
  Se você quer desempenho de verdade, precisa usar a API diretamente, e um único PR pode custar três dígitos
  Referência: models.dev
- É surpreendente que o Copilot conte o uso do Opus 4.5 como 3 vezes mais tokens; gastei metade da cota mensal em uma semana
- Mesmo usando IA apenas como ferramenta de análise de código, ela já tem muito valor
  Também gera documentação melhor que humanos e tende a ter taxa de erro menor
- O comportamento muda quando se usa via ferramentas de terceiros
  Recomendo experimentar diretamente no VS Code ou Cursor com assinatura do Claude Code
Durante o feriado fiz vários projetos com GPT‑5.x —
ferramenta de automação em Swift, integração de engine JIT para ARM, protótipo de sintetizador etc.
O GPT‑5.2 e a linha Codex são tão fortes quanto o Opus e chegam a montar um workflow inteiro de CI de uma vez
Para quem, como eu, tem o hábito de planejar e revisar código, isso é uma ferramenta de multiplicação de produtividade
- O GPT‑5.2 frequentemente alucinava a existência ou função de utilitários de CLI
  Foi preciso vasculhar o código-fonte real para confirmar os erros
- Ferramentas como Gemini 3 Pro (High), Antigravity, Amp e Junie também foram impressionantes
  Consegui concluir em 2 semanas uma biblioteca de bindings de Ratatui para Ruby
  O Antigravity executa vários agentes em paralelo para fazer compressão e gerenciamento automático de contexto
  Essas ferramentas avançadas oferecem uma experiência completamente diferente da versão gratuita
  Usando junto ferramentas Unix e a CLI do git, o contexto fica pequeno e a eficiência é maximizada
- LLMs são fortes em código backend e de CLI, mas ainda são fracos em áreas que exigem feedback visual, como frontend em HTML/CSS ou JS
  São bons com entrada e saída estruturadas, mas falham em partes que exigem “acabamento sensorial”
Recentemente percebi que os comentários negativos sobre LLMs no HN diminuíram bastante
Mas a maioria dos projetos compartilhados ainda para no nível de demonstração técnica
Acumular contexto, isto é, entender o que o usuário quer, continua sendo tarefa humana
Dá para criar vários apps em um fim de semana, mas quase ninguém quer fazer a manutenção depois
- A redução de comentários negativos pode ser porque as pessoas estão cansadas das discussões repetidas de “novo modelo 1000 vezes melhor”
- Também pode ser que quem está criando produtos monetizáveis esteja desenvolvendo em silêncio e não compartilhe nada
- Colocar algo em produção e manter exige um esforço enorme
  O Karpathy compartilhou experiência parecida — prototipar é fácil, mas fazer deploy é difícil
  Para ferramentas pessoais, dá para focar mais em resolver o problema do que em polimento
- Quanto mais a pessoa usa IA, mais tende a travar nos últimos 20%, onde é preciso pensamento integrador
  Quando se delega o pensamento à IA, a própria capacidade de pensar vai enfraquecendo
- No desenvolvimento de jogos, a regra 80/20 continua valendo
  Testar ideias ficou rápido, mas chegar a um produto acabado ainda exige paciência humana
No Opus 4.5, mais do que o conhecimento em si, o que melhorou muito foi a capacidade autônoma de resolver problemas
Se o problema estiver claramente definido, ele resolve quase tudo e até faz engenharia reversa
Ultimamente, em vez de codar diretamente, tenho escrito especificações e orientado o Opus a executar e melhorar
- Exemplos públicos incluem coding-agent-benchmark e
  projeto de engenharia reversa de jogo de C64
- Tenho curiosidade sobre como evitar excesso de arquitetura
- Para mim, usar o app web do Claude para rubber duck debugging é eficiente
  O Claude Code é poderoso por conseguir ver a base inteira, mas consome a cota rápido demais
  Por isso voltei para a versão web
- Eu também venho tocando quase todos os meus side projects assim ultimamente
Com o Opus 4.5 tentei fazer um interpretador JavaScript em Python, um runtime de WebAssembly e até um port de uma rotina de busca de strings em Rust para C
Fiz a maior parte dos experimentos no smartphone e os resultados foram surpreendentes
- Se esse “interpretador JS escrito em Python” for baseado no MQJS do Bellard, então a origem precisa ser indicada
  Referência: micro-javascript
- Ele ainda é fraco em problemas que exigem raciocínio visual, como algoritmo de caminho de slime mold
- Fiquei curioso com o resultado de “portar a rotina em Rust para C e deixá-la mais rápida”
- Pedi “escreva um interpretador de Python 3 em JavaScript” e fiquei surpreso que ele até fez os testes passarem
- Mas, recentemente, não senti tanta diferença assim. Os modelos parecem estagnados, e quem evoluiu foram os frameworks de agentes
  Vídeo de exemplo: link do Mastodon
O motivo real de um desenvolvedor ser contratado é a responsabilidade
Mesmo na época de copiar código do StackOverflow ou GitHub, as ferramentas já existiam,
mas, quando surgia um problema, quem respondia por isso no fim era uma pessoa
- Hoje, o mais importante é ter alguém que possa assumir a responsabilidade
  Se um colega confiável puder colocar o próprio nome no código gerado por IA, tudo bem
- Mas a indústria recompensa mais quem cria coisas novas do que responsabilidade
  A manutenção continua sendo tratada com descaso
- Agora, revisão de código em tempo real virou o modo padrão
  No fim de semana, fiz 80% de um SaaS com IA e escrevi manualmente apenas o núcleo
  Colei uma especificação de linguagem escrita há 22 anos, e o Opus completou parser e testes em 3 minutos
  Estamos chegando ao ponto em que precisamos nos adaptar à mudança como a indústria de mineração
- Por isso, para mim é mais confortável usar IA como editora e revisora do que como autora
  Eu escrevo o código, e a IA fica responsável por buscar problemas e sugerir testes
O Opus 4.5 está me ajudando a criar uma nova linguagem de programação
Discutimos até implementações de baixo nível e colaboramos quase como em pair programming
Mas, em codebases grandes, ainda é necessário o controle sistêmico de um humano
Caso contrário, o Opus altera a especificação ou tapa buracos com soluções provisórias
Não é algo milagroso, mas parece que será o ano mais produtivo da minha vida
Ao mesmo tempo, se esse tipo de tecnologia se popularizar, também espero um renascimento das pequenas comunidades web
- Talvez um dia a IA mantenha o código sozinha,
  mas, até lá, acho mais importante usar uma linguagem fácil para humanos entenderem
- Também há quem questione de forma cética se fazer esse tipo de coisa realmente tem sentido
- Houve até reação em tom de piada: “quem compraria esse romance?”
Quando pedi ao Opus 4.5 para “melhorar o projeto inteiro”, ele criou uma arquitetura sem sentido e um monte de bugs
É excelente para testes e detecção de bugs, mas se você delegar o design da estrutura geral, vai se arrepender
- Em vez disso, é mais eficiente pedir para ele “sugerir ideias de melhoria”, selecionar as boas e pedir ao Claude que explique antes de mandar implementar
- Ele funciona melhor quando você sabe claramente o que quer melhorar
  “Melhore qualquer coisa” é o pior prompt possível
- Casos assim são um bom exemplo das fraquezas do modelo
  Teve até um caso anterior em que alguém deixou um agente “melhorando” durante a noite e recebeu 100 mil linhas de código lixo
  Por isso, desenvolvimento guiado por planejamento é importante
  Referência: The Highest Quality Codebase
- A maioria dos modelos, incluindo o Opus, é fraca em melhorar código existente, mas boa em escrever código novo
- 90% das sugestões de code review da IA são inúteis, mas os 10% restantes pegam problemas de verdade
  Parece até que ela poderia continuar propondo mudanças para sempre, como um loop infinito

2026-01-07

[Este comentário foi ocultado.]