OpenAI lança preview de pesquisa do Codex, agente de código baseado em nuvem

(openai.com)

8 pontos por GN⁺ 2025-05-17 | 2 comentários | Compartilhar no WhatsApp

A OpenAI lançou o Codex, um agente voltado para engenharia de software, capaz de automatizar tarefas repetitivas, escrita de código e sugestões de PR
O Codex executa tarefas em um ambiente de sandbox isolado na nuvem, permitindo verificar os resultados com transparência por meio de testes e logs
Com o arquivo AGENTS.md, é possível especificar convenções e métodos de teste de cada projeto para o Codex, otimizando-o para a base de código do usuário
Uma versão CLI, o Codex CLI, também é oferecida, permitindo usar o agente em ambientes locais de desenvolvimento
A distribuição inicial está disponível para ChatGPT Pro, Team e Enterprise, com expansão planejada para usuários Plus e Edu

Introducing Codex

O que é o Codex?

O Codex é um agente de engenharia de software executado na nuvem, que pode ler a base de código do usuário e processar automaticamente várias tarefas
Ele pode executar em paralelo adição de funcionalidades ao código, resposta a perguntas, correção de bugs e sugestões de PR
Cada tarefa é executada de forma independente em um ambiente de sandbox isolado, com o repositório do usuário pré-carregado

Como funciona

Pela barra lateral do ChatGPT, é possível iniciar tarefas com os comandos “Code” ou “Ask” no recurso Codex
Ele pode ler e modificar arquivos, além de executar comandos como testes, linter e type checker
As tarefas normalmente são concluídas em 1~30 minutos, com acompanhamento do progresso em tempo real
Após a tarefa, o Codex gera um commit e explica as alterações com transparência, citando logs de terminal e saídas de teste
Depois de revisar o resultado, é possível criar um PR no GitHub ou integrar diretamente

Arquivo AGENTS.md

O AGENTS.md localizado no projeto orienta como o Codex deve navegar pela base de código e executar testes
É um documento em formato semelhante ao README, podendo incluir estilo de código, comandos de execução e formato de mensagem de PR
Arquivos em diretórios mais profundos têm prioridade, e todos os testes especificados devem ser executados
O Codex também segue a regra de que prompts explícitos têm prioridade sobre o AGENTS.md

Desempenho em benchmarks internos

No benchmark interno de SWE da OpenAI, o codex-1 alcançou alta precisão com até 192k tokens em configuração de dificuldade intermediária
Mesmo sem AGENTS.md, ele apresenta alto desempenho e pode gerar resultados muito alinhados ao estilo de código escrito por humanos

Segurança e confiabilidade

O Codex foi projetado com foco em maior transparência e segurança, permitindo verificar suas saídas
Durante a execução das tarefas, a conexão com a internet é bloqueada, e ele só pode acessar o repositório e as dependências designadas
Ele foi treinado para bloquear o desenvolvimento de código malicioso, ao mesmo tempo em que permite distinguir e realizar tarefas legítimas em nível de kernel

Casos de uso iniciais

Dentro da OpenAI, já está sendo usado em refatorações repetitivas, escrita de testes e documentação
Exemplos de parceiros externos:
- Cisco: aplicação em produtos reais, com testes e feedback
- Temporal: uso em depuração, execução de testes e refatoração de grandes bases de código
- Superhuman: suporte a QA e correção de falhas de integração, além de viabilizar pequenas alterações de código por PMs
- Kodiak: suporte à análise de código e ao desenvolvimento de ferramentas para tecnologia de direção autônoma

Atualização do Codex CLI

O Codex CLI é um agente de codificação leve baseado em terminal, capaz de trabalhar localmente com os modelos o3 e o4-mini
Nesta atualização, foi lançado o modelo codex-mini, baseado no o4-mini, com otimização para CLI e respostas de baixa latência
Ao fazer login com a conta do ChatGPT, a chave de API é configurada automaticamente, e usuários Plus/Pro recebem créditos gratuitos

Preço e disponibilidade

O Codex está disponível no momento para usuários Pro, Enterprise e Team, e em breve será expandido para Plus e Edu
Inicialmente, ele pode ser usado sem custo adicional; depois, será adotado um modelo de precificação baseado em uso
codex-mini-latest custa $1.50 por 1M de tokens de entrada e $6 por tokens de saída, com 75% de desconto em prompt caching

Planos futuros

No longo prazo, o Codex deve evoluir para um agente colaborativo assíncrono
Há planos de integração mais profunda com Codex CLI, ChatGPT Desktop, issue trackers e ferramentas de CI
Devem ser adicionados recursos de feedback intermediário, discussão de estratégia de implementação e relatórios proativos de progresso
A expectativa é de um futuro em que desenvolvedores consigam programar de forma mais rápida e focada com IA

Apêndice: resumo da system message do codex-1

Verificar o estado do Git antes e depois da tarefa, mantendo-o sempre em estado com commit concluído
Os procedimentos de validação no arquivo AGENTS.md devem ser executados integralmente, mesmo em alterações simples
Ao criar PRs, há uma regra de citação baseada em arquivos/terminal (ex.: 【F:main.py†L12】)
É proibido citar conteúdo de PRs anteriores ou comentários; apenas arquivos e resultados de terminal podem ser usados

Essa system message é usada para entender o comportamento padrão do modelo ao personalizar o Codex.

2 comentários

fortune 2025-05-18

Finalmente surgiu um agente de próxima geração que pode ser distinguido da geração de cursor, cline e afins. Fico na expectativa de quão mais rápida a velocidade das mudanças de software no mundo vai se tornar. E também do surgimento da próxima geração desse agente.

GN⁺ 2025-05-17

Comentários do Hacker News

Compartilhando a experiência de participar do teste alfa do Codex na Assembled junto com alguns engenheiros da nossa equipe. Como já usávamos há bastante tempo agentes locais como Cursor e Claude Code, eu não tinha grandes expectativas, mas a capacidade do Codex de executar trabalhos em paralelo foi impressionante. Dá para agrupar várias tarefas de refatoração, testes e boilerplate de uma vez e executá-las simultaneamente sem troca de contexto. As soluções anteriores tinham dificuldade com isso, mas no Codex, se você atribui uma tarefa a um arquivo ou função, ele cuida automaticamente da maior parte do scaffolding do PR, dando a sensação de ter um júnior infinito. Ainda assim, para colocar algo em produção, continua sendo necessário bastante pós-processamento. A qualidade do modelo é boa, mas, comparando lado a lado com Cursor, Gemini 2.5-pro etc., ainda não há vantagem clara em estilo, lógica ou clareza de nomes; a impressão é de que ele apenas “atende” às expectativas
- Se não vamos contratar engenheiros juniores para esse tipo de trabalho, de onde virão os engenheiros sêniores do futuro? Minha filha se formou recentemente em ciência da computação em uma boa universidade, e a realidade do mercado é que há muito mais demanda por engenheiros sêniores do que por vagas de nível inicial. Recentemente, quando a empresa abriu uma vaga júnior, recebemos tantas candidaturas que ficou difícil até fazer uma avaliação justa. No fim, os amigos dela que conseguiram emprego em geral foi por networking
- Agora há milhões de engenheiros contribuindo para o open source no GitHub, e talentos excepcionais usam esse código para desenvolver modelos de IA e depois substituir esses mesmos engenheiros: um ciclo curioso. Menciona-se o dilema essencial de que, quanto mais aumenta a contribuição para open source, mais fácil se torna substituir os trabalhos relacionados. Pergunta-se se, com o tempo, a motivação para contribuir com open source não vai enfraquecer. Achávamos que fazíamos trabalho criativo, mas na prática passamos a maior parte do tempo combinando conhecimento repetitivo e previsível, e a IA é muito boa em substituir esse tipo de tarefa. Em uma visão otimista, no longo prazo teremos de criar trabalhos mais interessantes, mas no futuro próximo são esperados anos de grande sofrimento por excesso de oferta e falta de demanda para engenheiros de software
- Levanta-se a dúvida sobre por que a execução paralela de tarefas do Codex é importante. Na prática, o LLM leva apenas alguns segundos para escrever código, e o que realmente consome tempo é a especificação da tarefa e a etapa de revisão/correção. Fica a curiosidade sobre qual é o ganho real de paralelizar justamente a parte mais rápida
- Como desenvolvedores juniores não têm autonomia completa, acaba-se gastando bastante tempo gerenciando-os e fazendo code review. Mesmo com muitos juniores, esse custo de gestão costuma virar gargalo. Fica a curiosidade se lidar com muitos desenvolvedores virtuais como o Codex não se torna pesado também, ou se ele tem autonomia alta na prática
- Na visão de quem usa Cursor e Claude Code há bastante tempo, quais são os pontos fortes e fracos do Claude Code, e se, em comparação com ele, a execução paralela do Codex realmente fez grande diferença. Como o Codex CLI lançado recentemente ficou abaixo das expectativas, há interesse na experiência e nos insights da equipe com Claude Code
No vídeo de preview do Codex da OpenAI, concordância com a fala de Katy Shi de que “o trabalho de engenharia está migrando de escrever código para revisar código”. Observa-se que, na era de adoção plena da IA, os desenvolvedores ainda continuam presos à leitura de código e testes. Se o conceito relativamente novo de simulação for introduzido, especialmente no front-end, será possível prever resultados diversos melhor do que apenas olhando código/testes. Tenho explorado esse tema recentemente e senti isso ao ver os materiais de lançamento do Codex
- Isso é parecido com minha tese relacionada ao Graphite. Na era da geração massiva de código por IA, revisão, testes e integração se tornam o núcleo. Também estamos construindo um sistema de code review com IA, mas a necessidade de revisão humana será permanente, fundamentalmente por causa da responsabilidade. Computadores jamais podem ser responsabilizados
- Pergunta-se se a expressão “ver a simulação” significa usar uma suíte de testes automatizada
Como coautor do SWE-bench, é interessante ver que o Codex mostra uma leve melhora mesmo em relação aos resultados já fortes do o3. Fica a curiosidade se elevar a métrica Verified de 75% para 85% exigirá tanto tempo quanto foi necessário para ir de 20% para 75%
- Há a percepção de que existe otimização excessiva para benchmarks relacionados ao swe-bench, e são compartilhados resultados diversos como multi-swe-bench, swe polybench e kotlin bench
- Levanta-se a curiosidade sobre quanto tempo levou para chegar de 20% a 75%
Sou assinante da versão Pro, mas sempre que tento experimentar o Codex sou levado para a página de pagamento do plano Teams. Fico em dúvida se ele ainda não foi aberto oficialmente ou se estou deixando passar alguma coisa. Uso os produtos da OpenAI há bastante tempo e realmente quero testar o Codex
- Algo parecido acontece a cada grande atualização; é difícil entender
- Estou em situação parecida; parece que ficou disponível para mim há alguns minutos, então imagino que o lançamento esteja sendo gradual
- Ainda há aviso de que o lançamento continua gradual
Na live stream houve menção a "microVM". Não há acesso a navegador/internet, e o uso de microkernels como Firecracker/Unikraft permitiria escalar com rapidez e baixo custo. Mas prevê-se uma grande barreira técnica para passar disso para ambientes completos de computador isolados por agente. O ChatGPT Operator já oferece acesso ao navegador, então tecnicamente parece possível, mas a escala de demanda deve ser diferente. Há bastante espaço para surgir uma empresa de infraestrutura que forneça ambientes completos de PC voltados para IA, com suporte a fork/snapshot/screen/human-in-the-loop etc. Por enquanto, a implementação ainda parece restrita a capacidades parciais, como uso do navegador
- O E2B Desktop já oferece essa funcionalidade, e são compartilhados links de demo e SDK
Quando eu trabalhava em banco, o jurídico frequentemente pedia pequenas mudanças no app; agora parece que talvez eles consigam fazer isso sozinhos. Imagino que o jurídico ficará muito orgulhoso
- Sem execução/teste de código e code review, é arriscado dar ao jurídico permissão para alterar código; no fim, provavelmente ninguém fará isso
- No futuro, o bug tracking deve mudar bastante. Qualquer pessoa da organização poderá registrar um issue ou solicitar uma funcionalidade, e o modelo responderá automaticamente; se não der certo, um humano intervém. No fim, julgar “que mudança de código é legalmente válida e está de acordo com os padrões da empresa” deve emergir cada vez mais como papel central de revisores não técnicos
- Na prática, fica a promessa de que o jurídico não vai alterar código diretamente
Preocupação com privacidade, opt-out de dados de treinamento e riscos que podem surgir ao competir com modelos criados por meio da plataforma. Fica a dúvida se é justo dizer “você não pode usar na concorrência o resultado que você mesmo produziu”. Talvez essa visão seja pessimista demais. Levanta-se a questão de impedir que a OpenAI use, para competir conosco, as informações que criamos
- No vídeo, é informado que há uma opção explícita para escolher diretamente se o repositório pode ou não ser usado para treinamento
Relato de problema ao usar o recurso "secrets": ele é injetado corretamente na configuração do ambiente, mas não funciona na execução real das tarefas, e o problema é sempre reproduzido mesmo após redefinir o ambiente
Preocupação de que, se o Codex funcionar apenas na nuvem, o código possa ser automaticamente commitado e enviado por push sem me dar tempo para revisar internamente. No aider, prefiro o fluxo em que faço o commit, depois git reset HEAD^ e git diff para verificar pessoalmente as mudanças, fazer os ajustes necessários e só então dar commit e push
- Se você vai desfazer o commit imediatamente de qualquer forma, recomendam a opção --no-auto-commits do Aider
- Em termos simples, o Codex é a versão gerenciada em nuvem do antigo Codex CLI; o principal é o novo modelo em si, e espera-se que ele também seja oferecido via API em breve
- Na live stream, foi informado que o diff aparece imediatamente após a conclusão da tarefa, e só depois de revisar o diff é possível decidir criar um GitHub PR
Pergunta sobre como as empresas enxergam compartilhar seu codebase com fornecedores de IA, ou se usam esse tipo de ferramenta apenas em instalações locais
- É muito comum empresas compartilharem código com SaaS, e em geral elas impedem uso arbitrário por meio de contratos separados
- Para a maioria das empresas, seu código tem valor significativo apenas para a própria empresa
- A ideia é que uma empresa como a OpenAI não assumiria o risco de olhar meu código à toa; não valeria o risco jurídico
- No fim, tudo isso também é uma troca entre custo e benefício; se o ganho for grande, compartilhar pode valer a pena
- O Cursor tem um modo enterprise com recursos para impor privacidade de dados