- A OpenAI lançou o Codex, um agente voltado para engenharia de software, capaz de automatizar tarefas repetitivas, escrita de código e sugestões de PR
- O Codex executa tarefas em um ambiente de sandbox isolado na nuvem, permitindo verificar os resultados com transparência por meio de testes e logs
- Com o arquivo AGENTS.md, é possível especificar convenções e métodos de teste de cada projeto para o Codex, otimizando-o para a base de código do usuário
- Uma versão CLI, o Codex CLI, também é oferecida, permitindo usar o agente em ambientes locais de desenvolvimento
- A distribuição inicial está disponível para ChatGPT Pro, Team e Enterprise, com expansão planejada para usuários Plus e Edu
Introducing Codex
O que é o Codex?
- O Codex é um agente de engenharia de software executado na nuvem, que pode ler a base de código do usuário e processar automaticamente várias tarefas
- Ele pode executar em paralelo adição de funcionalidades ao código, resposta a perguntas, correção de bugs e sugestões de PR
- Cada tarefa é executada de forma independente em um ambiente de sandbox isolado, com o repositório do usuário pré-carregado
Como funciona
- Pela barra lateral do ChatGPT, é possível iniciar tarefas com os comandos “Code” ou “Ask” no recurso Codex
- Ele pode ler e modificar arquivos, além de executar comandos como testes, linter e type checker
- As tarefas normalmente são concluídas em 1~30 minutos, com acompanhamento do progresso em tempo real
- Após a tarefa, o Codex gera um commit e explica as alterações com transparência, citando logs de terminal e saídas de teste
- Depois de revisar o resultado, é possível criar um PR no GitHub ou integrar diretamente
Arquivo AGENTS.md
- O AGENTS.md localizado no projeto orienta como o Codex deve navegar pela base de código e executar testes
- É um documento em formato semelhante ao README, podendo incluir estilo de código, comandos de execução e formato de mensagem de PR
- Arquivos em diretórios mais profundos têm prioridade, e todos os testes especificados devem ser executados
- O Codex também segue a regra de que prompts explícitos têm prioridade sobre o AGENTS.md
Desempenho em benchmarks internos
- No benchmark interno de SWE da OpenAI, o codex-1 alcançou alta precisão com até 192k tokens em configuração de dificuldade intermediária
- Mesmo sem AGENTS.md, ele apresenta alto desempenho e pode gerar resultados muito alinhados ao estilo de código escrito por humanos
Segurança e confiabilidade
- O Codex foi projetado com foco em maior transparência e segurança, permitindo verificar suas saídas
- Durante a execução das tarefas, a conexão com a internet é bloqueada, e ele só pode acessar o repositório e as dependências designadas
- Ele foi treinado para bloquear o desenvolvimento de código malicioso, ao mesmo tempo em que permite distinguir e realizar tarefas legítimas em nível de kernel
Casos de uso iniciais
-
Dentro da OpenAI, já está sendo usado em refatorações repetitivas, escrita de testes e documentação
-
Exemplos de parceiros externos:
- Cisco: aplicação em produtos reais, com testes e feedback
- Temporal: uso em depuração, execução de testes e refatoração de grandes bases de código
- Superhuman: suporte a QA e correção de falhas de integração, além de viabilizar pequenas alterações de código por PMs
- Kodiak: suporte à análise de código e ao desenvolvimento de ferramentas para tecnologia de direção autônoma
Atualização do Codex CLI
- O Codex CLI é um agente de codificação leve baseado em terminal, capaz de trabalhar localmente com os modelos o3 e o4-mini
- Nesta atualização, foi lançado o modelo codex-mini, baseado no o4-mini, com otimização para CLI e respostas de baixa latência
- Ao fazer login com a conta do ChatGPT, a chave de API é configurada automaticamente, e usuários Plus/Pro recebem créditos gratuitos
Preço e disponibilidade
- O Codex está disponível no momento para usuários Pro, Enterprise e Team, e em breve será expandido para Plus e Edu
- Inicialmente, ele pode ser usado sem custo adicional; depois, será adotado um modelo de precificação baseado em uso
codex-mini-latestcusta $1.50 por 1M de tokens de entrada e $6 por tokens de saída, com 75% de desconto em prompt caching
Planos futuros
- No longo prazo, o Codex deve evoluir para um agente colaborativo assíncrono
- Há planos de integração mais profunda com Codex CLI, ChatGPT Desktop, issue trackers e ferramentas de CI
- Devem ser adicionados recursos de feedback intermediário, discussão de estratégia de implementação e relatórios proativos de progresso
- A expectativa é de um futuro em que desenvolvedores consigam programar de forma mais rápida e focada com IA
Apêndice: resumo da system message do codex-1
- Verificar o estado do Git antes e depois da tarefa, mantendo-o sempre em estado com commit concluído
- Os procedimentos de validação no arquivo AGENTS.md devem ser executados integralmente, mesmo em alterações simples
- Ao criar PRs, há uma regra de citação baseada em arquivos/terminal (ex.:
【F:main.py†L12】) - É proibido citar conteúdo de PRs anteriores ou comentários; apenas arquivos e resultados de terminal podem ser usados
Essa system message é usada para entender o comportamento padrão do modelo ao personalizar o Codex.
2 comentários
Finalmente surgiu um agente de próxima geração que pode ser distinguido da geração de
cursor,clinee afins. Fico na expectativa de quão mais rápida a velocidade das mudanças de software no mundo vai se tornar. E também do surgimento da próxima geração desse agente.Comentários do Hacker News
Compartilhando a experiência de participar do teste alfa do Codex na Assembled junto com alguns engenheiros da nossa equipe. Como já usávamos há bastante tempo agentes locais como Cursor e Claude Code, eu não tinha grandes expectativas, mas a capacidade do Codex de executar trabalhos em paralelo foi impressionante. Dá para agrupar várias tarefas de refatoração, testes e boilerplate de uma vez e executá-las simultaneamente sem troca de contexto. As soluções anteriores tinham dificuldade com isso, mas no Codex, se você atribui uma tarefa a um arquivo ou função, ele cuida automaticamente da maior parte do scaffolding do PR, dando a sensação de ter um júnior infinito. Ainda assim, para colocar algo em produção, continua sendo necessário bastante pós-processamento. A qualidade do modelo é boa, mas, comparando lado a lado com Cursor, Gemini 2.5-pro etc., ainda não há vantagem clara em estilo, lógica ou clareza de nomes; a impressão é de que ele apenas “atende” às expectativas
Se não vamos contratar engenheiros juniores para esse tipo de trabalho, de onde virão os engenheiros sêniores do futuro? Minha filha se formou recentemente em ciência da computação em uma boa universidade, e a realidade do mercado é que há muito mais demanda por engenheiros sêniores do que por vagas de nível inicial. Recentemente, quando a empresa abriu uma vaga júnior, recebemos tantas candidaturas que ficou difícil até fazer uma avaliação justa. No fim, os amigos dela que conseguiram emprego em geral foi por networking
Agora há milhões de engenheiros contribuindo para o open source no GitHub, e talentos excepcionais usam esse código para desenvolver modelos de IA e depois substituir esses mesmos engenheiros: um ciclo curioso. Menciona-se o dilema essencial de que, quanto mais aumenta a contribuição para open source, mais fácil se torna substituir os trabalhos relacionados. Pergunta-se se, com o tempo, a motivação para contribuir com open source não vai enfraquecer. Achávamos que fazíamos trabalho criativo, mas na prática passamos a maior parte do tempo combinando conhecimento repetitivo e previsível, e a IA é muito boa em substituir esse tipo de tarefa. Em uma visão otimista, no longo prazo teremos de criar trabalhos mais interessantes, mas no futuro próximo são esperados anos de grande sofrimento por excesso de oferta e falta de demanda para engenheiros de software
Levanta-se a dúvida sobre por que a execução paralela de tarefas do Codex é importante. Na prática, o LLM leva apenas alguns segundos para escrever código, e o que realmente consome tempo é a especificação da tarefa e a etapa de revisão/correção. Fica a curiosidade sobre qual é o ganho real de paralelizar justamente a parte mais rápida
Como desenvolvedores juniores não têm autonomia completa, acaba-se gastando bastante tempo gerenciando-os e fazendo code review. Mesmo com muitos juniores, esse custo de gestão costuma virar gargalo. Fica a curiosidade se lidar com muitos desenvolvedores virtuais como o Codex não se torna pesado também, ou se ele tem autonomia alta na prática
Na visão de quem usa Cursor e Claude Code há bastante tempo, quais são os pontos fortes e fracos do Claude Code, e se, em comparação com ele, a execução paralela do Codex realmente fez grande diferença. Como o Codex CLI lançado recentemente ficou abaixo das expectativas, há interesse na experiência e nos insights da equipe com Claude Code
No vídeo de preview do Codex da OpenAI, concordância com a fala de Katy Shi de que “o trabalho de engenharia está migrando de escrever código para revisar código”. Observa-se que, na era de adoção plena da IA, os desenvolvedores ainda continuam presos à leitura de código e testes. Se o conceito relativamente novo de simulação for introduzido, especialmente no front-end, será possível prever resultados diversos melhor do que apenas olhando código/testes. Tenho explorado esse tema recentemente e senti isso ao ver os materiais de lançamento do Codex
Isso é parecido com minha tese relacionada ao Graphite. Na era da geração massiva de código por IA, revisão, testes e integração se tornam o núcleo. Também estamos construindo um sistema de code review com IA, mas a necessidade de revisão humana será permanente, fundamentalmente por causa da responsabilidade. Computadores jamais podem ser responsabilizados
Pergunta-se se a expressão “ver a simulação” significa usar uma suíte de testes automatizada
Como coautor do SWE-bench, é interessante ver que o Codex mostra uma leve melhora mesmo em relação aos resultados já fortes do o3. Fica a curiosidade se elevar a métrica Verified de 75% para 85% exigirá tanto tempo quanto foi necessário para ir de 20% para 75%
Há a percepção de que existe otimização excessiva para benchmarks relacionados ao swe-bench, e são compartilhados resultados diversos como multi-swe-bench, swe polybench e kotlin bench
Levanta-se a curiosidade sobre quanto tempo levou para chegar de 20% a 75%
Sou assinante da versão Pro, mas sempre que tento experimentar o Codex sou levado para a página de pagamento do plano Teams. Fico em dúvida se ele ainda não foi aberto oficialmente ou se estou deixando passar alguma coisa. Uso os produtos da OpenAI há bastante tempo e realmente quero testar o Codex
Algo parecido acontece a cada grande atualização; é difícil entender
Estou em situação parecida; parece que ficou disponível para mim há alguns minutos, então imagino que o lançamento esteja sendo gradual
Ainda há aviso de que o lançamento continua gradual
Na live stream houve menção a "microVM". Não há acesso a navegador/internet, e o uso de microkernels como Firecracker/Unikraft permitiria escalar com rapidez e baixo custo. Mas prevê-se uma grande barreira técnica para passar disso para ambientes completos de computador isolados por agente. O ChatGPT Operator já oferece acesso ao navegador, então tecnicamente parece possível, mas a escala de demanda deve ser diferente. Há bastante espaço para surgir uma empresa de infraestrutura que forneça ambientes completos de PC voltados para IA, com suporte a fork/snapshot/screen/human-in-the-loop etc. Por enquanto, a implementação ainda parece restrita a capacidades parciais, como uso do navegador
Quando eu trabalhava em banco, o jurídico frequentemente pedia pequenas mudanças no app; agora parece que talvez eles consigam fazer isso sozinhos. Imagino que o jurídico ficará muito orgulhoso
Sem execução/teste de código e code review, é arriscado dar ao jurídico permissão para alterar código; no fim, provavelmente ninguém fará isso
No futuro, o bug tracking deve mudar bastante. Qualquer pessoa da organização poderá registrar um issue ou solicitar uma funcionalidade, e o modelo responderá automaticamente; se não der certo, um humano intervém. No fim, julgar “que mudança de código é legalmente válida e está de acordo com os padrões da empresa” deve emergir cada vez mais como papel central de revisores não técnicos
Na prática, fica a promessa de que o jurídico não vai alterar código diretamente
Preocupação com privacidade, opt-out de dados de treinamento e riscos que podem surgir ao competir com modelos criados por meio da plataforma. Fica a dúvida se é justo dizer “você não pode usar na concorrência o resultado que você mesmo produziu”. Talvez essa visão seja pessimista demais. Levanta-se a questão de impedir que a OpenAI use, para competir conosco, as informações que criamos
Relato de problema ao usar o recurso "secrets": ele é injetado corretamente na configuração do ambiente, mas não funciona na execução real das tarefas, e o problema é sempre reproduzido mesmo após redefinir o ambiente
Preocupação de que, se o Codex funcionar apenas na nuvem, o código possa ser automaticamente commitado e enviado por push sem me dar tempo para revisar internamente. No aider, prefiro o fluxo em que faço o commit, depois
git reset HEAD^egit diffpara verificar pessoalmente as mudanças, fazer os ajustes necessários e só então dar commit e pushSe você vai desfazer o commit imediatamente de qualquer forma, recomendam a opção
--no-auto-commitsdo AiderEm termos simples, o Codex é a versão gerenciada em nuvem do antigo Codex CLI; o principal é o novo modelo em si, e espera-se que ele também seja oferecido via API em breve
Na live stream, foi informado que o diff aparece imediatamente após a conclusão da tarefa, e só depois de revisar o diff é possível decidir criar um GitHub PR
Pergunta sobre como as empresas enxergam compartilhar seu codebase com fornecedores de IA, ou se usam esse tipo de ferramenta apenas em instalações locais
É muito comum empresas compartilharem código com SaaS, e em geral elas impedem uso arbitrário por meio de contratos separados
Para a maioria das empresas, seu código tem valor significativo apenas para a própria empresa
A ideia é que uma empresa como a OpenAI não assumiria o risco de olhar meu código à toa; não valeria o risco jurídico
No fim, tudo isso também é uma troca entre custo e benefício; se o ganho for grande, compartilhar pode valer a pena
O Cursor tem um modo enterprise com recursos para impor privacidade de dados