Lançamento do GPT‑5.2
(openai.com)- GPT‑5.2 é a série de modelos de IA mais poderosa para trabalho de conhecimento especializado, com melhorias em escrita de código, reconhecimento de imagem e execução de projetos complexos
- Na avaliação GDPval, igualou ou superou especialistas da indústria em 70,9% das tarefas de trabalho de conhecimento em 44 profissões, sendo 11 vezes mais rápido e com custo inferior a 1%
- Alcançou o melhor desempenho em benchmarks importantes como SWE‑Bench Pro 55.6%, GPQA Diamond 92.4% e ARC‑AGI‑1 86.2%
- Mostra grandes avanços em relação ao GPT‑5.1 em compreensão de contexto longo (256k tokens), processamento de informação visual e uso de ferramentas (98.7%)
- Será disponibilizado gradualmente no ChatGPT e na API, com foco em maior produtividade e confiabilidade para especialistas
Visão geral do GPT‑5.2
- O GPT‑5.2 é uma série de modelos de IA para trabalho de conhecimento especializado, com capacidades reforçadas para criação de planilhas, produção de apresentações, escrita de código, reconhecimento de imagem, compreensão de textos longos, uso de ferramentas e execução de projetos complexos
- Usuários do ChatGPT Enterprise já economizam em média de 40 a 60 minutos por dia, mais de 10 horas por semana, e o GPT‑5.2 amplia ainda mais essa eficiência
- No ChatGPT, é oferecido em três versões: Instant, Thinking e Pro; na API, fica disponível imediatamente para desenvolvedores
Desempenho do modelo
- GPT‑5.2 Thinking foi o primeiro a atingir desempenho de nível especialista ou superior na avaliação GDPval
- Igualou ou superou especialistas em 70,9% das tarefas de trabalho de conhecimento em 44 profissões
- É 11 vezes mais rápido que especialistas e custa menos de 1%
- Em avaliação interna, a pontuação em tarefas de modelagem de planilhas para análise de banco de investimento melhorou 9,3% em relação ao GPT‑5.1 (59.1% → 68.4%)
- SWE‑Bench Pro 55.6% e SWE‑Bench Verified 80% indicam melhora no desempenho em engenharia de software
- Executa com mais estabilidade tarefas reais de depuração de código, implementação de funcionalidades, refatoração e implantação
- Também melhorou em desenvolvimento frontend e trabalhos de UI 3D em relação ao GPT‑5.1
- A taxa de respostas erradas caiu 30%, reduzindo a frequência de alucinações (hallucinations)
Compreensão de contexto longo e percepção visual
- Na avaliação OpenAI MRCRv2, registrou o melhor resultado em compreensão integrada de documentos longos
- Alcança quase 100% de precisão com até 256k tokens
- É adequado para análise de relatórios, contratos, artigos científicos e outros documentos extensos
- Compatível com o endpoint
/compact, dando suporte a workflows com contexto expandido - A melhora na percepção visual reduziu pela metade a taxa de erro em gráficos, dashboards e capturas de tela de UI
- Houve reforço na capacidade de entender a disposição espacial dos elementos dentro da imagem
Uso de ferramentas e tarefas compostas
- Registrou o melhor resultado em uso de ferramentas com Tau2‑bench Telecom 98.7%
- Reforçou a capacidade de executar workflows end-to-end com múltiplas etapas, como atendimento ao cliente, coleta de dados, análise e geração de resultados
- Exemplo: processar por completo procedimentos complexos de atendimento, como atraso de voo, conexão e solicitação de compensação
Capacidades em ciência, matemática e raciocínio
- Obteve os melhores resultados em benchmarks acadêmicos importantes com GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2% e ARC‑AGI‑2 52.9%
- O GPT‑5.2 Pro ultrapassou 90% no ARC‑AGI‑1, com eficiência de custo 390 vezes maior
- GPT‑5.2 Pro e Thinking podem ser usados para acelerar a pesquisa científica
- Foi apresentado um caso real em que sugeriu uma prova de teoria estatística e ela foi validada
Experiência de uso no ChatGPT
- GPT‑5.2 Instant: oferece respostas rápidas e explicações claras, para aprendizado e tarefas do dia a dia
- GPT‑5.2 Thinking: adequado para tarefas complexas como escrita de código, resumo de textos longos, resolução de problemas matemáticos e lógicos, e planejamento
- GPT‑5.2 Pro: fornece respostas de alta confiabilidade para perguntas difíceis, com menor taxa de erro
Reforço de segurança
- O GPT‑5.2, com base na pesquisa de Safe Completion do GPT‑5, melhorou as respostas em conversas relacionadas a suicídio, saúde mental e dependência emocional
- Em comparação com o GPT‑5.1, a taxa de respostas inadequadas diminuiu
- Foi introduzido um modelo de previsão de idade para restringir o acesso de usuários menores de 18 anos a conteúdo sensível
- Também estão em andamento melhorias para o problema de recusa excessiva (over‑refusal) no ChatGPT
Preço e forma de disponibilidade
- Disponibilização gradual começando pelos planos pagos do ChatGPT (Plus, Pro, Business, Enterprise)
- Na API, será oferecido como
gpt‑5.2,gpt‑5.2‑chat‑latestegpt‑5.2‑pro - Preço: $1.75 por 1 milhão de tokens de entrada, $14 por 1 milhão de tokens de saída, com 90% de desconto em entrada em cache
- Embora o preço unitário seja maior que o do GPT‑5.1, o custo total é reduzido pela melhora na eficiência de tokens
- O GPT‑5.1 será mantido por 3 meses antes de ser descontinuado gradualmente
- Uma versão otimizada para Codex será lançada posteriormente
Parceria tecnológica
- O GPT‑5.2 foi desenvolvido em colaboração com NVIDIA e Microsoft
- Utiliza infraestrutura de data centers Azure e GPUs H100, H200, GB200‑NVL72
- Isso dá suporte à eficiência de treinamento em larga escala e à melhoria da inteligência do modelo
Resumo dos principais benchmarks
- GDPval: 70.9% (GPT‑5.1 38.8%)
- SWE‑Bench Verified: 80.0%
- OpenAI MRCRv2 (256k) : 77.0%
- CharXiv Reasoning (w/ Python) : 88.7%
- Tau2‑bench Telecom: 98.7%
- ARC‑AGI‑1 (Verified) : 86.2%
- AIME 2025: 100%
- FrontierMath Tier 1–3: 40.3%
O GPT‑5.2 supera amplamente a geração anterior em inteligência, confiabilidade e produtividade, consolidando-se como uma IA de suporte profissional em nível especialista.
1 comentários
Comentários do Hacker News
Nos últimos meses venho usando o ChatGPT pago para praticamente tudo: programação, notícias, análise de ações e resolução de problemas do dia a dia
Mas, depois que o Gemini 3 foi lançado, experimentei e ele entrega resultados muito melhores em todos os casos de uso
Ele se destacou especialmente na busca por informações atualizadas que exigem integração com busca na web. O OCR também é excelente e reconhece bem até a minha letra horrível
Só que o app tem muitos bugs, a sessão cai com frequência e também há erros no upload de fotos.
O que mais me incomoda é que todos os links passam pela busca do Google, então é preciso editar para ir direto ao site.
No geral, cheguei à conclusão de que o ChatGPT fica para trás em capacidade de integração com busca e vai ser difícil alcançar
É num nível em que até interromper já faz os dados sumirem, bem aquela sensação de produto inacabado típico do Google
A ideia do modo de voz é boa, mas ele quebra com frequência e repete perguntas do nada
O ChatGPT abre PDFs e capturas de tela e os usa como entrada de OCR, mas o Gemini ignora isso
Mas hoje em dia o navegador já lida com isso por conta própria, então não há necessidade de enviar os dados de clique para o Google
Dá para trocar pelo link direto sem problema
O Opus 4.5 tem qualidade melhor, mas as restrições de uso são tão fortes que estou pensando em manter várias assinaturas ao mesmo tempo
Como eu uso mais os recursos de voz do que OCR, isso é fatal para mim
Também não entendo a afirmação de que “a integração com busca é um ponto forte”. Queria ver exemplos em que o ChatGPT realmente foi pior em buscar informações recentes
Não aparece no anúncio do blog, mas na prática o tamanho da janela de contexto é de 400 mil tokens
Isso está explícito na documentação oficial
Também disseram que a capacidade de usar o contexto inteiro melhorou, então estou animado
Eu estava usando o Codex 5.1 em um projeto Rust/CUDA e mudei para o Gemini 3; no começo fiquei impressionado porque ele encontrava bugs muito bem, mas logo quase enlouqueci com ignorando comandos, saída quebrada e processo de raciocínio opaco
Quando voltei para o Codex, ele estava estável e incorporava bem o feedback. Agora ainda saiu o modo xhigh do GPT‑5.2, então parece até presente de Natal
Sinto falta da cultura antiga de fóruns em que se discutiam honestamente os problemas e as soluções
Vejo muitos desenvolvedores misturando todos os assuntos numa mesma sessão — culinária, presentes, programação etc. — e depois recebendo respostas esquisitas
Como os LLMs continuam recebendo o contexto da conversa inteira, é preciso começar um novo chat para cada tema
Caso contrário, você acaba ouvindo algo como “o que a minha esposa acha de variáveis globais”
Apps como Cursor ou ChatGPT provavelmente são difíceis de entender
Se você não conhece o conceito de janela de contexto, pode achar que a IA é burra. Acho que é por isso que muita gente subestima a IA
Além disso, como não dá para saber se o modelo está em teste A/B ou limitando tokens de raciocínio, fica difícil confiar
Para separar totalmente, é preciso desativar essa opção
Na imagem da placa-mãe, a posição da RAM, do slot PCIe e da DisplayPort está toda errada
Link da imagem
Fico me perguntando por que usaram isso como imagem promocional
No benchmark Extended NYT Connections, a versão de alto raciocínio do GPT‑5.2 subiu de 69.9 para 77.9
Link do benchmark
As versões de raciocínio médio e baixo também melhoraram, mas o Gemini 3 Pro e o Grok 4.1 Fast Reasoning ainda ficam acima
O teste do “pelicano andando de bicicleta” é interessante
Exemplo de imagem
A melhora na pontuação do ARC‑AGI‑2 é impressionante. Parece que a capacidade de generalização melhorou muito
Os modelos anteriores davam a sensação de overfitting, mas agora a autocorreção (self-correction) funciona bem
Se esse nível de melhora é possível sem um novo datacenter nem uma grande expansão do modelo, o futuro parece promissor
Agora sinto que a experiência do usuário é mais importante do que benchmark
O motivo de eu continuar assinando o ChatGPT é o recurso de organizar conversas por projeto
Mas em todas as plataformas, em comum, elas
precisam resolver esses problemas básicos de usabilidade
Por isso os benchmarks acabam virando uma espécie de jogo de gato e rato
Parece que no r/Codex estão censurando posts de reclamação, então vou falar francamente aqui
Ficou mais rápido, mas ainda é mais lento que o Opus 4.5, e comparado ao 5.1 a melhora percebida é quase nula
O custo por token subiu 40%, mas não senti que vale a pena
O Gemini 3 é gratuito e está no nível do ChatGPT Pro, e o Claude Code de US$ 100/mês também é forte
Parece que a OpenAI está enfrentando uma crise existencial
O fato de o “knowledge cutoff ser agosto de 2025” junto com o aumento de preço parece indicar um novo modelo de pré-treinamento (pretrain)
Dizia-se que o GPT‑5.1 usava o mesmo pré-treinamento do GPT‑4o