Lançamento do GPT‑5.2

(openai.com)

5 pontos por GN⁺ 2025-12-12 | 1 comentários | Compartilhar no WhatsApp

GPT‑5.2 é a série de modelos de IA mais poderosa para trabalho de conhecimento especializado, com melhorias em escrita de código, reconhecimento de imagem e execução de projetos complexos
Na avaliação GDPval, igualou ou superou especialistas da indústria em 70,9% das tarefas de trabalho de conhecimento em 44 profissões, sendo 11 vezes mais rápido e com custo inferior a 1%
Alcançou o melhor desempenho em benchmarks importantes como SWE‑Bench Pro 55.6%, GPQA Diamond 92.4% e ARC‑AGI‑1 86.2%
Mostra grandes avanços em relação ao GPT‑5.1 em compreensão de contexto longo (256k tokens), processamento de informação visual e uso de ferramentas (98.7%)
Será disponibilizado gradualmente no ChatGPT e na API, com foco em maior produtividade e confiabilidade para especialistas

Visão geral do GPT‑5.2

O GPT‑5.2 é uma série de modelos de IA para trabalho de conhecimento especializado, com capacidades reforçadas para criação de planilhas, produção de apresentações, escrita de código, reconhecimento de imagem, compreensão de textos longos, uso de ferramentas e execução de projetos complexos
Usuários do ChatGPT Enterprise já economizam em média de 40 a 60 minutos por dia, mais de 10 horas por semana, e o GPT‑5.2 amplia ainda mais essa eficiência
No ChatGPT, é oferecido em três versões: Instant, Thinking e Pro; na API, fica disponível imediatamente para desenvolvedores

Desempenho do modelo

GPT‑5.2 Thinking foi o primeiro a atingir desempenho de nível especialista ou superior na avaliação GDPval
- Igualou ou superou especialistas em 70,9% das tarefas de trabalho de conhecimento em 44 profissões
- É 11 vezes mais rápido que especialistas e custa menos de 1%
Em avaliação interna, a pontuação em tarefas de modelagem de planilhas para análise de banco de investimento melhorou 9,3% em relação ao GPT‑5.1 (59.1% → 68.4%)
SWE‑Bench Pro 55.6% e SWE‑Bench Verified 80% indicam melhora no desempenho em engenharia de software
- Executa com mais estabilidade tarefas reais de depuração de código, implementação de funcionalidades, refatoração e implantação
Também melhorou em desenvolvimento frontend e trabalhos de UI 3D em relação ao GPT‑5.1
A taxa de respostas erradas caiu 30%, reduzindo a frequência de alucinações (hallucinations)

Compreensão de contexto longo e percepção visual

Na avaliação OpenAI MRCRv2, registrou o melhor resultado em compreensão integrada de documentos longos
- Alcança quase 100% de precisão com até 256k tokens
- É adequado para análise de relatórios, contratos, artigos científicos e outros documentos extensos
Compatível com o endpoint /compact, dando suporte a workflows com contexto expandido
A melhora na percepção visual reduziu pela metade a taxa de erro em gráficos, dashboards e capturas de tela de UI
- Houve reforço na capacidade de entender a disposição espacial dos elementos dentro da imagem

Uso de ferramentas e tarefas compostas

Registrou o melhor resultado em uso de ferramentas com Tau2‑bench Telecom 98.7%
Reforçou a capacidade de executar workflows end-to-end com múltiplas etapas, como atendimento ao cliente, coleta de dados, análise e geração de resultados
- Exemplo: processar por completo procedimentos complexos de atendimento, como atraso de voo, conexão e solicitação de compensação

Capacidades em ciência, matemática e raciocínio

Obteve os melhores resultados em benchmarks acadêmicos importantes com GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2% e ARC‑AGI‑2 52.9%
O GPT‑5.2 Pro ultrapassou 90% no ARC‑AGI‑1, com eficiência de custo 390 vezes maior
GPT‑5.2 Pro e Thinking podem ser usados para acelerar a pesquisa científica
- Foi apresentado um caso real em que sugeriu uma prova de teoria estatística e ela foi validada

Experiência de uso no ChatGPT

GPT‑5.2 Instant: oferece respostas rápidas e explicações claras, para aprendizado e tarefas do dia a dia
GPT‑5.2 Thinking: adequado para tarefas complexas como escrita de código, resumo de textos longos, resolução de problemas matemáticos e lógicos, e planejamento
GPT‑5.2 Pro: fornece respostas de alta confiabilidade para perguntas difíceis, com menor taxa de erro

Reforço de segurança

O GPT‑5.2, com base na pesquisa de Safe Completion do GPT‑5, melhorou as respostas em conversas relacionadas a suicídio, saúde mental e dependência emocional
- Em comparação com o GPT‑5.1, a taxa de respostas inadequadas diminuiu
Foi introduzido um modelo de previsão de idade para restringir o acesso de usuários menores de 18 anos a conteúdo sensível
Também estão em andamento melhorias para o problema de recusa excessiva (over‑refusal) no ChatGPT

Preço e forma de disponibilidade

Disponibilização gradual começando pelos planos pagos do ChatGPT (Plus, Pro, Business, Enterprise)
Na API, será oferecido como gpt‑5.2, gpt‑5.2‑chat‑latest e gpt‑5.2‑pro
Preço: $1.75 por 1 milhão de tokens de entrada, $14 por 1 milhão de tokens de saída, com 90% de desconto em entrada em cache
- Embora o preço unitário seja maior que o do GPT‑5.1, o custo total é reduzido pela melhora na eficiência de tokens
O GPT‑5.1 será mantido por 3 meses antes de ser descontinuado gradualmente
Uma versão otimizada para Codex será lançada posteriormente

Parceria tecnológica

O GPT‑5.2 foi desenvolvido em colaboração com NVIDIA e Microsoft
- Utiliza infraestrutura de data centers Azure e GPUs H100, H200, GB200‑NVL72
- Isso dá suporte à eficiência de treinamento em larga escala e à melhoria da inteligência do modelo

Resumo dos principais benchmarks

GDPval: 70.9% (GPT‑5.1 38.8%)
SWE‑Bench Verified: 80.0%
OpenAI MRCRv2 (256k) : 77.0%
CharXiv Reasoning (w/ Python) : 88.7%
Tau2‑bench Telecom: 98.7%
ARC‑AGI‑1 (Verified) : 86.2%
AIME 2025: 100%
FrontierMath Tier 1–3: 40.3%

O GPT‑5.2 supera amplamente a geração anterior em inteligência, confiabilidade e produtividade, consolidando-se como uma IA de suporte profissional em nível especialista.

1 comentários

GN⁺ 2025-12-12

Comentários do Hacker News

Nos últimos meses venho usando o ChatGPT pago para praticamente tudo: programação, notícias, análise de ações e resolução de problemas do dia a dia
Mas, depois que o Gemini 3 foi lançado, experimentei e ele entrega resultados muito melhores em todos os casos de uso
Ele se destacou especialmente na busca por informações atualizadas que exigem integração com busca na web. O OCR também é excelente e reconhece bem até a minha letra horrível
Só que o app tem muitos bugs, a sessão cai com frequência e também há erros no upload de fotos.
O que mais me incomoda é que todos os links passam pela busca do Google, então é preciso editar para ir direto ao site.
No geral, cheguei à conclusão de que o ChatGPT fica para trás em capacidade de integração com busca e vai ser difícil alcançar
- Dizer que “só tem problemas de política” é fraco demais. Várias vezes por dia dá vontade de xingar por causa de um bug que apaga a thread inteira
  É num nível em que até interromper já faz os dados sumirem, bem aquela sensação de produto inacabado típico do Google
  A ideia do modo de voz é boa, mas ele quebra com frequência e repete perguntas do nada
- Tive a experiência oposta. O ChatGPT faz várias buscas, analisa os resultados e até faz buscas adicionais, enquanto o Gemini quase não pesquisa
  O ChatGPT abre PDFs e capturas de tela e os usa como entrada de OCR, mas o Gemini ignora isso
- O motivo de os links passarem pela busca do Google é que internamente eles fazem verificação de malware e phishing
  Mas hoje em dia o navegador já lida com isso por conta própria, então não há necessidade de enviar os dados de clique para o Google
  Dá para trocar pelo link direto sem problema
- No meu caso, o Gemini 3 Pro teve alucinação (hallucination) pior ainda. Chegou a inventar fontes que não existem
  O Opus 4.5 tem qualidade melhor, mas as restrições de uso são tão fortes que estou pensando em manter várias assinaturas ao mesmo tempo
- A qualidade de reconhecimento de voz do Gemini era tão ruim que não consegui usar
  Como eu uso mais os recursos de voz do que OCR, isso é fatal para mim
  Também não entendo a afirmação de que “a integração com busca é um ponto forte”. Queria ver exemplos em que o ChatGPT realmente foi pior em buscar informações recentes
Não aparece no anúncio do blog, mas na prática o tamanho da janela de contexto é de 400 mil tokens
Isso está explícito na documentação oficial
Também disseram que a capacidade de usar o contexto inteiro melhorou, então estou animado
Eu estava usando o Codex 5.1 em um projeto Rust/CUDA e mudei para o Gemini 3; no começo fiquei impressionado porque ele encontrava bugs muito bem, mas logo quase enlouqueci com ignorando comandos, saída quebrada e processo de raciocínio opaco
Quando voltei para o Codex, ele estava estável e incorporava bem o feedback. Agora ainda saiu o modo xhigh do GPT‑5.2, então parece até presente de Natal
- 400 mil tokens já existiam no GPT‑5, 5.1 e 5‑mini. Mas, se o desempenho com contexto longo melhorou, isso tem um grande significado
- Para mim, o modo xhigh deu resultados piores do que o high, a ponto de eu achar que era PEBKAC (erro do usuário). Queria saber se alguém comparou
- Pelos comentários de hoje em dia, fica difícil saber se é avaliação real ou publicidade patrocinada
  Sinto falta da cultura antiga de fóruns em que se discutiam honestamente os problemas e as soluções
Vejo muitos desenvolvedores misturando todos os assuntos numa mesma sessão — culinária, presentes, programação etc. — e depois recebendo respostas esquisitas
Como os LLMs continuam recebendo o contexto da conversa inteira, é preciso começar um novo chat para cada tema
Caso contrário, você acaba ouvindo algo como “o que a minha esposa acha de variáveis globais”
- Às vezes penso nisso: para alguém que não conhece o funcionamento interno de um LLM, o quão estranhas essas ferramentas devem parecer?
  Apps como Cursor ou ChatGPT provavelmente são difíceis de entender
- Para mim também ajudou muito ter feito o curso da fast.ai e mexido diretamente em vários modelos, como o VLLM
  Se você não conhece o conceito de janela de contexto, pode achar que a IA é burra. Acho que é por isso que muita gente subestima a IA
- Também não é claro qual contexto vale a pena manter. Coloquei textos de estilo semelhante e o desempenho piorou
  Além disso, como não dá para saber se o modelo está em teste A/B ou limitando tokens de raciocínio, fica difícil confiar
- A opção “Reference chat history” do ChatGPT vem ativada por padrão, então mesmo criando uma nova conversa o conteúdo anterior pode se misturar
  Para separar totalmente, é preciso desativar essa opção
- Ouvi um podcast sobre pessoas que entram em um “relacionamento amoroso” com LLMs, e parecia que elas não sabiam que bastava resetar o contexto para ele voltar a ser um completo desconhecido
Na imagem da placa-mãe, a posição da RAM, do slot PCIe e da DisplayPort está toda errada
Link da imagem
Fico me perguntando por que usaram isso como imagem promocional
- A intenção era mostrar que o desempenho de visão do GPT‑5.2 melhorou, mas não é perfeito. Se escolhessem só resultados perfeitos, isso poderia até gerar uma impressão errada
- As portas USB Type‑A também não estão em 2 pares empilhados, e sim em 4
- O próprio artigo diz claramente que “os dois modelos ainda cometem erros, mas o GPT‑5.2 mostrou melhor compreensão”
- Acho que esse tipo de erro acontece porque a cultura atual da comunidade de IA tem a tendência de só produzir material gerado sem verificar o resultado
- Mesmo assim, a resolução da imagem está no nível de um celular de pasta de 2003, então dá para entender o erro
No benchmark Extended NYT Connections, a versão de alto raciocínio do GPT‑5.2 subiu de 69.9 para 77.9
Link do benchmark
As versões de raciocínio médio e baixo também melhoraram, mas o Gemini 3 Pro e o Grok 4.1 Fast Reasoning ainda ficam acima
- Impressionante que o Gemini 3 Pro Preview tenha dado 96.8% no mesmo teste
- Outra pessoa testou com os quebra-cabeças Clues by Sam, e o GPT‑5 Pro já ficou em primeiro lugar
- Fiquei curioso para saber por que o resultado do Grok 4.1 reasoning ficou de fora
O teste do “pelicano andando de bicicleta” é interessante
Exemplo de imagem
- A variabilidade é grande demais, então o valor do teste é baixo. Rodei 10 vezes e metade saiu perfeita
- Provavelmente refletiram o feedback de que a versão 5.1 era monótona demais. Tive a mesma experiência na versão para POV‑Ray
- Ver aquilo ficando cada vez mais aerodinamicamente evoluído dá a sensação de que a IA está ficando mais inteligente
- Já virou piada do tipo “esse é o único benchmark em que eu confio”
- Mas também não é uma boa ideia usar o mesmo benchmark por tempo demais
A melhora na pontuação do ARC‑AGI‑2 é impressionante. Parece que a capacidade de generalização melhorou muito
Os modelos anteriores davam a sensação de overfitting, mas agora a autocorreção (self-correction) funciona bem
Se esse nível de melhora é possível sem um novo datacenter nem uma grande expansão do modelo, o futuro parece promissor
- Também foquei no resultado do ARC‑AGI‑2. Foi realmente um grande salto
Agora sinto que a experiência do usuário é mais importante do que benchmark
O motivo de eu continuar assinando o ChatGPT é o recurso de organizar conversas por projeto
Mas em todas as plataformas, em comum, elas
- mentem com confiança
- não seguem bem os prompts
- não expressam incerteza
- não param com elogios desnecessários e respostas prolixas
- citam fontes de maneira inconsistente
- não deixam claro se viram o texto original ou um resumo
  precisam resolver esses problemas básicos de usabilidade
- Quando você sai dos indicadores objetivos, fica difícil convencer as pessoas da validade da medição, mas indicadores mensuráveis podem ser manipulados com facilidade
  Por isso os benchmarks acabam virando uma espécie de jogo de gato e rato
Parece que no r/Codex estão censurando posts de reclamação, então vou falar francamente aqui
Ficou mais rápido, mas ainda é mais lento que o Opus 4.5, e comparado ao 5.1 a melhora percebida é quase nula
O custo por token subiu 40%, mas não senti que vale a pena
O Gemini 3 é gratuito e está no nível do ChatGPT Pro, e o Claude Code de US$ 100/mês também é forte
Parece que a OpenAI está enfrentando uma crise existencial
- Na passagem do Gemini 2.5 para o 3 também não houve grande melhora. No geral, parece que o progresso real estagnou
O fato de o “knowledge cutoff ser agosto de 2025” junto com o aumento de preço parece indicar um novo modelo de pré-treinamento (pretrain)
Dizia-se que o GPT‑5.1 usava o mesmo pré-treinamento do GPT‑4o
- Um novo pretrain custa caro demais, então não deve terminar só com um aumento de versão de 0.1
- Ou então o 5.1 era um checkpoint mais antigo, ou tinha quantização (quantization) mais agressiva
- Ou talvez simplesmente tenham alimentado o mesmo modelo com mais uma rodada de dados de baixa qualidade (slop)