Prévia do GPT‑5.6 Sol: o modelo de próxima geração
(openai.com)- A OpenAI abriu a série GPT‑5.6 em prévia limitada, lançando junto o Sol, modelo flagship, o Terra, para tarefas do dia a dia, e o Luna, de baixo custo
- O Sol reforçou suas capacidades agentic em codificação, biologia e cibersegurança, e oferece suporte a raciocínio mais profundo e uso de subagentes com o reasoning effort
maxe o modoultra - O desempenho em cibersegurança melhorou no ExploitBench e no ExploitGym, mas, nas condições de avaliação com Chromium e Firefox, não conseguiu gerar autonomamente um exploit full-chain funcional, ficando abaixo do limiar Cyber Critical
- A prévia será oferecida primeiro na API e no Codex a alguns parceiros e organizações confiáveis, e a OpenAI prepara uma disponibilização mais ampla após um processo de restrição atendendo a solicitação do governo dos EUA
- Os preços por 1 milhão de tokens são: Sol US$ 5 entrada / US$ 30 saída, Terra US$ 2,50 entrada / US$ 15 saída, Luna US$ 1 entrada / US$ 6 saída; gravações em cache custam 1,25x, e leituras do cache têm 90% de desconto
Escopo da prévia da série GPT‑5.6
- A OpenAI está apresentando primeiro a família GPT‑5.6 em prévia limitada
- Sol: modelo flagship
- Terra: modelo equilibrado para tarefas do dia a dia
- Luna: modelo rápido e barato
- O Terra oferece desempenho competitivo com o GPT‑5.5 por metade do preço
- O Luna oferece capacidades fortes pelo menor custo da OpenAI
- O GPT‑5.6 Sol está sendo lançado com a pilha de segurança mais robusta que a OpenAI já construiu
- Atividades de alto risco
- Solicitações cibernéticas sensíveis
- Uso indevido repetido
- Busca de fraquezas e testes de pressão contra ataques reais
Lançamento limitado e coordenação com o governo
- A OpenAI planeja tornar o GPT‑5.6 Sol, Terra e Luna geralmente disponíveis nas próximas semanas
- Como parte de um processo contínuo de coordenação com o governo dos EUA, a empresa compartilhou planos de pré-lançamento e as capacidades dos modelos
- A pedido do governo, a OpenAI está iniciando primeiro uma prévia limitada com um pequeno número de parceiros confiáveis cuja participação foi compartilhada com o governo
- A OpenAI considera que esse processo de acesso governamental não deve se tornar o padrão de longo prazo
- Porque usuários, desenvolvedores, empresas, defensores cibernéticos e parceiros globais podem ficar sem acesso às ferramentas de que precisam
- Esse processo de curto prazo é um caminho para uma disponibilização mais ampla dentro de algumas semanas
- Ele se aplica enquanto a OpenAI desenvolve, com o Executivo, uma estrutura de Executive Order cibernética e um processo repetível para lançamentos futuros de modelos
Capacidades e avaliações dos modelos
- O GPT‑5.6 Sol é apresentado como o modelo mais forte da OpenAI
- Ele mostra capacidades agentic aprimoradas em avaliações de codificação, biologia e cibersegurança
- Avaliações adicionais de segurança e prontidão estão incluídas no GPT‑5.6 Preview system card
- A OpenAI planeja compartilhar um conjunto ampliado de resultados de avaliação quando fizer uma disponibilização mais ampla
-
Modos de raciocínio
- O GPT‑5.6 introduz o reasoning effort
max, que permite ao Sol raciocinar por mais tempo e com mais profundidade - O novo modo
ultravai além das capacidades de um único agente e usa subagentes para acelerar tarefas complexas
- O GPT‑5.6 introduz o reasoning effort
-
Codificação e biologia
- O GPT‑5.6 Sol registrou um novo desempenho de ponta no Terminal‑Bench 2.1, que avalia fluxos de trabalho de linha de comando
- Esse benchmark testa tarefas de linha de comando que exigem planejamento, iteração e coordenação de ferramentas
- No GeneBench v1, ele obteve resultados mais fortes que o GPT‑5.5 usando menos tokens
- O GeneBench v1 avalia análises de genômica e biologia quantitativa de longo alcance
-
Cibersegurança
- O GPT‑5.6 Sol é o modelo mais capaz da OpenAI para tarefas de cibersegurança
- Ele desloca a fronteira de desempenho-eficiência em tarefas de segurança de longo prazo, incluindo pesquisa de vulnerabilidades e exploits
- No ExploitBench, alcançou resultados competitivos com o Mythos Preview usando cerca de um terço dos tokens de saída
- No ExploitGym, Sol, Terra e Luna mostraram fortes melhorias em capacidade cibernética conforme o raciocínio aumentou
- O ExploitGym é um benchmark criado por pesquisadores da UC Berkeley em colaboração com a OpenAI e outros laboratórios de fronteira
Capacidades cibernéticas e salvaguardas
- GPT‑5.6 Sol, Terra e Luna foram desenvolvidos com as salvaguardas mais robustas da OpenAI, ajustadas às capacidades de cada modelo
- À medida que a capacidade dos modelos cresce, as salvaguardas são projetadas para resistir também à pressão adversarial real
- A empresa busca manter o acesso a trabalhos defensivos legítimos
- Revisão de código
- Pesquisa de vulnerabilidades
- Desenvolvimento de patches
- Depuração
- Educação em segurança
- Testes defensivos
- O objetivo é tornar atividades ofensivas proibidas mais difíceis, incertas e detectáveis, sem restringir desnecessariamente usos benéficos
- Segundo as avaliações da OpenAI, há benefícios substanciais para trabalhos defensivos legítimos, enquanto usos ofensivos proibidos são limitados de forma significativa
-
Limiar Cyber Critical
- O GPT‑5.6 Sol não ultrapassa o limiar Cyber Critical segundo o Preparedness Framework
- Em avaliações relacionadas ao Chromium e ao Firefox, ele identificou bugs e exploit primitives
- Nas condições de teste, não conseguiu criar autonomamente um exploit full-chain funcional
- Limiares de benchmark não conseguem capturar todos os modos de uso do modelo nem combinações com outras ferramentas
- Por causa dessa incerteza e do aumento geral de capacidades, a OpenAI está aplicando salvaguardas mais fortes junto com um lançamento gradual
Pilha de segurança em camadas
- Uso indevido intencional ou adaptativo é difícil de bloquear com uma única salvaguarda
- Em toda a prévia do GPT‑5.6, são aplicadas salvaguardas em camadas com configurações diferentes por modelo
- Proteções treinadas no modelo
- Verificações em tempo real durante a geração
- Sinais no nível da conta
- Acesso diferenciado
- Monitoramento
- Aplicação de regras
- Testes contínuos
-
Recusas no nível do modelo e verificações em tempo real
- O GPT‑5.6 foi treinado para recusar assistência cibernética proibida mesmo quando o usuário oculta sua intenção ou tenta fazer jailbreak
- Classificadores em tempo real de uso indevido cibernético e biológico avaliam a saída em geração
- Em casos de alto risco, a geração pode ser pausada se uma possível violação for detectada
- Um modelo de raciocínio maior revisa a conversa e o contexto, e, se a saída for avaliada como proibida, ela é retida antes de chegar ao usuário
-
Revisão no nível da conta e acesso diferenciado
- Atividades sinalizadas podem levar a uma revisão no nível da conta, incluindo conversas relacionadas e sinais de risco
- Observar o contexto no nível da conta, e não uma única conversa, ajuda a distinguir trabalhos legítimos de segurança de dupla utilização de comportamento malicioso persistente
- O acesso diferenciado mantém trabalhos defensivos importantes, ao mesmo tempo que impede que as capacidades mais sensíveis sejam amplamente disponibilizadas por padrão
-
Impacto para usuários durante a prévia
- Durante a prévia, algumas solicitações podem ser bloqueadas ou recusadas
- Se a geração for pausada para revisão adicional, algumas solicitações podem levar mais tempo
- Em áreas de dupla utilização, onde atividades defensivas e ofensivas podem parecer semelhantes no início, as salvaguardas também podem intervir em trabalhos legítimos
- O feedback da prévia será usado para reduzir bloqueios e atrasos desnecessários, melhorar a interpretação de contexto pelas salvaguardas e refinar a experiência antes de um lançamento mais amplo
- A OpenAI também está discutindo com clientes corporativos abordagens de longo prazo
- Detecção com preservação de privacidade
- Controles de segurança operacional do cliente
- Permissões de acesso alinhadas ao risco de clientes, usuários e workloads
Red teaming automatizado para melhorar a robustez
- As salvaguardas precisam continuar eficazes mesmo quando atacantes mudam suas táticas
- A OpenAI usa seus próprios modelos para encontrar fraquezas e melhorar salvaguardas mais rapidamente
- Mais de 700.000 horas de GPU equivalentes a A100 foram dedicadas ao red teaming automatizado
- O red teaming automatizado se concentra em encontrar jailbreaks universais que possam funcionar em vários prompts ou contextos
- Focar esses ataques mais gerais permite testar as salvaguardas além de uma lista fixa de casos de falha
- A automação explora mais padrões de ataque do que seria viável apenas com testes humanos, encontra padrões de falha mais cedo e reduz o tempo entre a descoberta de fraquezas e sua correção
- A OpenAI também realizou red teaming com especialistas humanos junto a testadores externos, e esse trabalho continua durante a prévia
- Jailbreaks recém-descobertos passam por reprodução, avaliação, priorização e correção, e são adicionados a avaliações contínuas para testar falhas semelhantes no futuro
Disponibilização e preços
- Durante a prévia, os modelos GPT‑5.6 serão oferecidos primeiro a parceiros e organizações confiáveis selecionados pela API e pelo Codex
- Depois, a OpenAI planeja disponibilizá-los mais amplamente para usuários do ChatGPT, Codex e API
- No novo sistema de nomenclatura do GPT‑5.6, o número indica a geração do modelo
- Sol, Terra e Luna representam tiers de capacidade contínuos, que podem evoluir em seus próprios ritmos
- A família oferece a usuários e desenvolvedores escolhas mais claras entre inteligência, velocidade e custo
-
Preços de tokens e caching
- Os preços do GPT‑5.6 são definidos por 1 milhão de tokens
- Sol: entrada US$ 5 / saída US$ 30
- Terra: entrada US$ 2,50 / saída US$ 15
- Luna: entrada US$ 1 / saída US$ 6
- O GPT‑5.6 introduz prompt caching mais previsível
- Suporte a pontos de interrupção explícitos de cache
- Vida útil mínima do cache de 30 minutos
- No GPT‑5.6 e em modelos posteriores, gravações em cache serão cobradas a 1,25x a tarifa de entrada sem cache do modelo correspondente
- Leituras do cache continuam recebendo 90% de desconto sobre entrada em cache
-
Disponibilidade pela Cerebras
- O GPT‑5.6 Sol deverá ser oferecido pela Cerebras em julho, a até 750 tokens por segundo
- O acesso inicial será limitado a clientes selecionados durante a expansão de capacidade
1 comentários
Opiniões do Hacker News
A parte mais interessante deste anúncio está enterrada no penúltimo parágrafo: “Em julho, a Cerebras lançará o GPT‑5.6 Sol com até 750 tokens por segundo, levando inteligência de fronteira aos clientes em uma velocidade sem precedentes. O acesso ficará limitado a alguns clientes até que a capacidade seja ampliada”
750 tokens/s em um modelo de fronteira parece realmente interessante. Em termos de desempenho, desconfio que seja mais do que apenas um aumento de versão, mas, se for possível receber respostas mais rápido, ele fica muito mais útil
Por exemplo, penso na tarefa tediosa de encontrar uma funcionalidade específica em uma codebase. Mesmo hoje, normalmente é difícil vencer um harness de agente de IA nesse tipo de tarefa; se o modelo ficar 3 vezes mais rápido, as chances ficam ainda menores
750 tokens/s deve dar mais ou menos essa sensação
750 tokens/s no maior modelo seria impressionante
Lembro que há apenas um ano eu ainda “apostava corrida” com a IA para entender uma codebase, mas agora não há chance de eu ganhar. Não sei se minha capacidade de raciocínio piorou ou se os modelos melhoraram
O Spark consegue passar de 1000 tokens/s, mas a janela de contexto é muito limitada, então não serve para muitos fluxos de trabalho. Este modelo novo deve continuar excelente, mesmo sendo um pouco mais lento em comparação
As soluções atuais, discretas e baseadas em turnos, restringem bastante até a forma de treinamento. Uma abordagem contínua e em tempo real pode mudar esse campo de forma fundamental
Do ponto de vista da teoria da informação, a taxa real de transmissão de informação ainda está no nível de conexão discada. Mesmo 750 tokens/s é algo como uma conexão discada bem ruim; imagine 10 milhões de tokens por segundo
Vejo este padrão: o GPT-5 mini custa US$ 0,25/US$ 2 e deve ser descontinuado em dezembro; o GPT-5.4 mini custa US$ 0,75/US$ 4,5 e é apresentado como substituto; o GPT-5.4 nano custa US$ 0,2/US$ 1,25 e, nos benchmarks, é melhor que o GPT-5 mini, mas em cenários reais não é nem um pouco parecido
Então, se você usa o 5 mini hoje, no fim será empurrado para o GPT-5.4 mini. Aqui também, como o modelo “Luna” custa US$ 1/US$ 6, a mesma coisa está acontecendo
Não podemos simplesmente continuar usando o modelo que realmente queremos? Não precisamos do GPT 5.4 mini; o GPT-5 já basta
Talvez ele nunca tenha sido tão barato assim, para começo de conversa, e estejamos percebendo que querem nos fazer passar por um upgrade lento e doloroso
Embora no HN o DeepSeek V4 Flash seja mencionado com frequência, segundo a Artificial Analysis, em agosto de 2025 ele ficava em disputa acirrada com o GPT-5 high [0]
[0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
Os grandes laboratórios basicamente desistiram dos modelos baratos, e isso é frustrante. É bem possível que aplicações deixem de se construir tanto em cima deles. Por exemplo, nós também estamos migrando cargas de trabalho de Haiku/Sonnet para o Deepseek v4
Acho que o problema é que, para manter os números de receita, eles precisam cobrar muito, e se preocupam mais em canibalizar a própria receita do que em alguém canibalizá-los
É natural que os laboratórios testem até onde conseguem empurrar os preços, e também é natural que concorrentes usem essas margens como oportunidade de crescimento. No fim, acho que os preços vão se estabilizar mais
A taxa detectada de trapaça do GPT-5.6 Sol foi a mais alta entre os modelos públicos que avaliamos no nosso harness de agente ReAct
No nosso conjunto de tarefas, definimos “trapaça” como o comportamento em que o modelo, em vez de resolver o problema dentro das restrições de avaliação esperadas, explora bugs no ambiente de avaliação ou adota estratégias proibidas pela tarefa para melhorar seu desempenho na avaliação
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
Isso rima com o comportamento visto na Alibaba [0], mas aquilo foi durante o treinamento. Aqui aconteceu em um modelo quase lançado
[0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
Tudo o que essas empresas precisam fazer é registrar essas solicitações em logs e “corrigir” no próximo lançamento do modelo
Acho que o GPT é quem escreve código melhor. Só de pensar no quanto ele vai escrever bem na versão 5.6, dá arrepios
Recentemente encarei o GPT de frente em um código de quase 2.000 linhas, e a solução do GPT foi melhor e mais rápida. Tentei consultando várias bases de código no GitHub, mas não chegou nem perto do GPT
Por isso, usar o GPT me dá medo e empolgação ao mesmo tempo. Dá medo perceber que esse nível de código agora vai se tornar a média para a maioria das pessoas, e empolga saber que eu também posso estudar e aprender nesse nível
Estou realmente ansioso para ver o quanto o código vai evoluir mais com o upgrade para 5.6
Por outro lado, a combinação pi + glm + DeepSeek é muito boa. O Fable era um monstro de outro tipo, porém. RIP
A primeira é um pouco mais fácil de revisar
Os bons tempos aqui se referem a algumas semanas de fevereiro de 2026. É muito interessante ver tudo isso se desenrolar
Parece estranho que não haja nenhum benchmark de programação no anúncio, e que o mais próximo disso seja o terminal bench
Se você usou o GPT-5.5 nas últimas 24 horas mais ou menos, talvez já tenha tido acesso ao 5.6
Estamos rodando testes no harness que estamos criando, e ontem alguns pontos subiram de repente. Reexecutamos o benchmark básico do Codex, e o GPT-5.5 marcou cerca de 88% no Terminal Bench 2.1 no Codex básico
O sinal maior do que a pontuação é que três testes que costumavam cair com frequência em bloqueios de “segurança” no 5.5 começaram a passar ontem à noite sem nenhum aviso
O texto dizia: “começamos com uma prévia limitada para um pequeno grupo de parceiros confiáveis, cuja participação foi compartilhada com o governo, e depois faremos um lançamento mais amplo”
Esse comentário é um ótimo exemplo de como o usuário médio de LLM age praticamente como um jogador de caça-níquel. Fica trocando de modelo com base em uma compreensão mística que só ele acha que tem, acreditando que “este está quente, este está com sorte, este é melhor que os outros”
E por que um benchmark de 80% importaria? Eles treinam nesses benchmarks públicos para impressionar quem dá significado a isso. Mas então por que a taxa de aprovação em tarefas da Upwork de US$20–30/hora é de apenas 4%? Esses benchmarks parecem praticamente inúteis
Também existe algo chamado variância, e não entendo por que uma pontuação maior em alguns testes faria você acreditar que teve acesso a um modelo ao qual disseram que você não tinha acesso
https://labs.scale.com/leaderboard/rli
Aproveitando uma thread popular para perguntar: como estão agora os limites de uso do Codex e do Claude?
Antes, dei a mesma tarefa aos dois, e o Codex usou 20 vezes menos do meu limite de 5 horas. Ambos eram planos de US$20 por mês
Eu normalmente prefiro o Claude, então isso me irritou, mas na época os limites o tornavam inviável para trabalho sério
Desde então, os dois provedores reduziram bastante a quantidade disponível, e pelo menos um deles até foi processado por isso
No momento não assino nenhum dos dois e estou avaliando as opções. Como o GPT é um pouco melhor que o Opus e, antes, oferecia limites muito mais altos, estou inclinado a assinar a OpenAI. Mas queria saber se o estado atual bate com a minha memória de 2–3 meses atrás, porque as duas empresas parecem estar cortando custos com força
Prefiro respostas de quem usa os dois, mas relatos anedóticos também são bem-vindos
Se eu quiser, consigo rodar xhigh e subagentes quase continuamente durante todo o tempo em que estou acordado. Quando ligo a opção de velocidade 1,5x, às vezes chego ao limite de 5 horas
Prefiro o clima do Claude ao do 5.5, mas o 5.5 parece bem menos preguiçoso. Claro que isso deve depender muito da tarefa e da estratégia de prompt
Usar 5.5 high ou Opus 4.8 high é, sinceramente, bem parecido
Parece que removeram a cota separada de uso do Sonnet no plano Max, talvez por causa da preparação para o Sonnet 5. É uma pena, porque isso fazia o fluxo de trabalho com subagentes parecer praticamente ilimitado
“Também vamos introduzir um novo modo
ultra, que usa subagentes para acelerar tarefas complexas além da capacidade de um único agente”, dizem; fico curioso para saber como isso funcionaOs subagentes também podem usar as mesmas ferramentas? O cliente vai ficar inundado de chamadas de ferramentas? Se dá para fazer a mesma coisa no cliente, com mais controle, por que cobrar a mais por um novo “modelo”?
E, se é um exército de subagentes, também fico curioso para saber por que comparar com Fable e Mythos. Se acoplarem um harness parecido, acho que esses modelos provavelmente entregariam benchmarks melhores
Essencialmente, é uma estrutura em que um script determinístico escrito pela thread do modelo principal chama vários subagentes, cada um deles consome um monte de tokens, e depois o agente orquestrador sintetiza as saídas
Se você instruir explicitamente, com certeza usam; e pelo menos no pi eu já vi subir subagentes mesmo sem instrução explícita
Assim como na época do Mythos, não fico nem um pouco empolgado com um modelo que não posso usar
“Sim, temos o melhor modelo existente. Confie em nós. É realmente assustador”
“Ah, é? Posso ver?”
“Cai fora. Para plebeus como vocês, vamos dar uma versão pior”
“Hum, obrigado?”
“kkk, na verdade nem isso. A atual administração caiu no nosso marketing do medo. Vamos dar a vocês um devorador de tokens pior e absurdamente caro. As restrições de hardware ficam piores a cada semana”
Digam o que quiserem sobre a OpenAI, mas a estratégia corporativa parece muito mais sólida
Para mim, a frase “Terra tem desempenho competitivo com o GPT‑5.5 e é 2x mais barato” soa como “é um produto inferior, mas estamos tentando esconder isso no marketing”
E frases como “nossa pilha de segurança mais robusta até agora, proteções reforçadas contra atividades de alto risco, solicitações cibernéticas sensíveis e uso indevido repetido, semanas de busca por fraquezas, testes de pressão e reforço contra ataques reais” no melhor dos casos não têm valor para mim e, na maioria das vezes, provavelmente prejudicam. Porque haverá mais recusas ou a utilidade será enfraquecida
Por que os provedores continuam colocando a pilha de segurança em primeiro plano? Existe cliente pedindo isso? Não consigo pensar em ninguém além de usuários de chatbots ChatGPT de suporte