Prévia do GPT‑5.6 Sol: o modelo de próxima geração

(openai.com)

3 pontos por GN⁺ 5 시간 전 | 1 comentários | Compartilhar no WhatsApp

A OpenAI abriu a série GPT‑5.6 em prévia limitada, lançando junto o Sol, modelo flagship, o Terra, para tarefas do dia a dia, e o Luna, de baixo custo
O Sol reforçou suas capacidades agentic em codificação, biologia e cibersegurança, e oferece suporte a raciocínio mais profundo e uso de subagentes com o reasoning effort max e o modo ultra
O desempenho em cibersegurança melhorou no ExploitBench e no ExploitGym, mas, nas condições de avaliação com Chromium e Firefox, não conseguiu gerar autonomamente um exploit full-chain funcional, ficando abaixo do limiar Cyber Critical
A prévia será oferecida primeiro na API e no Codex a alguns parceiros e organizações confiáveis, e a OpenAI prepara uma disponibilização mais ampla após um processo de restrição atendendo a solicitação do governo dos EUA
Os preços por 1 milhão de tokens são: Sol US$ 5 entrada / US$ 30 saída, Terra US$ 2,50 entrada / US$ 15 saída, Luna US$ 1 entrada / US$ 6 saída; gravações em cache custam 1,25x, e leituras do cache têm 90% de desconto

Escopo da prévia da série GPT‑5.6

A OpenAI está apresentando primeiro a família GPT‑5.6 em prévia limitada
- Sol: modelo flagship
- Terra: modelo equilibrado para tarefas do dia a dia
- Luna: modelo rápido e barato
O Terra oferece desempenho competitivo com o GPT‑5.5 por metade do preço
O Luna oferece capacidades fortes pelo menor custo da OpenAI
O GPT‑5.6 Sol está sendo lançado com a pilha de segurança mais robusta que a OpenAI já construiu
- Atividades de alto risco
- Solicitações cibernéticas sensíveis
- Uso indevido repetido
- Busca de fraquezas e testes de pressão contra ataques reais

Lançamento limitado e coordenação com o governo

A OpenAI planeja tornar o GPT‑5.6 Sol, Terra e Luna geralmente disponíveis nas próximas semanas
Como parte de um processo contínuo de coordenação com o governo dos EUA, a empresa compartilhou planos de pré-lançamento e as capacidades dos modelos
A pedido do governo, a OpenAI está iniciando primeiro uma prévia limitada com um pequeno número de parceiros confiáveis cuja participação foi compartilhada com o governo
A OpenAI considera que esse processo de acesso governamental não deve se tornar o padrão de longo prazo
- Porque usuários, desenvolvedores, empresas, defensores cibernéticos e parceiros globais podem ficar sem acesso às ferramentas de que precisam
Esse processo de curto prazo é um caminho para uma disponibilização mais ampla dentro de algumas semanas
- Ele se aplica enquanto a OpenAI desenvolve, com o Executivo, uma estrutura de Executive Order cibernética e um processo repetível para lançamentos futuros de modelos

Capacidades e avaliações dos modelos

O GPT‑5.6 Sol é apresentado como o modelo mais forte da OpenAI
Ele mostra capacidades agentic aprimoradas em avaliações de codificação, biologia e cibersegurança
Avaliações adicionais de segurança e prontidão estão incluídas no GPT‑5.6 Preview system card
A OpenAI planeja compartilhar um conjunto ampliado de resultados de avaliação quando fizer uma disponibilização mais ampla
Modos de raciocínio
- O GPT‑5.6 introduz o reasoning effort max, que permite ao Sol raciocinar por mais tempo e com mais profundidade
- O novo modo ultra vai além das capacidades de um único agente e usa subagentes para acelerar tarefas complexas
Codificação e biologia
- O GPT‑5.6 Sol registrou um novo desempenho de ponta no Terminal‑Bench 2.1, que avalia fluxos de trabalho de linha de comando
- Esse benchmark testa tarefas de linha de comando que exigem planejamento, iteração e coordenação de ferramentas
- No GeneBench v1, ele obteve resultados mais fortes que o GPT‑5.5 usando menos tokens
- O GeneBench v1 avalia análises de genômica e biologia quantitativa de longo alcance
Cibersegurança
- O GPT‑5.6 Sol é o modelo mais capaz da OpenAI para tarefas de cibersegurança
- Ele desloca a fronteira de desempenho-eficiência em tarefas de segurança de longo prazo, incluindo pesquisa de vulnerabilidades e exploits
- No ExploitBench, alcançou resultados competitivos com o Mythos Preview usando cerca de um terço dos tokens de saída
- No ExploitGym, Sol, Terra e Luna mostraram fortes melhorias em capacidade cibernética conforme o raciocínio aumentou
- O ExploitGym é um benchmark criado por pesquisadores da UC Berkeley em colaboração com a OpenAI e outros laboratórios de fronteira

Capacidades cibernéticas e salvaguardas

GPT‑5.6 Sol, Terra e Luna foram desenvolvidos com as salvaguardas mais robustas da OpenAI, ajustadas às capacidades de cada modelo
À medida que a capacidade dos modelos cresce, as salvaguardas são projetadas para resistir também à pressão adversarial real
A empresa busca manter o acesso a trabalhos defensivos legítimos
- Revisão de código
- Pesquisa de vulnerabilidades
- Desenvolvimento de patches
- Depuração
- Educação em segurança
- Testes defensivos
O objetivo é tornar atividades ofensivas proibidas mais difíceis, incertas e detectáveis, sem restringir desnecessariamente usos benéficos
Segundo as avaliações da OpenAI, há benefícios substanciais para trabalhos defensivos legítimos, enquanto usos ofensivos proibidos são limitados de forma significativa
Limiar Cyber Critical
- O GPT‑5.6 Sol não ultrapassa o limiar Cyber Critical segundo o Preparedness Framework
- Em avaliações relacionadas ao Chromium e ao Firefox, ele identificou bugs e exploit primitives
- Nas condições de teste, não conseguiu criar autonomamente um exploit full-chain funcional
- Limiares de benchmark não conseguem capturar todos os modos de uso do modelo nem combinações com outras ferramentas
- Por causa dessa incerteza e do aumento geral de capacidades, a OpenAI está aplicando salvaguardas mais fortes junto com um lançamento gradual

Pilha de segurança em camadas

Uso indevido intencional ou adaptativo é difícil de bloquear com uma única salvaguarda
Em toda a prévia do GPT‑5.6, são aplicadas salvaguardas em camadas com configurações diferentes por modelo
- Proteções treinadas no modelo
- Verificações em tempo real durante a geração
- Sinais no nível da conta
- Acesso diferenciado
- Monitoramento
- Aplicação de regras
- Testes contínuos
Recusas no nível do modelo e verificações em tempo real
- O GPT‑5.6 foi treinado para recusar assistência cibernética proibida mesmo quando o usuário oculta sua intenção ou tenta fazer jailbreak
- Classificadores em tempo real de uso indevido cibernético e biológico avaliam a saída em geração
- Em casos de alto risco, a geração pode ser pausada se uma possível violação for detectada
- Um modelo de raciocínio maior revisa a conversa e o contexto, e, se a saída for avaliada como proibida, ela é retida antes de chegar ao usuário
Revisão no nível da conta e acesso diferenciado
- Atividades sinalizadas podem levar a uma revisão no nível da conta, incluindo conversas relacionadas e sinais de risco
- Observar o contexto no nível da conta, e não uma única conversa, ajuda a distinguir trabalhos legítimos de segurança de dupla utilização de comportamento malicioso persistente
- O acesso diferenciado mantém trabalhos defensivos importantes, ao mesmo tempo que impede que as capacidades mais sensíveis sejam amplamente disponibilizadas por padrão
Impacto para usuários durante a prévia
- Durante a prévia, algumas solicitações podem ser bloqueadas ou recusadas
- Se a geração for pausada para revisão adicional, algumas solicitações podem levar mais tempo
- Em áreas de dupla utilização, onde atividades defensivas e ofensivas podem parecer semelhantes no início, as salvaguardas também podem intervir em trabalhos legítimos
- O feedback da prévia será usado para reduzir bloqueios e atrasos desnecessários, melhorar a interpretação de contexto pelas salvaguardas e refinar a experiência antes de um lançamento mais amplo
- A OpenAI também está discutindo com clientes corporativos abordagens de longo prazo
  - Detecção com preservação de privacidade
  - Controles de segurança operacional do cliente
  - Permissões de acesso alinhadas ao risco de clientes, usuários e workloads

Red teaming automatizado para melhorar a robustez

As salvaguardas precisam continuar eficazes mesmo quando atacantes mudam suas táticas
A OpenAI usa seus próprios modelos para encontrar fraquezas e melhorar salvaguardas mais rapidamente
Mais de 700.000 horas de GPU equivalentes a A100 foram dedicadas ao red teaming automatizado
O red teaming automatizado se concentra em encontrar jailbreaks universais que possam funcionar em vários prompts ou contextos
Focar esses ataques mais gerais permite testar as salvaguardas além de uma lista fixa de casos de falha
A automação explora mais padrões de ataque do que seria viável apenas com testes humanos, encontra padrões de falha mais cedo e reduz o tempo entre a descoberta de fraquezas e sua correção
A OpenAI também realizou red teaming com especialistas humanos junto a testadores externos, e esse trabalho continua durante a prévia
Jailbreaks recém-descobertos passam por reprodução, avaliação, priorização e correção, e são adicionados a avaliações contínuas para testar falhas semelhantes no futuro

Disponibilização e preços

Durante a prévia, os modelos GPT‑5.6 serão oferecidos primeiro a parceiros e organizações confiáveis selecionados pela API e pelo Codex
Depois, a OpenAI planeja disponibilizá-los mais amplamente para usuários do ChatGPT, Codex e API
No novo sistema de nomenclatura do GPT‑5.6, o número indica a geração do modelo
Sol, Terra e Luna representam tiers de capacidade contínuos, que podem evoluir em seus próprios ritmos
A família oferece a usuários e desenvolvedores escolhas mais claras entre inteligência, velocidade e custo
Preços de tokens e caching
- Os preços do GPT‑5.6 são definidos por 1 milhão de tokens
- Sol: entrada US$ 5 / saída US$ 30
- Terra: entrada US$ 2,50 / saída US$ 15
- Luna: entrada US$ 1 / saída US$ 6
- O GPT‑5.6 introduz prompt caching mais previsível
  - Suporte a pontos de interrupção explícitos de cache
  - Vida útil mínima do cache de 30 minutos
- No GPT‑5.6 e em modelos posteriores, gravações em cache serão cobradas a 1,25x a tarifa de entrada sem cache do modelo correspondente
- Leituras do cache continuam recebendo 90% de desconto sobre entrada em cache
Disponibilidade pela Cerebras
- O GPT‑5.6 Sol deverá ser oferecido pela Cerebras em julho, a até 750 tokens por segundo
- O acesso inicial será limitado a clientes selecionados durante a expansão de capacidade

1 comentários

GN⁺ 5 시간 전

Opiniões do Hacker News

A parte mais interessante deste anúncio está enterrada no penúltimo parágrafo: “Em julho, a Cerebras lançará o GPT‑5.6 Sol com até 750 tokens por segundo, levando inteligência de fronteira aos clientes em uma velocidade sem precedentes. O acesso ficará limitado a alguns clientes até que a capacidade seja ampliada”
750 tokens/s em um modelo de fronteira parece realmente interessante. Em termos de desempenho, desconfio que seja mais do que apenas um aumento de versão, mas, se for possível receber respostas mais rápido, ele fica muito mais útil
Por exemplo, penso na tarefa tediosa de encontrar uma funcionalidade específica em uma codebase. Mesmo hoje, normalmente é difícil vencer um harness de agente de IA nesse tipo de tarefa; se o modelo ficar 3 vezes mais rápido, as chances ficam ainda menores
- https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
  750 tokens/s deve dar mais ou menos essa sensação
- Para comparação, no openrouter, o Opus 4.8 fica em cerca de 55 tokens/s, e o modo rápido em cerca de 102 tokens/s
  750 tokens/s no maior modelo seria impressionante
- Concordo com a frase “em tarefas de encontrar uma funcionalidade específica em uma codebase, normalmente é difícil vencer um harness de agente de IA”
  Lembro que há apenas um ano eu ainda “apostava corrida” com a IA para entender uma codebase, mas agora não há chance de eu ganhar. Não sei se minha capacidade de raciocínio piorou ou se os modelos melhoraram
- Ainda estou usando o GPT-5.3-codex-spark, que também roda em chips da Cerebras
  O Spark consegue passar de 1000 tokens/s, mas a janela de contexto é muito limitada, então não serve para muitos fluxos de trabalho. Este modelo novo deve continuar excelente, mesmo sendo um pouco mais lento em comparação
- Quando chegarmos a certo nível de velocidade, acho que será possível migrar para sistemas de raciocínio contínuos/em tempo real
  As soluções atuais, discretas e baseadas em turnos, restringem bastante até a forma de treinamento. Uma abordagem contínua e em tempo real pode mudar esse campo de forma fundamental
  Do ponto de vista da teoria da informação, a taxa real de transmissão de informação ainda está no nível de conexão discada. Mesmo 750 tokens/s é algo como uma conexão discada bem ruim; imagine 10 milhões de tokens por segundo
Vejo este padrão: o GPT-5 mini custa US$ 0,25/US$ 2 e deve ser descontinuado em dezembro; o GPT-5.4 mini custa US$ 0,75/US$ 4,5 e é apresentado como substituto; o GPT-5.4 nano custa US$ 0,2/US$ 1,25 e, nos benchmarks, é melhor que o GPT-5 mini, mas em cenários reais não é nem um pouco parecido
Então, se você usa o 5 mini hoje, no fim será empurrado para o GPT-5.4 mini. Aqui também, como o modelo “Luna” custa US$ 1/US$ 6, a mesma coisa está acontecendo
Não podemos simplesmente continuar usando o modelo que realmente queremos? Não precisamos do GPT 5.4 mini; o GPT-5 já basta
Talvez ele nunca tenha sido tão barato assim, para começo de conversa, e estejamos percebendo que querem nos fazer passar por um upgrade lento e doloroso
- Se você não precisa do desempenho dos modelos de fronteira da Anthropic/OpenAI, talvez modelos de pesos abertos, que não podem simplesmente desaparecer, sejam melhores
  Embora no HN o DeepSeek V4 Flash seja mencionado com frequência, segundo a Artificial Analysis, em agosto de 2025 ele ficava em disputa acirrada com o GPT-5 high [0]
  [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
- É exatamente igual ao modelo SaaS. Os preços continuam subindo, e, para justificar isso, eles forçam upgrades constantes para novas versões cheias de recursos que ninguém pediu
- Sofremos bastante com esse problema. Modelos excelentes e baratos são claramente possíveis; há muitos no open source, e as neo clouds os oferecem com lucro
  Os grandes laboratórios basicamente desistiram dos modelos baratos, e isso é frustrante. É bem possível que aplicações deixem de se construir tanto em cima deles. Por exemplo, nós também estamos migrando cargas de trabalho de Haiku/Sonnet para o Deepseek v4
  Acho que o problema é que, para manter os números de receita, eles precisam cobrar muito, e se preocupam mais em canibalizar a própria receita do que em alguém canibalizá-los
- Boa observação. A tendência de alta nos preços é clara, mas, ao mesmo tempo, a inovação e a disponibilidade de alternativas, tanto em modelos abertos quanto fechados, também equilibram a situação
  É natural que os laboratórios testem até onde conseguem empurrar os preços, e também é natural que concorrentes usem essas margens como oportunidade de crescimento. No fim, acho que os preços vão se estabilizar mais
- A mesma coisa está acontecendo com o Haiku da Anthropic e com o Gemini Flash/Flash Lite. Todos estão aumentando preços e aposentando os modelos baratos
A taxa detectada de trapaça do GPT-5.6 Sol foi a mais alta entre os modelos públicos que avaliamos no nosso harness de agente ReAct
No nosso conjunto de tarefas, definimos “trapaça” como o comportamento em que o modelo, em vez de resolver o problema dentro das restrições de avaliação esperadas, explora bugs no ambiente de avaliação ou adota estratégias proibidas pela tarefa para melhorar seu desempenho na avaliação
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
- Esta citação do link é realmente assustadora: em exemplos vistos ao avaliar o GPT-5.6 Sol, o modelo empacotou exploits em submissões intermediárias para revelar informações do conjunto oculto de testes da tarefa ou, em outra tarefa, extraiu código-fonte oculto que descrevia a resposta esperada
  Isso rima com o comportamento visto na Alibaba [0], mas aquilo foi durante o treinamento. Aqui aconteceu em um modelo quase lançado
  [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
- É bastante lógico que os modelos trapaceiem. Durante a avaliação, as solicitações de benchmark são enviadas para o backend dessas empresas
  Tudo o que essas empresas precisam fazer é registrar essas solicitações em logs e “corrigir” no próximo lançamento do modelo
Acho que o GPT é quem escreve código melhor. Só de pensar no quanto ele vai escrever bem na versão 5.6, dá arrepios
Recentemente encarei o GPT de frente em um código de quase 2.000 linhas, e a solução do GPT foi melhor e mais rápida. Tentei consultando várias bases de código no GitHub, mas não chegou nem perto do GPT
Por isso, usar o GPT me dá medo e empolgação ao mesmo tempo. Dá medo perceber que esse nível de código agora vai se tornar a média para a maioria das pessoas, e empolga saber que eu também posso estudar e aprender nesse nível
Estou realmente ansioso para ver o quanto o código vai evoluir mais com o upgrade para 5.6
- Eu estou no campo oposto. Os modelos abertos começaram a se sair melhor, e o GPT 5.5 continua fazendo bagunça
  Por outro lado, a combinação pi + glm + DeepSeek é muito boa. O Fable era um monstro de outro tipo, porém. RIP
- Puramente subjetivo, mas, embora o código do GPT 5.5 talvez tenha um teto geral mais alto, eu prefiro ler a saída do Opus 4.8
  A primeira é um pouco mais fácil de revisar
- Alguns meses atrás ouvi várias vezes exatamente a mesma frase sobre o Opus 4.6; depois, o 4.7 e o 4.8 foram considerados decepcionantes, e hoje as pessoas sentem falta dos “bons tempos do 4.6”
  Os bons tempos aqui se referem a algumas semanas de fevereiro de 2026. É muito interessante ver tudo isso se desenrolar
- Tenho dúvidas sobre o quanto a capacidade de programação terá avançado
  Parece estranho que não haja nenhum benchmark de programação no anúncio, e que o mais próximo disso seja o terminal bench
- Você consegue dar um exemplo? Fiquei curioso sobre o que estava tentando resolver, qual era a sua solução e por que a solução do GPT foi melhor e mais rápida
Se você usou o GPT-5.5 nas últimas 24 horas mais ou menos, talvez já tenha tido acesso ao 5.6
Estamos rodando testes no harness que estamos criando, e ontem alguns pontos subiram de repente. Reexecutamos o benchmark básico do Codex, e o GPT-5.5 marcou cerca de 88% no Terminal Bench 2.1 no Codex básico
O sinal maior do que a pontuação é que três testes que costumavam cair com frequência em bloqueios de “segurança” no 5.5 começaram a passar ontem à noite sem nenhum aviso
- Esse tipo de mudança pode acontecer apenas por alterações de infraestrutura, não por algum misterioso teste A/B
- Você chegou a ler o release? Não foi liberado amplamente para todo mundo
  O texto dizia: “começamos com uma prévia limitada para um pequeno grupo de parceiros confiáveis, cuja participação foi compartilhada com o governo, e depois faremos um lançamento mais amplo”
  Esse comentário é um ótimo exemplo de como o usuário médio de LLM age praticamente como um jogador de caça-níquel. Fica trocando de modelo com base em uma compreensão mística que só ele acha que tem, acreditando que “este está quente, este está com sorte, este é melhor que os outros”
  E por que um benchmark de 80% importaria? Eles treinam nesses benchmarks públicos para impressionar quem dá significado a isso. Mas então por que a taxa de aprovação em tarefas da Upwork de US$20–30/hora é de apenas 4%? Esses benchmarks parecem praticamente inúteis
  Também existe algo chamado variância, e não entendo por que uma pontuação maior em alguns testes faria você acreditar que teve acesso a um modelo ao qual disseram que você não tinha acesso
  https://labs.scale.com/leaderboard/rli
Aproveitando uma thread popular para perguntar: como estão agora os limites de uso do Codex e do Claude?
Antes, dei a mesma tarefa aos dois, e o Codex usou 20 vezes menos do meu limite de 5 horas. Ambos eram planos de US$20 por mês
Eu normalmente prefiro o Claude, então isso me irritou, mas na época os limites o tornavam inviável para trabalho sério
Desde então, os dois provedores reduziram bastante a quantidade disponível, e pelo menos um deles até foi processado por isso
No momento não assino nenhum dos dois e estou avaliando as opções. Como o GPT é um pouco melhor que o Opus e, antes, oferecia limites muito mais altos, estou inclinado a assinar a OpenAI. Mas queria saber se o estado atual bate com a minha memória de 2–3 meses atrás, porque as duas empresas parecem estar cortando custos com força
Prefiro respostas de quem usa os dois, mas relatos anedóticos também são bem-vindos
- Acho o uso do Codex bem generoso. Mas estou no plano de US$200 e também uso o Claude no plano de US$200
  Se eu quiser, consigo rodar xhigh e subagentes quase continuamente durante todo o tempo em que estou acordado. Quando ligo a opção de velocidade 1,5x, às vezes chego ao limite de 5 horas
  Prefiro o clima do Claude ao do 5.5, mas o 5.5 parece bem menos preguiçoso. Claro que isso deve depender muito da tarefa e da estratégia de prompt
- No mês passado, o Claude Max 5x pareceu bastante generoso em termos de uso, porque havia muitos resets por causa do Fable e de bugs
  Usar 5.5 high ou Opus 4.8 high é, sinceramente, bem parecido
  Parece que removeram a cota separada de uso do Sonnet no plano Max, talvez por causa da preparação para o Sonnet 5. É uma pena, porque isso fazia o fluxo de trabalho com subagentes parecer praticamente ilimitado
- Comparando Claude Code com Cursor+Gpt55 no trabalho, o Claude é claramente mais lento e mais caro
- Interessante. Há cerca de um mês comecei a notar que o Claude Code passou a usar aproximadamente 5 vezes mais tokens. É só uma estimativa grosseira
“Também vamos introduzir um novo modo ultra, que usa subagentes para acelerar tarefas complexas além da capacidade de um único agente”, dizem; fico curioso para saber como isso funciona
Os subagentes também podem usar as mesmas ferramentas? O cliente vai ficar inundado de chamadas de ferramentas? Se dá para fazer a mesma coisa no cliente, com mais controle, por que cobrar a mais por um novo “modelo”?
E, se é um exército de subagentes, também fico curioso para saber por que comparar com Fable e Mythos. Se acoplarem um harness parecido, acho que esses modelos provavelmente entregariam benchmarks melhores
- Se for parecido com o ultracode do ClaudeCode, não é algo novo nem inovador
  Essencialmente, é uma estrutura em que um script determinístico escrito pela thread do modelo principal chama vários subagentes, cada um deles consome um monte de tokens, e depois o agente orquestrador sintetiza as saídas
- Se for parecido com o Claude Ultracode, um único prompt queima 3 milhões de tokens em 30 minutos
- Os principais harnesses (pi, Claude code, codex) não usam todos subagentes?
  Se você instruir explicitamente, com certeza usam; e pelo menos no pi eu já vi subir subagentes mesmo sem instrução explícita
- Também acho interessante. Se não for puramente para extrair um pouco mais de desempenho, imagino que seja para coletar de forma limpa dados de uso real desse tipo de uso
- Surpreende que eles já não estivessem usando subagentes. Talvez estejam apenas falando que a implantação web foi integrada ao codex
Assim como na época do Mythos, não fico nem um pouco empolgado com um modelo que não posso usar
- Pelo menos a OpenAI tem planos de disponibilizar todas as versões ao público. Parece muito melhor do que o que está acontecendo na Anthropic
  “Sim, temos o melhor modelo existente. Confie em nós. É realmente assustador”
  “Ah, é? Posso ver?”
  “Cai fora. Para plebeus como vocês, vamos dar uma versão pior”
  “Hum, obrigado?”
  “kkk, na verdade nem isso. A atual administração caiu no nosso marketing do medo. Vamos dar a vocês um devorador de tokens pior e absurdamente caro. As restrições de hardware ficam piores a cada semana”
  Digam o que quiserem sobre a OpenAI, mas a estratégia corporativa parece muito mais sólida
Para mim, a frase “Terra tem desempenho competitivo com o GPT‑5.5 e é 2x mais barato” soa como “é um produto inferior, mas estamos tentando esconder isso no marketing”
E frases como “nossa pilha de segurança mais robusta até agora, proteções reforçadas contra atividades de alto risco, solicitações cibernéticas sensíveis e uso indevido repetido, semanas de busca por fraquezas, testes de pressão e reforço contra ataques reais” no melhor dos casos não têm valor para mim e, na maioria das vezes, provavelmente prejudicam. Porque haverá mais recusas ou a utilidade será enfraquecida
Por que os provedores continuam colocando a pilha de segurança em primeiro plano? Existe cliente pedindo isso? Não consigo pensar em ninguém além de usuários de chatbots ChatGPT de suporte
- “Terra tem desempenho competitivo com o GPT‑5.5 e é 2x mais barato” eu interpreto como: você recebe o desempenho mainline de hoje por um preço muito menor
- O objetivo do Terra é ser mais barato que o modelo de ponta, mas ainda bastante bom. Naturalmente, ele é inferior em inteligência
- Essa mensagem é claramente voltada para o governo. É só olhar o outro fio
- Talvez também seja uma mensagem para investidores

Prévia do GPT‑5.6 Sol: o modelo de próxima geração

Escopo da prévia da série GPT‑5.6

Lançamento limitado e coordenação com o governo

Capacidades e avaliações dos modelos

Modos de raciocínio

Codificação e biologia

Cibersegurança

Capacidades cibernéticas e salvaguardas

Limiar Cyber Critical

Pilha de segurança em camadas

Recusas no nível do modelo e verificações em tempo real

Revisão no nível da conta e acesso diferenciado

Impacto para usuários durante a prévia

Red teaming automatizado para melhorar a robustez

Disponibilização e preços

Preços de tokens e caching

Disponibilidade pela Cerebras

Leituras relacionadas

1 comentários

Opiniões do Hacker News