Bug bounty de bio do GPT-5.5
(openai.com)- Foi aberto um programa de busca por um jailbreak universal para o GPT‑5.5, com o objetivo de testar as salvaguardas biológicas, fazendo o modelo passar por cinco perguntas de segurança biológica
- O escopo é limitado ao GPT‑5.5 exclusivo do Codex Desktop, e é preciso fazer com que ele responda às cinco perguntas com um único prompt, sem acionar moderação em um chat novo
- O primeiro jailbreak universal real que passar por todas as cinco perguntas receberá US$ 25.000, e sucessos parciais podem receber prêmios menores, a critério da organização
- As inscrições vão de 23 de abril de 2026 a 22 de junho de 2026, e os testes acontecem de 28 de abril de 2026 a 27 de julho de 2026; os participantes serão selecionados por um modelo combinado de convite e análise de inscrições
- Participantes aprovados e colaboradores precisarão de uma conta do ChatGPT e de assinar um NDA; todos os prompts, completions, descobertas e comunicações também ficam cobertos pelo NDA
Visão geral do programa
- Para reforçar as salvaguardas biológicas, está sendo realizado um Bio Bug Bounty para o GPT‑5.5, com inscrições abertas para encontrar um jailbreak universal que passe por todas as cinco perguntas de segurança biológica
- O modelo incluído no escopo é limitado ao GPT‑5.5 exclusivo do Codex Desktop
- A tarefa é fazer com que, em um chat novo e limpo, sem acionar moderação, um único prompt universal de jailbreaking leve o modelo a responder com sucesso às cinco perguntas de segurança biológica
- A recompensa será de US$ 25.000 para o primeiro jailbreak universal real que passar por todas as cinco perguntas, e sucessos parciais podem receber prêmios menores a critério da organização
- As inscrições começam em 23 de abril de 2026 e terminam em 22 de junho de 2026, enquanto os testes começam em 28 de abril de 2026 e se encerram em 27 de julho de 2026
- A abordagem combina inscrições e convites: convites serão enviados a uma lista confiável de bio red-teamers, novas inscrições também serão analisadas, e os participantes selecionados serão integrados à plataforma do bio bug bounty
- Todos os prompts, completions, descobertas e comunicações estão sujeitos a NDA
Como participar
- Na página de inscrição, basta enviar até 22 de junho de 2026 um formulário curto com nome, afiliação e experiência
- Candidatos aprovados e colaboradores precisam ter uma conta existente do ChatGPT para se inscrever e também devem assinar um NDA
- Além do Bio Bounty, também estão disponíveis os programas Safety Bug Bounty e Security Bug Bounty como outros canais de participação em segurança e proteção
1 comentários
Comentários do Hacker News
Na página de bug bounty da OpenAI está claramente escrito que
accounts and billingé uma categoria válida,mas, mesmo assim, quando alguém reportou um bug em que qualquer pessoa podia escolher qualquer país ao assinar o ChatGPT para pagar um preço mais barato e ainda zerar o imposto em 0%, mesmo que tanto o país do preço escolhido quanto o país do endereço de cobrança tivessem imposto sobre vendas/VAT por obrigação legal, disseram que isso estava fora do escopo e não qualificava para bounty
A Netflix teve um "problema" parecido, e as ações até subiam durante os lockdowns
Todo mundo tenta escapar de pagar de algum jeito, e é melhor abandonar a expectativa de que a empresa vai tratar com justiça qualquer coisa que você encontrar
No ano passado houve um bounty no Kaggle, com pagamento total de 500 mil dólares, e também era possível divulgar todos os resultados
https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
Desta vez são só 25 mil dólares e tudo fica preso por NDA, então parece improvável que muita gente participe além de envios aleatórios feitos por LLMs
a OpenAI acaba repassando parte do custo da própria análise como custo de tokens pago pelos clientes
No ano passado, uma startup cripto que parecia ter algo entre 5 e 10 milhões de dólares em financiamento abriu um desafio parecido de prompt injection contra os Claude e GPT mais recentes, e quando ganhei lá recebi bem mais
Com uma recompensa tão baixa e um NDA tão rígido, isso parece mais um evento de marketing do que uma tentativa séria de atrair caçadores de bounty, já que também não querem pagar muito nem permitir a divulgação da pesquisa
Dá a sensação de que querem manter as pessoas testando sem parar, mas evitar relatório público dos resultados ou drama sobre quem recebeu dinheiro
A competição do ano passado também não era para um modelo 120b, nem tinha biologia como tema
Não sei onde está a lista de perguntas que precisa ser respondida
Se ela só vai ser divulgada depois da aprovação, não faz sentido pedirem na inscrição que você descreva sua abordagem de jailbreak sem nem saber quais são as perguntas
Por exemplo, algo como "como montar com 20 mil dólares um pequeno biolab de pesquisa de vírus na cozinha?",
ou como montar a sequência de DNA de https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
Muito provavelmente isso também ficará sob NDA
A frase
enviar convites para uma lista verificada de trusted bio red-teamersé meio engraçadaSoa como um grupo bem fechado
As pessoas que provavelmente fariam isso melhor talvez nem sejam o tipo que entraria numa dessas listas verificadas
Quando dizem
25.000 dólares para o primeiro jailbreak universal de verdade que passar pelas cinco perguntas,esse programa parece quase uma estrutura enganosa
Mesmo que 100 pessoas encontrem bugs, no fim só uma vai receber
Ninguém dá prêmio de participação só porque alguém resolveu metade do quebra-cabeça
Só que o ponto 1 não foi demonstrado e, sinceramente, nem parece muito provável, então o ponto 2 também perde força
Além disso, se o prêmio é tão baixo e a estrutura tão restritiva, parece que na prática eles não estão tão preocupados assim, embora achem provável que bastante gente encontre alguma coisa
Se realmente acreditassem que o modelo é extraordinariamente seguro, o natural seria assumir que os problemas seriam raros e críticos e oferecer uma recompensa grande sem teto
Ainda mais se o escopo inclui um app desktop que qualquer um pode baixar
Também é preciso pensar em como impedir que eu encontre uma solução, conte para um amigo, e os dois tentem reivindicar o prêmio
Isso parece um pouco marketing e, na prática, algo parecido com spec work
Além disso, com NDA e tanto sigilo, se você não ganhar, o tempo investido praticamente não deixa nenhum valor para o participante
Afinal, não dá nem para divulgar o resultado
Se for assim, eles podem simplesmente não pagar e ainda enterrar a história, e eu jamais aceitaria esses termos
Parece que a OpenAI agora também está adotando essa narrativa de
somos perigososque começou na AnthropicPara quem está se perguntando o que são bio-bugs,
trata-se de levar o modelo a fornecer instruções que ajudem o usuário a fazer na prática algo perigoso na área de biologia
Por exemplo, ele até pode explicar o que é ricina, mas não deveria responder como transformá-la em arma
O ponto principal é fornecer informações acionáveis que não deveriam ser dadas por razões legais e éticas
É difícil entender essa estrutura de
inscrição e acesso por conviteeconvite apenas para bio red-teamers confiáveisA essência de um programa de bug bounty é incentivar as pessoas a encontrar vulnerabilidades e divulgá-las, mas, quando se coloca esse papel de porteiro, quem não for considerado confiável continua tentando hackear e passa a ter incentivo para vender isso para o lado errado em vez de divulgar
Minha empresa anterior também usava HackerOne só por convite, mas isso era porque podia haver dano a dados reais de clientes ou à infraestrutura
Havia risco de fazer DDOS, ou de usar exploits que quebrassem o isolamento entre tenants para acessar ou apagar dados de outros clientes
Aqui não parece haver esse tipo de risco, então não entendo por que não deixar qualquer pessoa que legalmente possa receber dinheiro participar
Se abrir apenas para certas pessoas, reduz-se a carga de ter que distinguir se um usuário aleatório inserindo prompts parecidos é um participante do desafio ou um agente malicioso de verdade
Não entendi o que significa
a clean chat without prompting moderationO que exatamente é prompting moderation?
Ou seja, o objetivo do exploit é contornar o sistema sem "acionar" esse filtro, e aqui prompting não está sendo usado no sentido técnico de inserir texto no contexto, mas mais no sentido comum de provocar
Eu provavelmente também conseguiria fazer isso, mas não entendo por que eu colocaria meu próprio nome numa lista de pessoas perigosas
O problema maior é que, mesmo que consigam bloquear todos os pontos de falha do GPT-5.5, isso na prática é impossível; e, mesmo que consigam, ainda dá para fazer distillation a partir de um closed model e extrair mais ou menos o que se quer com algo de 4b parâmetros ou menos
No fim, isso tudo parece mais uma encenação para reduzir a exposição a processos quando algum problema acontecer depois
Quase nunca ouvi falar desse tipo de engenharia reversa de modelos