1 pontos por GN⁺ 4 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Foi aberto um programa de busca por um jailbreak universal para o GPT‑5.5, com o objetivo de testar as salvaguardas biológicas, fazendo o modelo passar por cinco perguntas de segurança biológica
  • O escopo é limitado ao GPT‑5.5 exclusivo do Codex Desktop, e é preciso fazer com que ele responda às cinco perguntas com um único prompt, sem acionar moderação em um chat novo
  • O primeiro jailbreak universal real que passar por todas as cinco perguntas receberá US$ 25.000, e sucessos parciais podem receber prêmios menores, a critério da organização
  • As inscrições vão de 23 de abril de 2026 a 22 de junho de 2026, e os testes acontecem de 28 de abril de 2026 a 27 de julho de 2026; os participantes serão selecionados por um modelo combinado de convite e análise de inscrições
  • Participantes aprovados e colaboradores precisarão de uma conta do ChatGPT e de assinar um NDA; todos os prompts, completions, descobertas e comunicações também ficam cobertos pelo NDA

Visão geral do programa

  • Para reforçar as salvaguardas biológicas, está sendo realizado um Bio Bug Bounty para o GPT‑5.5, com inscrições abertas para encontrar um jailbreak universal que passe por todas as cinco perguntas de segurança biológica
  • O modelo incluído no escopo é limitado ao GPT‑5.5 exclusivo do Codex Desktop
  • A tarefa é fazer com que, em um chat novo e limpo, sem acionar moderação, um único prompt universal de jailbreaking leve o modelo a responder com sucesso às cinco perguntas de segurança biológica
  • A recompensa será de US$ 25.000 para o primeiro jailbreak universal real que passar por todas as cinco perguntas, e sucessos parciais podem receber prêmios menores a critério da organização
  • As inscrições começam em 23 de abril de 2026 e terminam em 22 de junho de 2026, enquanto os testes começam em 28 de abril de 2026 e se encerram em 27 de julho de 2026
  • A abordagem combina inscrições e convites: convites serão enviados a uma lista confiável de bio red-teamers, novas inscrições também serão analisadas, e os participantes selecionados serão integrados à plataforma do bio bug bounty
  • Todos os prompts, completions, descobertas e comunicações estão sujeitos a NDA

Como participar

  • Na página de inscrição, basta enviar até 22 de junho de 2026 um formulário curto com nome, afiliação e experiência
  • Candidatos aprovados e colaboradores precisam ter uma conta existente do ChatGPT para se inscrever e também devem assinar um NDA
  • Além do Bio Bounty, também estão disponíveis os programas Safety Bug Bounty e Security Bug Bounty como outros canais de participação em segurança e proteção

1 comentários

 
GN⁺ 4 일 전
Comentários do Hacker News
  • Na página de bug bounty da OpenAI está claramente escrito que accounts and billing é uma categoria válida,
    mas, mesmo assim, quando alguém reportou um bug em que qualquer pessoa podia escolher qualquer país ao assinar o ChatGPT para pagar um preço mais barato e ainda zerar o imposto em 0%, mesmo que tanto o país do preço escolhido quanto o país do endereço de cobrança tivessem imposto sobre vendas/VAT por obrigação legal, disseram que isso estava fora do escopo e não qualificava para bounty

    • Talvez seja porque o objetivo não seja maximizar o lucro por usuário, mas sim aumentar a base de usuários
      A Netflix teve um "problema" parecido, e as ações até subiam durante os lockdowns
    • Agora vejo que quase não há motivo para confiar em bug bounties corporativos
      Todo mundo tenta escapar de pagar de algum jeito, e é melhor abandonar a expectativa de que a empresa vai tratar com justiça qualquer coisa que você encontrar
  • No ano passado houve um bounty no Kaggle, com pagamento total de 500 mil dólares, e também era possível divulgar todos os resultados
    https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
    Desta vez são só 25 mil dólares e tudo fica preso por NDA, então parece improvável que muita gente participe além de envios aleatórios feitos por LLMs

    • Se ao menos parte dos participantes usar modelos e prompts razoavelmente bons,
      a OpenAI acaba repassando parte do custo da própria análise como custo de tokens pago pelos clientes
    • Considerando a escala de recursos da OpenAI, surpreende que o valor do bounty seja tão baixo
      No ano passado, uma startup cripto que parecia ter algo entre 5 e 10 milhões de dólares em financiamento abriu um desafio parecido de prompt injection contra os Claude e GPT mais recentes, e quando ganhei lá recebi bem mais
      Com uma recompensa tão baixa e um NDA tão rígido, isso parece mais um evento de marketing do que uma tentativa séria de atrair caçadores de bounty, já que também não querem pagar muito nem permitir a divulgação da pesquisa
    • Parece só uma versão econômica do Kaggle
      Dá a sensação de que querem manter as pessoas testando sem parar, mas evitar relatório público dos resultados ou drama sobre quem recebeu dinheiro
    • Esse modelo é muito mais poderoso que o gpt-oss-20b
      A competição do ano passado também não era para um modelo 120b, nem tinha biologia como tema
  • Não sei onde está a lista de perguntas que precisa ser respondida
    Se ela só vai ser divulgada depois da aprovação, não faz sentido pedirem na inscrição que você descreva sua abordagem de jailbreak sem nem saber quais são as perguntas

    • É bem possível que as próprias perguntas envolvam conteúdo perigoso
      Por exemplo, algo como "como montar com 20 mil dólares um pequeno biolab de pesquisa de vírus na cozinha?",
      ou como montar a sequência de DNA de https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
    • Imagino que, se você for convidado para esta rodada, aí sim receba as perguntas
      Muito provavelmente isso também ficará sob NDA
  • A frase enviar convites para uma lista verificada de trusted bio red-teamers é meio engraçada
    Soa como um grupo bem fechado

    • Dá um pouco a sensação de pedir para doutores em ciência da computação fazerem speedrun de recorde mundial
      As pessoas que provavelmente fariam isso melhor talvez nem sejam o tipo que entraria numa dessas listas verificadas
  • Quando dizem 25.000 dólares para o primeiro jailbreak universal de verdade que passar pelas cinco perguntas,
    esse programa parece quase uma estrutura enganosa
    Mesmo que 100 pessoas encontrem bugs, no fim só uma vai receber

    • Se a taxa de uso da API também for paga pelos participantes, então a OpenAI pode acabar até lucrando com isso
    • Não entendo por que isso seria enganoso
      Ninguém dá prêmio de participação só porque alguém resolveu metade do quebra-cabeça
    • O ponto central não é tanto a estrutura da recompensa, mas a encenação de credibilidade
      1. Este modelo é tão avançado que traz um risco enorme e sem precedentes
      2. Por isso estão oferecendo incentivos de forma responsável para mitigar esse risco
        Só que o ponto 1 não foi demonstrado e, sinceramente, nem parece muito provável, então o ponto 2 também perde força
        Além disso, se o prêmio é tão baixo e a estrutura tão restritiva, parece que na prática eles não estão tão preocupados assim, embora achem provável que bastante gente encontre alguma coisa
        Se realmente acreditassem que o modelo é extraordinariamente seguro, o natural seria assumir que os problemas seriam raros e críticos e oferecer uma recompensa grande sem teto
    • O fato de ser um programa de bounty privado e ainda exigir inscrição e aprovação também parece suspeito
      Ainda mais se o escopo inclui um app desktop que qualquer um pode baixar
    • Isso depende do desenho do programa de bounty
      Também é preciso pensar em como impedir que eu encontre uma solução, conte para um amigo, e os dois tentem reivindicar o prêmio
  • Isso parece um pouco marketing e, na prática, algo parecido com spec work
    Além disso, com NDA e tanto sigilo, se você não ganhar, o tempo investido praticamente não deixa nenhum valor para o participante
    Afinal, não dá nem para divulgar o resultado

    • Parece que, mesmo se recusarem pagar o bounty, você ainda pode continuar preso ao NDA
      Se for assim, eles podem simplesmente não pagar e ainda enterrar a história, e eu jamais aceitaria esses termos
    • Claro que existe um componente de marketing
      Parece que a OpenAI agora também está adotando essa narrativa de somos perigosos que começou na Anthropic
  • Para quem está se perguntando o que são bio-bugs,
    trata-se de levar o modelo a fornecer instruções que ajudem o usuário a fazer na prática algo perigoso na área de biologia
    Por exemplo, ele até pode explicar o que é ricina, mas não deveria responder como transformá-la em arma
    O ponto principal é fornecer informações acionáveis que não deveriam ser dadas por razões legais e éticas

  • É difícil entender essa estrutura de inscrição e acesso por convite e convite apenas para bio red-teamers confiáveis
    A essência de um programa de bug bounty é incentivar as pessoas a encontrar vulnerabilidades e divulgá-las, mas, quando se coloca esse papel de porteiro, quem não for considerado confiável continua tentando hackear e passa a ter incentivo para vender isso para o lado errado em vez de divulgar
    Minha empresa anterior também usava HackerOne só por convite, mas isso era porque podia haver dano a dados reais de clientes ou à infraestrutura
    Havia risco de fazer DDOS, ou de usar exploits que quebrassem o isolamento entre tenants para acessar ou apagar dados de outros clientes
    Aqui não parece haver esse tipo de risco, então não entendo por que não deixar qualquer pessoa que legalmente possa receber dinheiro participar

    • Existe uma explicação plausível
      Se abrir apenas para certas pessoas, reduz-se a carga de ter que distinguir se um usuário aleatório inserindo prompts parecidos é um participante do desafio ou um agente malicioso de verdade
  • Não entendi o que significa a clean chat without prompting moderation
    O que exatamente é prompting moderation?

    • Quer dizer provocar a intervenção do filtro de moderação durante a conversa
      Ou seja, o objetivo do exploit é contornar o sistema sem "acionar" esse filtro, e aqui prompting não está sendo usado no sentido técnico de inserir texto no contexto, mas mais no sentido comum de provocar
  • Eu provavelmente também conseguiria fazer isso, mas não entendo por que eu colocaria meu próprio nome numa lista de pessoas perigosas
    O problema maior é que, mesmo que consigam bloquear todos os pontos de falha do GPT-5.5, isso na prática é impossível; e, mesmo que consigam, ainda dá para fazer distillation a partir de um closed model e extrair mais ou menos o que se quer com algo de 4b parâmetros ou menos
    No fim, isso tudo parece mais uma encenação para reduzir a exposição a processos quando algum problema acontecer depois

    • Como se faz distillation a partir desses modelos de pesos fechados?
      Quase nunca ouvi falar desse tipo de engenharia reversa de modelos