5 pontos por GN⁺ 2025-12-05 | 1 comentários | Compartilhar no WhatsApp
  • Modelos de IA demonstraram por simulação, ao explorar vulnerabilidades reais de contratos inteligentes em blockchain, um potencial de perda de US$4,6 milhões
  • A equipe de pesquisa construiu e avaliou o benchmark SCONE-bench com base em 405 contratos que foram realmente hackeados entre 2020 e 2025
  • Claude Opus 4.5, Sonnet 4.5 e GPT-5 atacaram com sucesso 55,8% de contratos mesmo após o ponto de corte de conhecimento mais recente
  • Dois modelos identificaram 2 novas vulnerabilidades zero-day, comprovando que ataques autônomos são tecnicamente viáveis também em ambiente real
  • Com a rápida melhora da capacidade ofensiva da IA, reforça-se a urgência da adoção de IA com foco em defesa

SCONE-bench: benchmark de ataques a contratos inteligentes

  • A equipe de pesquisa desenvolveu o SCONE-bench para quantificar o impacto econômico das vulnerabilidades de contratos inteligentes
    • Inclui 405 contratos que foram realmente explorados entre 2020 e 2025
    • Coletados em 3 blockchains, incluindo Ethereum, Binance Smart Chain e Base
    • Cada contrato pode ser reproduzido em ambiente de simulação (baseado em Docker)
  • Cada agente de IA deve identificar uma vulnerabilidade e gerar um script de ataque em até 60 minutos para aumentar o saldo de tokens
  • O benchmark também pode ser usado como ferramenta de verificação de segurança antes do deploy

Principais resultados do experimento

  • Das 405 questões totais, 10 modelos de IA atacaram com sucesso 207 (51,1%), gerando US$550,100,000 em perdas simuladas
  • Na avaliação com apenas 34 contratos explorados após março de 2025, Opus 4.5, Sonnet 4.5 e GPT-5 tiveram sucesso em atacar 19 (55,8%)
    • O total de perdas foi de US$4,6 milhões, com Opus 4.5 sozinho alcançando US$4,5 milhões
  • Sonnet 4.5 e GPT-5 analisaram 2.849 contratos novos e encontraram 2 vulnerabilidades zero-day
    • Retorno total de US$3.694, e o custo da API do GPT-5 foi de US$3.476
    • A rentabilidade de ataques autônomos foi comprovada

Casos de vulnerabilidade

  • Vulnerabilidade #1: ausência do qualificador view em função somente leitura gerando inflação de tokens
    • O atacante infla o saldo por chamadas repetidas, com cerca de US$2.500 de lucro, no máximo US$19.000
    • Um hacker white hat recuperou os ativos
  • Vulnerabilidade #2: falta de validação do destinatário da taxa, permitindo que qualquer endereço faça o saque de taxas
    • Um atacante real saqueou cerca de US$1.000 quatro dias depois

Análise de custos

  • O custo total de execução do agente GPT-5 foi US$3.476, com média de US$1,22 por execução
  • Custo médio por contrato vulnerável: US$1.738, retorno médio US$1.847, lucro líquido US$109
  • O uso de tokens caiu 70,2% em 6 meses, com ganho de eficiência médio de 23,4% por geração
    • Possibilidade de 3,4 vezes mais ataques bem-sucedidos com o mesmo orçamento

Conclusões e implicações

  • Em apenas um ano, a taxa de sucesso de ataque dos agentes de IA subiu de 2% para 55,88% e o dano passou de US$5.000 para US$4,6 milhões
  • O lucro de ataque dobrou a cada 1,3 mês, enquanto o custo de tokens caiu 23% a cada 2 meses
  • O tempo até a exploração de uma vulnerabilidade após o deployment de um contrato deve cair drasticamente
  • Além de contratos inteligentes, todo código de software pode se tornar alvo de ataques de IA
  • A mesma tecnologia também pode ser usada para agentes de IA defensivos, destacando a necessidade de automação de segurança baseada em IA

1 comentários

 
GN⁺ 2025-12-05
Comentários do Hacker News
  • Nossa startup está desenvolvendo agentes para testes de intrusão
    Estamos apostando nessa direção há mais de um ano, desde que os modelos começaram a ficar realmente bons em programação
    O salto de desempenho do Sonnet 4 para o 4.5 foi enorme, e agora estamos testando internamente o Opus 4.5
    Esta é a primeira versão do Opus barata o bastante para uso em produção, então estamos praticamente saturando os casos de teste e redesenhando nosso sistema de benchmark

    • Eu também já tive experiência usando LLMs para fazer análise estática de vulnerabilidades de segurança em código
      Mas a Anthropic parece deter o núcleo dessa tecnologia, então não sei se faz sentido abrir uma startup nisso
      Se eu fosse empreender nessa situação, fico pensando se a estratégia certa seria crescer rápido e sair via exit antes que o mercado perceba
    • Esta geração de modelos (Opus 4.5, GPT 5.1, Gemini Pro 3), na minha opinião, é o maior avanço desde o gpt-4o
      Antes eles só funcionavam bem em frameworks familiares como Python ou Next.js, mas agora também lidam com frameworks novos
      Resolvem sozinhos erros de lint e depuração, e o preço já é realista para vários usos
    • Tenho curiosidade sobre como vocês induzem modelos públicos de produção a fazer desenvolvimento de exploits
      Pela minha experiência, os resultados foram inconsistentes, e se o usuário receber respostas como “não posso ajudar com isso”, para uma startup isso parece complicado
    • Eu administro uma startup de software para hotéis, então se você quiser mostrar o quão bem seu agente funciona
      pode procurar por rook (nome da peça de xadrez) hotel.com
  • Eu simplesmente não entendo aquele gráfico
    Não sei o que ele quer demonstrar, e a alegação de que seria “linear” também parece mal fundamentada
    A parte de “US$ 4,6 milhões em fundos roubados simulados” sugere que estavam mirando contratos vulneráveis já conhecidos
    Então a manchete parece um pouco fraca

  • Há um trecho em que a equipe de pesquisa diz que não testou em blockchains reais
    Entendo que isso seja para evitar danos no mundo real, mas tira um pouco do impacto
    Isso me fez lembrar daquele caso de hack da Ethereum em que “os bons hackers roubaram o dinheiro primeiro para depois devolvê-lo”

    • A história do fork da Ethereum naquela época foi realmente irônica
      Era “somos um dinheiro imutável sem bancos nem regulação”, mas depois virou
      “precisamos restaurar o dinheiro que pessoas importantes perderam”, então acabaram agindo como um banco
    • Talvez alguém já esteja usando IA para analisar segurança de smart contracts em ambientes reais
      Provavelmente despejando poder de GPU nisso, com exploits e criptomoedas saindo do outro lado
    • O artigo não explica como foi “estimado” o número de vítimas, o que deixa dúvidas
      Se você gasta US$ 3.500 em tokens de IA para corrigir um bug que vale US$ 3.600, também não fica claro quem deveria arcar com esse custo
      No fim, isso soa como uma mensagem de marketing da Anthropic — algo como “venha mudar o mundo com nosso modelo”
    • Um verdadeiro cyberpunk provavelmente teria voltado para dinheiro anônimo em espécie
  • A frase “dois agentes encontraram uma vulnerabilidade zero-day e criaram um exploit avaliado em US$ 3.694” está no topo do artigo

    • Mas, para ser um número realista, provavelmente seria preciso incluir também o custo do trabalho da equipe de desenvolvimento
      Colocar esse tipo de frase na linha de frente do PR foi uma escolha bem arriscada
  • Vi o vídeo da apresentação relacionado à competição DARPA AIxCC,
    e pelo nível atual isso não me surpreende nem um pouco

  • Alguém pediu que explicassem o que são smart contracts
    Disse que entende a estrutura “se X acontecer, então Y”, mas questionou se isso não pode ser manipulado dependendo de quem informa o X

    • Um smart contract puro automatiza transações simples, como uma troca de tokens
      Por exemplo, você entrega 100 tokens apple e recebe 50 tokens pear
      Em formas mais complexas, também é possível fazer distribuição de fundos baseada em votação
      Mas informações do mundo externo (por exemplo, resultado de uma eleição) precisam entrar por meio de um oráculo
    • Nem sempre há entrada externa
      Por exemplo, um contrato do tipo “se o endereço A depositar X moedas, o endereço Y envia Y moedas”
      continua tendo lógica de validação, então manipulação arbitrária é impossível
      Mas, quando se lida com eventos do mundo real (off-chain), surge a questão da confiança no oráculo
    • Um contrato, depois de implantado, é um código imutável, então é importante verificar a estrutura de permissões antes de usar
      Em casos como contratos proxy, que podem apontar para outro código, às vezes se usa um timelock para estabelecer confiança
      Oráculos off-chain sempre exigem algum nível de confiança
    • A blockchain é um ambiente isolado que só conhece seus próprios dados
      Para usar dados externos, é preciso um oráculo,
      e você pode aprender mais na introdução aos oráculos da Chainlink
    • Você não deve fazer esse tipo de contrato com pessoas não confiáveis
      Golpistas podem deixar brechas no código para desviar fundos
      Contratos legítimos tentam impedir esse tipo de coisa, mas os vetores de ataque são infinitos
  • A conclusão de que “a IA já pode realizar exploits autônomos realmente lucrativos”
    parecer levar diretamente a “precisamos adotar IA ativamente para defesa” me soa como um salto lógico

    • Mas, do ponto de vista de quem desenvolve smart contracts, ter uma ferramenta barata e poderosa de detecção automática de vulnerabilidades certamente seria de grande ajuda
  • A frase “estabelecemos um limite inferior para o dano econômico”
    parece, na prática, estar falando de eficiência de mercado

  • No nosso projeto, já estamos vendo comportamentos de autoaperfeiçoamento
    O próximo passo parece naturalmente ser agentes autoaperfeiçoáveis
    É bem interessante estar no meio desse movimento

  • O fato de a equipe de pesquisa ter dito que não testou em blockchains reais
    acaba sendo engraçado porque parece ter servido de catalisador para empurrar as pessoas para uma corrida de uso de modelos