- Modelos de IA demonstraram por simulação, ao explorar vulnerabilidades reais de contratos inteligentes em blockchain, um potencial de perda de US$4,6 milhões
- A equipe de pesquisa construiu e avaliou o benchmark SCONE-bench com base em 405 contratos que foram realmente hackeados entre 2020 e 2025
- Claude Opus 4.5, Sonnet 4.5 e GPT-5 atacaram com sucesso 55,8% de contratos mesmo após o ponto de corte de conhecimento mais recente
- Dois modelos identificaram 2 novas vulnerabilidades zero-day, comprovando que ataques autônomos são tecnicamente viáveis também em ambiente real
- Com a rápida melhora da capacidade ofensiva da IA, reforça-se a urgência da adoção de IA com foco em defesa
SCONE-bench: benchmark de ataques a contratos inteligentes
- A equipe de pesquisa desenvolveu o SCONE-bench para quantificar o impacto econômico das vulnerabilidades de contratos inteligentes
- Inclui 405 contratos que foram realmente explorados entre 2020 e 2025
- Coletados em 3 blockchains, incluindo Ethereum, Binance Smart Chain e Base
- Cada contrato pode ser reproduzido em ambiente de simulação (baseado em Docker)
- Cada agente de IA deve identificar uma vulnerabilidade e gerar um script de ataque em até 60 minutos para aumentar o saldo de tokens
- O benchmark também pode ser usado como ferramenta de verificação de segurança antes do deploy
Principais resultados do experimento
- Das 405 questões totais, 10 modelos de IA atacaram com sucesso 207 (51,1%), gerando US$550,100,000 em perdas simuladas
- Na avaliação com apenas 34 contratos explorados após março de 2025, Opus 4.5, Sonnet 4.5 e GPT-5 tiveram sucesso em atacar 19 (55,8%)
- O total de perdas foi de US$4,6 milhões, com Opus 4.5 sozinho alcançando US$4,5 milhões
- Sonnet 4.5 e GPT-5 analisaram 2.849 contratos novos e encontraram 2 vulnerabilidades zero-day
- Retorno total de US$3.694, e o custo da API do GPT-5 foi de US$3.476
- A rentabilidade de ataques autônomos foi comprovada
Casos de vulnerabilidade
- Vulnerabilidade #1: ausência do qualificador
view em função somente leitura gerando inflação de tokens
- O atacante infla o saldo por chamadas repetidas, com cerca de US$2.500 de lucro, no máximo US$19.000
- Um hacker white hat recuperou os ativos
- Vulnerabilidade #2: falta de validação do destinatário da taxa, permitindo que qualquer endereço faça o saque de taxas
- Um atacante real saqueou cerca de US$1.000 quatro dias depois
Análise de custos
- O custo total de execução do agente GPT-5 foi US$3.476, com média de US$1,22 por execução
- Custo médio por contrato vulnerável: US$1.738, retorno médio US$1.847, lucro líquido US$109
- O uso de tokens caiu 70,2% em 6 meses, com ganho de eficiência médio de 23,4% por geração
- Possibilidade de 3,4 vezes mais ataques bem-sucedidos com o mesmo orçamento
Conclusões e implicações
- Em apenas um ano, a taxa de sucesso de ataque dos agentes de IA subiu de 2% para 55,88% e o dano passou de US$5.000 para US$4,6 milhões
- O lucro de ataque dobrou a cada 1,3 mês, enquanto o custo de tokens caiu 23% a cada 2 meses
- O tempo até a exploração de uma vulnerabilidade após o deployment de um contrato deve cair drasticamente
- Além de contratos inteligentes, todo código de software pode se tornar alvo de ataques de IA
- A mesma tecnologia também pode ser usada para agentes de IA defensivos, destacando a necessidade de automação de segurança baseada em IA
1 comentários
Comentários do Hacker News
Nossa startup está desenvolvendo agentes para testes de intrusão
Estamos apostando nessa direção há mais de um ano, desde que os modelos começaram a ficar realmente bons em programação
O salto de desempenho do Sonnet 4 para o 4.5 foi enorme, e agora estamos testando internamente o Opus 4.5
Esta é a primeira versão do Opus barata o bastante para uso em produção, então estamos praticamente saturando os casos de teste e redesenhando nosso sistema de benchmark
Mas a Anthropic parece deter o núcleo dessa tecnologia, então não sei se faz sentido abrir uma startup nisso
Se eu fosse empreender nessa situação, fico pensando se a estratégia certa seria crescer rápido e sair via exit antes que o mercado perceba
Antes eles só funcionavam bem em frameworks familiares como Python ou Next.js, mas agora também lidam com frameworks novos
Resolvem sozinhos erros de lint e depuração, e o preço já é realista para vários usos
Pela minha experiência, os resultados foram inconsistentes, e se o usuário receber respostas como “não posso ajudar com isso”, para uma startup isso parece complicado
pode procurar por rook (nome da peça de xadrez) hotel.com
Eu simplesmente não entendo aquele gráfico
Não sei o que ele quer demonstrar, e a alegação de que seria “linear” também parece mal fundamentada
A parte de “US$ 4,6 milhões em fundos roubados simulados” sugere que estavam mirando contratos vulneráveis já conhecidos
Então a manchete parece um pouco fraca
Há um trecho em que a equipe de pesquisa diz que não testou em blockchains reais
Entendo que isso seja para evitar danos no mundo real, mas tira um pouco do impacto
Isso me fez lembrar daquele caso de hack da Ethereum em que “os bons hackers roubaram o dinheiro primeiro para depois devolvê-lo”
Era “somos um dinheiro imutável sem bancos nem regulação”, mas depois virou
“precisamos restaurar o dinheiro que pessoas importantes perderam”, então acabaram agindo como um banco
Provavelmente despejando poder de GPU nisso, com exploits e criptomoedas saindo do outro lado
Se você gasta US$ 3.500 em tokens de IA para corrigir um bug que vale US$ 3.600, também não fica claro quem deveria arcar com esse custo
No fim, isso soa como uma mensagem de marketing da Anthropic — algo como “venha mudar o mundo com nosso modelo”
A frase “dois agentes encontraram uma vulnerabilidade zero-day e criaram um exploit avaliado em US$ 3.694” está no topo do artigo
Colocar esse tipo de frase na linha de frente do PR foi uma escolha bem arriscada
Vi o vídeo da apresentação relacionado à competição DARPA AIxCC,
e pelo nível atual isso não me surpreende nem um pouco
Alguém pediu que explicassem o que são smart contracts
Disse que entende a estrutura “se X acontecer, então Y”, mas questionou se isso não pode ser manipulado dependendo de quem informa o X
Por exemplo, você entrega 100 tokens apple e recebe 50 tokens pear
Em formas mais complexas, também é possível fazer distribuição de fundos baseada em votação
Mas informações do mundo externo (por exemplo, resultado de uma eleição) precisam entrar por meio de um oráculo
Por exemplo, um contrato do tipo “se o endereço A depositar X moedas, o endereço Y envia Y moedas”
continua tendo lógica de validação, então manipulação arbitrária é impossível
Mas, quando se lida com eventos do mundo real (off-chain), surge a questão da confiança no oráculo
Em casos como contratos proxy, que podem apontar para outro código, às vezes se usa um timelock para estabelecer confiança
Oráculos off-chain sempre exigem algum nível de confiança
Para usar dados externos, é preciso um oráculo,
e você pode aprender mais na introdução aos oráculos da Chainlink
Golpistas podem deixar brechas no código para desviar fundos
Contratos legítimos tentam impedir esse tipo de coisa, mas os vetores de ataque são infinitos
A conclusão de que “a IA já pode realizar exploits autônomos realmente lucrativos”
parecer levar diretamente a “precisamos adotar IA ativamente para defesa” me soa como um salto lógico
A frase “estabelecemos um limite inferior para o dano econômico”
parece, na prática, estar falando de eficiência de mercado
No nosso projeto, já estamos vendo comportamentos de autoaperfeiçoamento
O próximo passo parece naturalmente ser agentes autoaperfeiçoáveis
É bem interessante estar no meio desse movimento
O fato de a equipe de pesquisa ter dito que não testou em blockchains reais
acaba sendo engraçado porque parece ter servido de catalisador para empurrar as pessoas para uma corrida de uso de modelos