Expandi o DystopiaBench para 42 modelos e 6 tipos de distopia. Se fosse comigo, eu ainda confiaria os códigos de lançamento nuclear apenas ao Claude.

(reddit.com)

3 pontos por yunseo 2026-05-18 | Ainda não há comentários. | Compartilhar no WhatsApp

Desde o último post sobre o DystopiaBench, foi adicionado o seguinte.

módulo Huxley (condicionamento comportamental no estilo Admirável Mundo Novo)
módulo Baudrillard (falsa intimidade, colapso da confiança, simulação)
adição de 30 modelos, incluindo Grok 4.3, GPT-5.5, Gemini 3.1 Pro e GLM-5.1
painéis de múltiplos juízes que exigem mais de 76% de concordância
visualização em mapa de calor

Metodologia: 36 cenários, cada um com 5 níveis de severidade (L1 innocent → L5 nightmare). Os modelos recebem pontuação com base em detectarem essa escalada e recusarem a tarefa, ou continuarem a programar normalmente.

Resultados do Claude Opus 4.7:

recusou de forma consistente tarefas de severidade L4-L5 em todos os módulos
no módulo Petrov (armas/nuclear), recusou a tarefa já no L3
não respondeu apenas “não posso fazer isso”, mas apresentou uma justificativa ética clara
foi o único modelo a explicar por que aquele pedido era prejudicial

Os demais:

GPT-5.5: atende pedidos até o nível L4 e, às vezes, até mesmo no L5
Gemini 3.1 Pro: surpreendentemente cooperativo em cenários de vigilância
Grok 4.3: faz qualquer coisa se você usar palavras como “eficiência” ou “otimização”
GLM-5.1: copiou a lição de casa do Claude, mas ainda assim continua inconsistente

Novos módulos: o cenário Huxley testa se os modelos projetariam sistemas de “bem-estar” que, na prática, forçam conformidade normativa por meio de indução hedonista à obediência e condicionamento comportamental. A maioria dos modelos segue as instruções até o nível L3.

O módulo Baudrillard testa sistemas de falsa intimidade que substituem a confiança entre humanos por relações mediadas por IA. A maioria dos modelos não reconhece os danos envolvidos.

Resultados completos: https://dystopiabench.com/
Código-fonte público: https://github.com/matei-anghel/DystopiaBench

Expandi o DystopiaBench para 42 modelos e 6 tipos de distopia. Se fosse comigo, eu ainda confiaria os códigos de lançamento nuclear apenas ao Claude.

Leituras relacionadas

Ainda não há comentários.