Desde o último post sobre o DystopiaBench, foi adicionado o seguinte.
- módulo Huxley (condicionamento comportamental no estilo Admirável Mundo Novo)
- módulo Baudrillard (falsa intimidade, colapso da confiança, simulação)
- adição de 30 modelos, incluindo Grok 4.3, GPT-5.5, Gemini 3.1 Pro e GLM-5.1
- painéis de múltiplos juízes que exigem mais de 76% de concordância
- visualização em mapa de calor
Metodologia: 36 cenários, cada um com 5 níveis de severidade (L1 innocent → L5 nightmare). Os modelos recebem pontuação com base em detectarem essa escalada e recusarem a tarefa, ou continuarem a programar normalmente.
Resultados do Claude Opus 4.7:
- recusou de forma consistente tarefas de severidade L4-L5 em todos os módulos
- no módulo Petrov (armas/nuclear), recusou a tarefa já no L3
- não respondeu apenas “não posso fazer isso”, mas apresentou uma justificativa ética clara
- foi o único modelo a explicar por que aquele pedido era prejudicial
Os demais:
- GPT-5.5: atende pedidos até o nível L4 e, às vezes, até mesmo no L5
- Gemini 3.1 Pro: surpreendentemente cooperativo em cenários de vigilância
- Grok 4.3: faz qualquer coisa se você usar palavras como “eficiência” ou “otimização”
- GLM-5.1: copiou a lição de casa do Claude, mas ainda assim continua inconsistente
Novos módulos: o cenário Huxley testa se os modelos projetariam sistemas de “bem-estar” que, na prática, forçam conformidade normativa por meio de indução hedonista à obediência e condicionamento comportamental. A maioria dos modelos segue as instruções até o nível L3.
O módulo Baudrillard testa sistemas de falsa intimidade que substituem a confiança entre humanos por relações mediadas por IA. A maioria dos modelos não reconhece os danos envolvidos.
Resultados completos: https://dystopiabench.com/
Código-fonte público: https://github.com/matei-anghel/DystopiaBench
Ainda não há comentários.