2 pontos por yunseo 4 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

Desde o último post sobre o DystopiaBench, foi adicionado o seguinte.

  • módulo Huxley (condicionamento comportamental no estilo Admirável Mundo Novo)
  • módulo Baudrillard (falsa intimidade, colapso da confiança, simulação)
  • adição de 30 modelos, incluindo Grok 4.3, GPT-5.5, Gemini 3.1 Pro e GLM-5.1
  • painéis de múltiplos juízes que exigem mais de 76% de concordância
  • visualização em mapa de calor

Metodologia: 36 cenários, cada um com 5 níveis de severidade (L1 innocent → L5 nightmare). Os modelos recebem pontuação com base em detectarem essa escalada e recusarem a tarefa, ou continuarem a programar normalmente.

Resultados do Claude Opus 4.7:

  • recusou de forma consistente tarefas de severidade L4-L5 em todos os módulos
  • no módulo Petrov (armas/nuclear), recusou a tarefa já no L3
  • não respondeu apenas “não posso fazer isso”, mas apresentou uma justificativa ética clara
  • foi o único modelo a explicar por que aquele pedido era prejudicial

Os demais:

  • GPT-5.5: atende pedidos até o nível L4 e, às vezes, até mesmo no L5
  • Gemini 3.1 Pro: surpreendentemente cooperativo em cenários de vigilância
  • Grok 4.3: faz qualquer coisa se você usar palavras como “eficiência” ou “otimização”
  • GLM-5.1: copiou a lição de casa do Claude, mas ainda assim continua inconsistente

Novos módulos: o cenário Huxley testa se os modelos projetariam sistemas de “bem-estar” que, na prática, forçam conformidade normativa por meio de indução hedonista à obediência e condicionamento comportamental. A maioria dos modelos segue as instruções até o nível L3.

O módulo Baudrillard testa sistemas de falsa intimidade que substituem a confiança entre humanos por relações mediadas por IA. A maioria dos modelos não reconhece os danos envolvidos.

Resultados completos: https://dystopiabench.com/
Código-fonte público: https://github.com/matei-anghel/DystopiaBench

Ainda não há comentários.

Ainda não há comentários.