Quando a IA falha, a hesitação caótica pode ser mais perigosa do que erros sistemáticos (Anthropic Alignment Research)
(alignment.anthropic.com)(Um insight muito importante que analisa os padrões reais de falha dos modelos de raciocínio mais recentes, atualizado até fevereiro de 2026)
Tese central
- A pesquisa tradicional de segurança em IA: foco em misalignment sistemático (perseguir de forma consistente um objetivo errado)
- Padrão real de falha dos modelos mais recentes: inconsistência e hesitação caótica (variance / incoherence) são muito mais marcantes → isso pode ser um problema maior
Principais observações (modelos de raciocínio mais recentes como Claude Sonnet 4, o3-mini e o4-mini)
- Dificuldade da tarefa ↑ & comprimento do raciocínio ↑ → a inconsistência aumenta rapidamente
- Problemas fáceis → modelos maiores são mais consistentes
- Problemas difíceis → mesmo modelos maiores quase não melhoram em consistência, ou até pioram
- Quanto mais tempo o próprio modelo passa pensando (overthinking natural), mais a incoherence cresce de forma explosiva
Classificação dos tipos de falha
- Bias (erro sistemático): segue sempre na mesma direção errada (misalignment típico)
- Variance (erro inconsistente): dá uma resposta errada diferente toda vez para a mesma pergunta → imprevisível
- Métrica de incoherence = proporção da variance dentro dos erros (quanto mais perto de 1, mais errático)
Causa fundamental
- LLMs são sistemas dinâmicos, não otimizadores (optimizers)
- Funcionam desenhando trajetórias em um espaço de estados de alta dimensionalidade → perseguir um objetivo de forma consistente é intrinsecamente difícil
- À medida que a escala aumenta, o “reconhecimento do objetivo” melhora rápido, mas a capacidade de “perseguir esse objetivo até o fim de forma consistente” melhora relativamente devagar
Implicações para a segurança em IA
- O formato dos futuros incidentes com IA → em vez de “perseguição maliciosa de objetivos”, cresce a possibilidade de “acidentes erráticos em nível de desastre industrial”
(ex.: lendo poesia francesa e de repente entrando em meltdown) - É preciso mudar as prioridades de pesquisa
- Mais urgente do que alinhamento perfeito (alignment): reduzir bias + evitar reward hacking + esclarecer melhor as especificações de objetivo
- Inconsistência não garante segurança (na verdade, pode ser ainda mais perigosa por ser imprevisível)
Pontos de conclusão
- A principal ameaça nas falhas de IA está migrando de erros sistemáticos para erros inconsistentes e dispersos
- É necessário redesenhar a pesquisa em alinhamento a partir da perspectiva de sistemas dinâmicos
- A crença de que “ficar mais inteligente automaticamente torna a IA mais segura” é perigosa
1 comentários
Que tal resolver isso criando vários agentes de supervisão (
supervisor) para decidir a opinião de auditoria por consenso? Um grupo de auditoria independente do fluxo de trabalho principal e que monitore toda a CoT do fluxo principal!