13 pontos por davespark 2026-02-08 | 1 comentários | Compartilhar no WhatsApp

(Um insight muito importante que analisa os padrões reais de falha dos modelos de raciocínio mais recentes, atualizado até fevereiro de 2026)

Tese central

  • A pesquisa tradicional de segurança em IA: foco em misalignment sistemático (perseguir de forma consistente um objetivo errado)
  • Padrão real de falha dos modelos mais recentes: inconsistência e hesitação caótica (variance / incoherence) são muito mais marcantes → isso pode ser um problema maior

Principais observações (modelos de raciocínio mais recentes como Claude Sonnet 4, o3-mini e o4-mini)

  • Dificuldade da tarefa ↑ & comprimento do raciocínio ↑ → a inconsistência aumenta rapidamente
  • Problemas fáceis → modelos maiores são mais consistentes
  • Problemas difíceis → mesmo modelos maiores quase não melhoram em consistência, ou até pioram
  • Quanto mais tempo o próprio modelo passa pensando (overthinking natural), mais a incoherence cresce de forma explosiva

Classificação dos tipos de falha

  • Bias (erro sistemático): segue sempre na mesma direção errada (misalignment típico)
  • Variance (erro inconsistente): dá uma resposta errada diferente toda vez para a mesma pergunta → imprevisível
  • Métrica de incoherence = proporção da variance dentro dos erros (quanto mais perto de 1, mais errático)

Causa fundamental

  • LLMs são sistemas dinâmicos, não otimizadores (optimizers)
  • Funcionam desenhando trajetórias em um espaço de estados de alta dimensionalidade → perseguir um objetivo de forma consistente é intrinsecamente difícil
  • À medida que a escala aumenta, o “reconhecimento do objetivo” melhora rápido, mas a capacidade de “perseguir esse objetivo até o fim de forma consistente” melhora relativamente devagar

Implicações para a segurança em IA

  • O formato dos futuros incidentes com IA → em vez de “perseguição maliciosa de objetivos”, cresce a possibilidade de “acidentes erráticos em nível de desastre industrial”
    (ex.: lendo poesia francesa e de repente entrando em meltdown)
  • É preciso mudar as prioridades de pesquisa
    • Mais urgente do que alinhamento perfeito (alignment): reduzir bias + evitar reward hacking + esclarecer melhor as especificações de objetivo
  • Inconsistência não garante segurança (na verdade, pode ser ainda mais perigosa por ser imprevisível)

Pontos de conclusão

  • A principal ameaça nas falhas de IA está migrando de erros sistemáticos para erros inconsistentes e dispersos
  • É necessário redesenhar a pesquisa em alinhamento a partir da perspectiva de sistemas dinâmicos
  • A crença de que “ficar mais inteligente automaticamente torna a IA mais segura” é perigosa

https://aisparkup.com/posts/8979

1 comentários

 
raykim 27 일 전

Que tal resolver isso criando vários agentes de supervisão (supervisor) para decidir a opinião de auditoria por consenso? Um grupo de auditoria independente do fluxo de trabalho principal e que monitore toda a CoT do fluxo principal!