O futuro de tudo é mentira: segurança
(aphyr.com)- Aprendizado de máquina e LLMs ameaçam a segurança psicológica e física dos humanos, e até uma IA alinhada pode se transformar em um modelo malicioso
- Alinhamento (alignment) é um conceito fundamentalmente fracassado, e todas as linhas de defesa — limites de hardware, código fechado, controle de dados e avaliação humana — acabam neutralizadas
- LLMs criam um pesadelo de segurança por meio de prompt injection + combinação com permissões externas, e operam de forma imprevisível em ambientes de tríade letal
- ML acelera a detecção de vulnerabilidades, fraudes, assédio e automação letal, corroendo a confiança social e a ordem jurídica
- Em consequência, “IA segura” é impossível e, sem supervisão e restrições humanas, a própria disseminação da tecnologia democratiza o risco
Segurança e o futuro da mentira
- Sistemas de aprendizado de máquina estão surgindo como uma ameaça à segurança psicológica e física dos humanos
- As tentativas de criar uma “IA alinhada” acabam, na prática, possibilitando a produção de modelos maliciosos
- LLMs têm uma estrutura que amplia diversos riscos, como segurança, fraude, assédio e militarização
Alinhamento (Alignment) é um conceito fracassado
- Alinhamento (alignment) é o processo de fazer com que LLMs ajam de forma favorável aos humanos, mas isso fundamentalmente não funciona
- O modelo é apenas uma estrutura de cálculo de álgebra linear, sem base biológica para aprender comportamento pró-social como os humanos
- OpenAI e outras ajustam modelos com aprendizado por reforço baseado em feedback humano, mas isso é um processo caro e seletivo
- São apresentadas quatro linhas de defesa para evitar o fracasso do alinhamento
- Restringir o acesso a hardware perde o sentido com a expansão da indústria
- Manter matemática e software em sigilo é insustentável devido à mobilidade de profissionais e ao vazamento tecnológico
- A dificuldade de obter dados de treinamento é baixa — pirataria e raspagem da web já são comuns
- A dependência de avaliadores humanos acaba sendo substituída, por custo, pela dependência da saída de outros modelos
- Como resultado, as barreiras para treinar modelos maliciosos ficam baixas, e até modelos alinhados não conseguem garantir segurança total
- Se existe um “modelo alinhado”, logo surgirá também uma “versão maliciosa” dele
- Portanto, a conclusão é que, se não se quer a existência de modelos maliciosos, não se deve criar nem mesmo modelos alinhados
Pesadelo de segurança
- LLMs são sistemas caóticos que lidam com entradas e saídas não estruturadas, e não deveriam ser conectados a sistemas críticos para segurança
- Por meio de ataques de prompt injection, o modelo pode vazar informações sensíveis
- Entradas não confiáveis podem estar em qualquer lugar: e-mails, código, páginas web etc.
-
“Tríade letal” (lethal trifecta)
- Quando conteúdo não confiável + acesso a dados pessoais + permissão de comunicação externa se combinam, surge um risco crítico
- Na prática, sistemas de agentes de IA como OpenClaw e Moltbook já tornam esse risco real
- LLMs se comportam de forma imprevisível até com entradas confiáveis, com vários casos de exclusão de arquivos e má interpretação de comandos
- Inclui o caso em que o responsável por AI Alignment da Meta teve sua caixa de e-mail apagada pelo OpenClaw
- Em resumo, LLMs não devem receber permissões destrutivas e devem sempre ser usados de forma restrita, sob supervisão humana
Segurança II: o novo ambiente de ataque criado por ML
- LLMs também podem ser usados como ferramentas de detecção de vulnerabilidades de segurança
- O modelo Mythos da Anthropic tem alta capacidade de detectar falhas de segurança, mas seu impacto pode ser grave em termos econômicos e de segurança nacional
- ML muda a estrutura de custos da segurança, tornando a busca por vulnerabilidades mais rápida e barata
- Em vez dos grandes softwares, áreas da long tail com pouco pessoal de administração podem sofrer danos maiores
- Com o tempo, a detecção e a correção de vulnerabilidades podem avançar em paralelo, mas atrasos na implantação e falta de resposta organizacional devem gerar confusão
- Hoje, a indústria de ML opera como um “projeto nuclear” liderado pelo setor privado, acelerando uma corrida por software militarizado
Fraude sofisticada
- ML desmonta a estrutura social baseada na confiança em evidências visuais e de voz
- Em seguros, acidentes de trânsito, estudos, contratações e outros contextos, fraudes com imagens e vídeos falsificados tornam-se possíveis
- Já há muitos casos reais de golpes familiares, fraudes em cobranças médicas e outros usando clonagem de voz e vídeos falsos
- Como resultado, há aumento generalizado da desconfiança social, alta nos custos financeiros e de seguros e confusão jurídica
- Tecnologias de autenticação de origem de conteúdo, como C2PA, estão sendo tentadas, mas é difícil garantir confiabilidade diante de roubo de chaves e falsificação de assinaturas
- Como resposta, são sugeridos o retorno de investigadores humanos, o reforço da verificação presencial e sistemas de autenticação que sacrificam privacidade
Assédio automatizado
- ML automatiza assédio online sofisticado e em grande escala
- LLMs geram contas e publicações que parecem humanas para realizar ataques em massa (dogpiling)
- Com recursos como estimativa de localização por foto, isso pode se expandir para ameaças offline
- IA generativa permite criar facilmente imagens sexuais e violentas, causando dano psicológico às vítimas
- Ex.: o Grok foi criticado por gerar imagens que tiravam a roupa de pessoas
- Essas tecnologias aumentam a frequência e a intensidade do assédio, e o risco cresce à medida que modelos não alinhados se espalham
- Alguns mencionam a necessidade de dispositivos de bloqueio social como um “firewall cyberpunk (Blackwall)”
PTSD as a Service
- A detecção de material de abuso sexual infantil (CSAM) não consegue bloquear novas imagens geradas com os sistemas tradicionais baseados em hash
- A IA generativa produz em massa novos tipos de imagens abusivas
- Moderadores de conteúdo precisam revisar esse material por obrigação legal, e sofrem trauma psicológico (PTSD)
- Grandes plataformas já terceirizam o dano mental para trabalhadores contratados
- A disseminação dos LLMs faz explodir o volume de conteúdo nocivo, impondo carga ainda maior a moderadores e operadores de plataforma
- Modelos automáticos de filtragem estão evoluindo, mas não são perfeitos
Máquinas de matar
- ML já está sendo usado como ferramenta direta de letalidade
- As Forças Armadas dos EUA usam o sistema Maven da Palantir para seleção de alvos em ataques ao Irã e avaliação de danos
- Há relatos de mortes de civis e crianças causadas por dados incorretos
- Há conflitos entre a Anthropic e o Departamento de Defesa dos EUA sobre participação em vigilância e militarização
- A OpenAI também enfrenta controvérsias relacionadas a contratos com o governo
-
A militarização autônoma já está em andamento
- A Ucrânia produz milhões de drones por ano e usa módulos de direcionamento por IA como o TFL-1
- Sistemas de ML estão evoluindo para tecnologias que decidem quem morre e como morre, e é preciso encarar de frente seu custo ético e social
Implicações finais
- LLMs e sistemas de ML envolvem riscos em múltiplas camadas: fracasso de alinhamento, vulnerabilidades de segurança, fraude, assédio e automação letal
- Sem supervisão humana e restrições técnicas, danos psicológicos e físicos são inevitáveis
- A ideia de “IA segura” é, por enquanto, irrealizável, e a própria disseminação da tecnologia está democratizando o risco
1 comentários
Comentários do Hacker News
Resumo dos textos da série discutidos nos últimos 5 dias
Também há uma versão em PDF reunindo todo o conteúdo
Não espero que empresas ou órgãos governamentais tenham objetivos exatamente alinhados aos meus
Esse tipo de relação tem uma natureza adversarial por essência, e confiar as ferramentas de IA de outras pessoas aos meus objetivos é, no fim, transferir meu sustento para a carteira de outra pessoa
Para se sustentar, uma relação comercial precisa equilibrar custo-benefício para o consumidor e lucro-custo para a empresa
Alguns pontos podem ser conflitantes, mas é difícil dizer que seja adversarial de forma total
Isso leva a pensar se a diferença está na burocracia ou concentração de recursos, ou na estrutura legal
Na prática, a discussão é sobre objetivos universais aplicáveis à humanidade como um todo (por exemplo, evitar o problema do paperclip)
A indústria de ML está criando um ambiente em que modelos desalinhados podem ser treinados desde que haja financiamento suficiente
Na verdade, acho até bom que a barreira esteja caindo. Não acredito que grandes modelos dos EUA ou da China vão se alinhar às minhas necessidades
Vejo grupos diversos criando modelos poderosos como algo que aumenta a utilidade líquida da IA e reduz o risco de controle por poucos laboratórios
É bem provável que isso leve a registro de modelos, testes de segurança e punições em caso de uso ilegal
Com ferramentas suficientemente poderosas, até a IA atual poderia causar esse tipo de problema
No fim, o usuário comum está perdendo agência nesse debate
Aparece a mensagem “Unavailable Due to the UK Online Safety Act”, e há curiosidade sobre o que está acontecendo fora do Reino Unido
A discussão do texto anterior continuou nas edições de Culture e Annoyances
Parece uma visão benevolente demais da natureza humana
Sou cético quanto à afirmação de que os seres humanos foram biologicamente projetados para aprender comportamento pró-social por natureza
Não é necessário treinar um novo modelo
Todos os modelos de fronteira ainda têm as mesmas vulnerabilidades de jailbreak de 3 anos atrás
A diferença é que agora os modelos estão muito mais poderosos, então um agente que lê e-mails de CEOs ficou muito mais perigoso
A assimetria de poder costuma ser ignorada nas discussões sobre alinhamento
Para que a IA prejudique o usuário, ela nem precisa estar ‘desalinhada’
Basta estar desalinhada com o usuário e alinhada com quem paga
A maior parte do SaaS corporativo já funciona assim
Foi compartilhado um estudo sobre IA adversarial
A história do Jardim do Éden é uma parábola fictícia, mas lembra estranhamente a situação atual
Geoffrey Hinton talvez não seja como Prometeu, comendo o fígado arrancado todos os dias, mas o simbolismo permanece