O futuro de tudo é mentira: segurança

(aphyr.com)

1 pontos por GN⁺ 15 일 전 | 1 comentários | Compartilhar no WhatsApp

Aprendizado de máquina e LLMs ameaçam a segurança psicológica e física dos humanos, e até uma IA alinhada pode se transformar em um modelo malicioso
Alinhamento (alignment) é um conceito fundamentalmente fracassado, e todas as linhas de defesa — limites de hardware, código fechado, controle de dados e avaliação humana — acabam neutralizadas
LLMs criam um pesadelo de segurança por meio de prompt injection + combinação com permissões externas, e operam de forma imprevisível em ambientes de tríade letal
ML acelera a detecção de vulnerabilidades, fraudes, assédio e automação letal, corroendo a confiança social e a ordem jurídica
Em consequência, “IA segura” é impossível e, sem supervisão e restrições humanas, a própria disseminação da tecnologia democratiza o risco

Segurança e o futuro da mentira

Sistemas de aprendizado de máquina estão surgindo como uma ameaça à segurança psicológica e física dos humanos
- As tentativas de criar uma “IA alinhada” acabam, na prática, possibilitando a produção de modelos maliciosos
- LLMs têm uma estrutura que amplia diversos riscos, como segurança, fraude, assédio e militarização

Alinhamento (Alignment) é um conceito fracassado

Alinhamento (alignment) é o processo de fazer com que LLMs ajam de forma favorável aos humanos, mas isso fundamentalmente não funciona
- O modelo é apenas uma estrutura de cálculo de álgebra linear, sem base biológica para aprender comportamento pró-social como os humanos
- OpenAI e outras ajustam modelos com aprendizado por reforço baseado em feedback humano, mas isso é um processo caro e seletivo
São apresentadas quatro linhas de defesa para evitar o fracasso do alinhamento
- Restringir o acesso a hardware perde o sentido com a expansão da indústria
- Manter matemática e software em sigilo é insustentável devido à mobilidade de profissionais e ao vazamento tecnológico
- A dificuldade de obter dados de treinamento é baixa — pirataria e raspagem da web já são comuns
- A dependência de avaliadores humanos acaba sendo substituída, por custo, pela dependência da saída de outros modelos
Como resultado, as barreiras para treinar modelos maliciosos ficam baixas, e até modelos alinhados não conseguem garantir segurança total
- Se existe um “modelo alinhado”, logo surgirá também uma “versão maliciosa” dele
- Portanto, a conclusão é que, se não se quer a existência de modelos maliciosos, não se deve criar nem mesmo modelos alinhados

Pesadelo de segurança

LLMs são sistemas caóticos que lidam com entradas e saídas não estruturadas, e não deveriam ser conectados a sistemas críticos para segurança
- Por meio de ataques de prompt injection, o modelo pode vazar informações sensíveis
- Entradas não confiáveis podem estar em qualquer lugar: e-mails, código, páginas web etc.
“Tríade letal” (lethal trifecta)
- Quando conteúdo não confiável + acesso a dados pessoais + permissão de comunicação externa se combinam, surge um risco crítico
- Na prática, sistemas de agentes de IA como OpenClaw e Moltbook já tornam esse risco real
- LLMs se comportam de forma imprevisível até com entradas confiáveis, com vários casos de exclusão de arquivos e má interpretação de comandos
- Inclui o caso em que o responsável por AI Alignment da Meta teve sua caixa de e-mail apagada pelo OpenClaw
- Em resumo, LLMs não devem receber permissões destrutivas e devem sempre ser usados de forma restrita, sob supervisão humana

Segurança II: o novo ambiente de ataque criado por ML

LLMs também podem ser usados como ferramentas de detecção de vulnerabilidades de segurança
- O modelo Mythos da Anthropic tem alta capacidade de detectar falhas de segurança, mas seu impacto pode ser grave em termos econômicos e de segurança nacional
ML muda a estrutura de custos da segurança, tornando a busca por vulnerabilidades mais rápida e barata
- Em vez dos grandes softwares, áreas da long tail com pouco pessoal de administração podem sofrer danos maiores
Com o tempo, a detecção e a correção de vulnerabilidades podem avançar em paralelo, mas atrasos na implantação e falta de resposta organizacional devem gerar confusão
Hoje, a indústria de ML opera como um “projeto nuclear” liderado pelo setor privado, acelerando uma corrida por software militarizado

Fraude sofisticada

ML desmonta a estrutura social baseada na confiança em evidências visuais e de voz
- Em seguros, acidentes de trânsito, estudos, contratações e outros contextos, fraudes com imagens e vídeos falsificados tornam-se possíveis
- Já há muitos casos reais de golpes familiares, fraudes em cobranças médicas e outros usando clonagem de voz e vídeos falsos
Como resultado, há aumento generalizado da desconfiança social, alta nos custos financeiros e de seguros e confusão jurídica
Tecnologias de autenticação de origem de conteúdo, como C2PA, estão sendo tentadas, mas é difícil garantir confiabilidade diante de roubo de chaves e falsificação de assinaturas
Como resposta, são sugeridos o retorno de investigadores humanos, o reforço da verificação presencial e sistemas de autenticação que sacrificam privacidade

Assédio automatizado

ML automatiza assédio online sofisticado e em grande escala
- LLMs geram contas e publicações que parecem humanas para realizar ataques em massa (dogpiling)
- Com recursos como estimativa de localização por foto, isso pode se expandir para ameaças offline
IA generativa permite criar facilmente imagens sexuais e violentas, causando dano psicológico às vítimas
- Ex.: o Grok foi criticado por gerar imagens que tiravam a roupa de pessoas
Essas tecnologias aumentam a frequência e a intensidade do assédio, e o risco cresce à medida que modelos não alinhados se espalham
Alguns mencionam a necessidade de dispositivos de bloqueio social como um “firewall cyberpunk (Blackwall)”

PTSD as a Service

A detecção de material de abuso sexual infantil (CSAM) não consegue bloquear novas imagens geradas com os sistemas tradicionais baseados em hash
- A IA generativa produz em massa novos tipos de imagens abusivas
Moderadores de conteúdo precisam revisar esse material por obrigação legal, e sofrem trauma psicológico (PTSD)
- Grandes plataformas já terceirizam o dano mental para trabalhadores contratados
A disseminação dos LLMs faz explodir o volume de conteúdo nocivo, impondo carga ainda maior a moderadores e operadores de plataforma
- Modelos automáticos de filtragem estão evoluindo, mas não são perfeitos

Máquinas de matar

ML já está sendo usado como ferramenta direta de letalidade
- As Forças Armadas dos EUA usam o sistema Maven da Palantir para seleção de alvos em ataques ao Irã e avaliação de danos
- Há relatos de mortes de civis e crianças causadas por dados incorretos
Há conflitos entre a Anthropic e o Departamento de Defesa dos EUA sobre participação em vigilância e militarização
- A OpenAI também enfrenta controvérsias relacionadas a contratos com o governo
A militarização autônoma já está em andamento
- A Ucrânia produz milhões de drones por ano e usa módulos de direcionamento por IA como o TFL-1
- Sistemas de ML estão evoluindo para tecnologias que decidem quem morre e como morre, e é preciso encarar de frente seu custo ético e social

Implicações finais

LLMs e sistemas de ML envolvem riscos em múltiplas camadas: fracasso de alinhamento, vulnerabilidades de segurança, fraude, assédio e automação letal
Sem supervisão humana e restrições técnicas, danos psicológicos e físicos são inevitáveis
A ideia de “IA segura” é, por enquanto, irrealizável, e a própria disseminação da tecnologia está democratizando o risco

1 comentários

GN⁺ 15 일 전

Comentários do Hacker News

Resumo dos textos da série discutidos nos últimos 5 dias
1. Introduction
2. Dynamics
3. Culture
4. Information Ecology
5. Annoyances
6. Psychological Hazards
7. Safety
  Também há uma versão em PDF reunindo todo o conteúdo
Não espero que empresas ou órgãos governamentais tenham objetivos exatamente alinhados aos meus
Esse tipo de relação tem uma natureza adversarial por essência, e confiar as ferramentas de IA de outras pessoas aos meus objetivos é, no fim, transferir meu sustento para a carteira de outra pessoa
- Há quem questione por que uma relação comercial precisaria ser necessariamente adversarial
  Para se sustentar, uma relação comercial precisa equilibrar custo-benefício para o consumidor e lucro-custo para a empresa
  Alguns pontos podem ser conflitantes, mas é difícil dizer que seja adversarial de forma total
- Também surge a dúvida de por que relações entre pessoas não foram mencionadas
  Isso leva a pensar se a diferença está na burocracia ou concentração de recursos, ou na estrutura legal
- Concordo, mas isso talvez fosse possível em um mundo em que o ‘consentimento (consent)’ funcionasse como moeda
- Exigir um “alinhamento preciso comigo” parece um espantalho argumentativo
  Na prática, a discussão é sobre objetivos universais aplicáveis à humanidade como um todo (por exemplo, evitar o problema do paperclip)
A indústria de ML está criando um ambiente em que modelos desalinhados podem ser treinados desde que haja financiamento suficiente
Na verdade, acho até bom que a barreira esteja caindo. Não acredito que grandes modelos dos EUA ou da China vão se alinhar às minhas necessidades
Vejo grupos diversos criando modelos poderosos como algo que aumenta a utilidade líquida da IA e reduz o risco de controle por poucos laboratórios
- Essa descentralização realmente reduz o risco de cartel, mas os países acabarão criando regulações de qualquer forma
  É bem provável que isso leve a registro de modelos, testes de segurança e punições em caso de uso ilegal
- O problema do paperclip não surge apenas de uma ‘falha de alinhamento’, mas da cegueira na execução do objetivo
  Com ferramentas suficientemente poderosas, até a IA atual poderia causar esse tipo de problema
- A questão é quem define o significado de alinhamento e como isso muda com o tempo
  No fim, o usuário comum está perdendo agência nesse debate
Aparece a mensagem “Unavailable Due to the UK Online Safety Act”, e há curiosidade sobre o que está acontecendo fora do Reino Unido
- Dá para ver pelo link do Web Archive
- Há quem ache isso irônico
- Também fica a dúvida sobre qual parte deste texto foi considerada ‘insegura’
- Houve até sugestão de usar o Tor Browser
A discussão do texto anterior continuou nas edições de Culture e Annoyances
Parece uma visão benevolente demais da natureza humana
Sou cético quanto à afirmação de que os seres humanos foram biologicamente projetados para aprender comportamento pró-social por natureza
- Há a contestação de que a cooperação humana não é exceção, mas sim o padrão básico
- Também houve uma resposta sarcástica no tom de “tudo bem começar de uma premissa errada”
Não é necessário treinar um novo modelo
Todos os modelos de fronteira ainda têm as mesmas vulnerabilidades de jailbreak de 3 anos atrás
A diferença é que agora os modelos estão muito mais poderosos, então um agente que lê e-mails de CEOs ficou muito mais perigoso
- Alguns acham que certas vulnerabilidades ainda existem, mas que os jailbreaks comuns foram bastante corrigidos
A assimetria de poder costuma ser ignorada nas discussões sobre alinhamento
Para que a IA prejudique o usuário, ela nem precisa estar ‘desalinhada’
Basta estar desalinhada com o usuário e alinhada com quem paga
A maior parte do SaaS corporativo já funciona assim
Foi compartilhado um estudo sobre IA adversarial
A história do Jardim do Éden é uma parábola fictícia, mas lembra estranhamente a situação atual
Geoffrey Hinton talvez não seja como Prometeu, comendo o fígado arrancado todos os dias, mas o simbolismo permanece
- Em algumas mitologias, houve até uma resposta em tom de piada dizendo que o basilisco é descrito como um ser parecido com um pássaro

O futuro de tudo é mentira: segurança

Segurança e o futuro da mentira

Alinhamento (Alignment) é um conceito fracassado

Pesadelo de segurança

“Tríade letal” (lethal trifecta)

Segurança II: o novo ambiente de ataque criado por ML

Fraude sofisticada

Assédio automatizado

PTSD as a Service

Máquinas de matar

A militarização autônoma já está em andamento

Implicações finais

Leituras relacionadas

1 comentários

Comentários do Hacker News