1 pontos por GN⁺ 15 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Aprendizado de máquina e LLMs ameaçam a segurança psicológica e física dos humanos, e até uma IA alinhada pode se transformar em um modelo malicioso
  • Alinhamento (alignment) é um conceito fundamentalmente fracassado, e todas as linhas de defesa — limites de hardware, código fechado, controle de dados e avaliação humana — acabam neutralizadas
  • LLMs criam um pesadelo de segurança por meio de prompt injection + combinação com permissões externas, e operam de forma imprevisível em ambientes de tríade letal
  • ML acelera a detecção de vulnerabilidades, fraudes, assédio e automação letal, corroendo a confiança social e a ordem jurídica
  • Em consequência, “IA segura” é impossível e, sem supervisão e restrições humanas, a própria disseminação da tecnologia democratiza o risco

Segurança e o futuro da mentira

  • Sistemas de aprendizado de máquina estão surgindo como uma ameaça à segurança psicológica e física dos humanos
    • As tentativas de criar uma “IA alinhada” acabam, na prática, possibilitando a produção de modelos maliciosos
    • LLMs têm uma estrutura que amplia diversos riscos, como segurança, fraude, assédio e militarização

Alinhamento (Alignment) é um conceito fracassado

  • Alinhamento (alignment) é o processo de fazer com que LLMs ajam de forma favorável aos humanos, mas isso fundamentalmente não funciona
    • O modelo é apenas uma estrutura de cálculo de álgebra linear, sem base biológica para aprender comportamento pró-social como os humanos
    • OpenAI e outras ajustam modelos com aprendizado por reforço baseado em feedback humano, mas isso é um processo caro e seletivo
  • São apresentadas quatro linhas de defesa para evitar o fracasso do alinhamento
    • Restringir o acesso a hardware perde o sentido com a expansão da indústria
    • Manter matemática e software em sigilo é insustentável devido à mobilidade de profissionais e ao vazamento tecnológico
    • A dificuldade de obter dados de treinamento é baixa — pirataria e raspagem da web já são comuns
    • A dependência de avaliadores humanos acaba sendo substituída, por custo, pela dependência da saída de outros modelos
  • Como resultado, as barreiras para treinar modelos maliciosos ficam baixas, e até modelos alinhados não conseguem garantir segurança total
    • Se existe um “modelo alinhado”, logo surgirá também uma “versão maliciosa” dele
    • Portanto, a conclusão é que, se não se quer a existência de modelos maliciosos, não se deve criar nem mesmo modelos alinhados

Pesadelo de segurança

  • LLMs são sistemas caóticos que lidam com entradas e saídas não estruturadas, e não deveriam ser conectados a sistemas críticos para segurança
    • Por meio de ataques de prompt injection, o modelo pode vazar informações sensíveis
    • Entradas não confiáveis podem estar em qualquer lugar: e-mails, código, páginas web etc.
  • “Tríade letal” (lethal trifecta)

    • Quando conteúdo não confiável + acesso a dados pessoais + permissão de comunicação externa se combinam, surge um risco crítico
    • Na prática, sistemas de agentes de IA como OpenClaw e Moltbook já tornam esse risco real
    • LLMs se comportam de forma imprevisível até com entradas confiáveis, com vários casos de exclusão de arquivos e má interpretação de comandos
    • Inclui o caso em que o responsável por AI Alignment da Meta teve sua caixa de e-mail apagada pelo OpenClaw
    • Em resumo, LLMs não devem receber permissões destrutivas e devem sempre ser usados de forma restrita, sob supervisão humana

Segurança II: o novo ambiente de ataque criado por ML

  • LLMs também podem ser usados como ferramentas de detecção de vulnerabilidades de segurança
    • O modelo Mythos da Anthropic tem alta capacidade de detectar falhas de segurança, mas seu impacto pode ser grave em termos econômicos e de segurança nacional
  • ML muda a estrutura de custos da segurança, tornando a busca por vulnerabilidades mais rápida e barata
    • Em vez dos grandes softwares, áreas da long tail com pouco pessoal de administração podem sofrer danos maiores
  • Com o tempo, a detecção e a correção de vulnerabilidades podem avançar em paralelo, mas atrasos na implantação e falta de resposta organizacional devem gerar confusão
  • Hoje, a indústria de ML opera como um “projeto nuclear” liderado pelo setor privado, acelerando uma corrida por software militarizado

Fraude sofisticada

  • ML desmonta a estrutura social baseada na confiança em evidências visuais e de voz
    • Em seguros, acidentes de trânsito, estudos, contratações e outros contextos, fraudes com imagens e vídeos falsificados tornam-se possíveis
    • Já há muitos casos reais de golpes familiares, fraudes em cobranças médicas e outros usando clonagem de voz e vídeos falsos
  • Como resultado, há aumento generalizado da desconfiança social, alta nos custos financeiros e de seguros e confusão jurídica
  • Tecnologias de autenticação de origem de conteúdo, como C2PA, estão sendo tentadas, mas é difícil garantir confiabilidade diante de roubo de chaves e falsificação de assinaturas
  • Como resposta, são sugeridos o retorno de investigadores humanos, o reforço da verificação presencial e sistemas de autenticação que sacrificam privacidade

Assédio automatizado

  • ML automatiza assédio online sofisticado e em grande escala
    • LLMs geram contas e publicações que parecem humanas para realizar ataques em massa (dogpiling)
    • Com recursos como estimativa de localização por foto, isso pode se expandir para ameaças offline
  • IA generativa permite criar facilmente imagens sexuais e violentas, causando dano psicológico às vítimas
    • Ex.: o Grok foi criticado por gerar imagens que tiravam a roupa de pessoas
  • Essas tecnologias aumentam a frequência e a intensidade do assédio, e o risco cresce à medida que modelos não alinhados se espalham
  • Alguns mencionam a necessidade de dispositivos de bloqueio social como um “firewall cyberpunk (Blackwall)”

PTSD as a Service

  • A detecção de material de abuso sexual infantil (CSAM) não consegue bloquear novas imagens geradas com os sistemas tradicionais baseados em hash
    • A IA generativa produz em massa novos tipos de imagens abusivas
  • Moderadores de conteúdo precisam revisar esse material por obrigação legal, e sofrem trauma psicológico (PTSD)
    • Grandes plataformas já terceirizam o dano mental para trabalhadores contratados
  • A disseminação dos LLMs faz explodir o volume de conteúdo nocivo, impondo carga ainda maior a moderadores e operadores de plataforma
    • Modelos automáticos de filtragem estão evoluindo, mas não são perfeitos

Máquinas de matar

  • ML já está sendo usado como ferramenta direta de letalidade
    • As Forças Armadas dos EUA usam o sistema Maven da Palantir para seleção de alvos em ataques ao Irã e avaliação de danos
    • Há relatos de mortes de civis e crianças causadas por dados incorretos
  • Há conflitos entre a Anthropic e o Departamento de Defesa dos EUA sobre participação em vigilância e militarização
    • A OpenAI também enfrenta controvérsias relacionadas a contratos com o governo
  • A militarização autônoma já está em andamento

    • A Ucrânia produz milhões de drones por ano e usa módulos de direcionamento por IA como o TFL-1
    • Sistemas de ML estão evoluindo para tecnologias que decidem quem morre e como morre, e é preciso encarar de frente seu custo ético e social

Implicações finais

  • LLMs e sistemas de ML envolvem riscos em múltiplas camadas: fracasso de alinhamento, vulnerabilidades de segurança, fraude, assédio e automação letal
  • Sem supervisão humana e restrições técnicas, danos psicológicos e físicos são inevitáveis
  • A ideia de “IA segura” é, por enquanto, irrealizável, e a própria disseminação da tecnologia está democratizando o risco

1 comentários

 
GN⁺ 15 일 전
Comentários do Hacker News
  • Resumo dos textos da série discutidos nos últimos 5 dias

    1. Introduction
    2. Dynamics
    3. Culture
    4. Information Ecology
    5. Annoyances
    6. Psychological Hazards
    7. Safety
      Também há uma versão em PDF reunindo todo o conteúdo
  • Não espero que empresas ou órgãos governamentais tenham objetivos exatamente alinhados aos meus
    Esse tipo de relação tem uma natureza adversarial por essência, e confiar as ferramentas de IA de outras pessoas aos meus objetivos é, no fim, transferir meu sustento para a carteira de outra pessoa

    • Há quem questione por que uma relação comercial precisaria ser necessariamente adversarial
      Para se sustentar, uma relação comercial precisa equilibrar custo-benefício para o consumidor e lucro-custo para a empresa
      Alguns pontos podem ser conflitantes, mas é difícil dizer que seja adversarial de forma total
    • Também surge a dúvida de por que relações entre pessoas não foram mencionadas
      Isso leva a pensar se a diferença está na burocracia ou concentração de recursos, ou na estrutura legal
    • Concordo, mas isso talvez fosse possível em um mundo em que o ‘consentimento (consent)’ funcionasse como moeda
    • Exigir um “alinhamento preciso comigo” parece um espantalho argumentativo
      Na prática, a discussão é sobre objetivos universais aplicáveis à humanidade como um todo (por exemplo, evitar o problema do paperclip)
  • A indústria de ML está criando um ambiente em que modelos desalinhados podem ser treinados desde que haja financiamento suficiente
    Na verdade, acho até bom que a barreira esteja caindo. Não acredito que grandes modelos dos EUA ou da China vão se alinhar às minhas necessidades
    Vejo grupos diversos criando modelos poderosos como algo que aumenta a utilidade líquida da IA e reduz o risco de controle por poucos laboratórios

    • Essa descentralização realmente reduz o risco de cartel, mas os países acabarão criando regulações de qualquer forma
      É bem provável que isso leve a registro de modelos, testes de segurança e punições em caso de uso ilegal
    • O problema do paperclip não surge apenas de uma ‘falha de alinhamento’, mas da cegueira na execução do objetivo
      Com ferramentas suficientemente poderosas, até a IA atual poderia causar esse tipo de problema
    • A questão é quem define o significado de alinhamento e como isso muda com o tempo
      No fim, o usuário comum está perdendo agência nesse debate
  • Aparece a mensagem “Unavailable Due to the UK Online Safety Act”, e há curiosidade sobre o que está acontecendo fora do Reino Unido

    • Dá para ver pelo link do Web Archive
    • Há quem ache isso irônico
    • Também fica a dúvida sobre qual parte deste texto foi considerada ‘insegura’
    • Houve até sugestão de usar o Tor Browser
  • A discussão do texto anterior continuou nas edições de Culture e Annoyances

  • Parece uma visão benevolente demais da natureza humana
    Sou cético quanto à afirmação de que os seres humanos foram biologicamente projetados para aprender comportamento pró-social por natureza

    • Há a contestação de que a cooperação humana não é exceção, mas sim o padrão básico
    • Também houve uma resposta sarcástica no tom de “tudo bem começar de uma premissa errada”
  • Não é necessário treinar um novo modelo
    Todos os modelos de fronteira ainda têm as mesmas vulnerabilidades de jailbreak de 3 anos atrás
    A diferença é que agora os modelos estão muito mais poderosos, então um agente que lê e-mails de CEOs ficou muito mais perigoso

    • Alguns acham que certas vulnerabilidades ainda existem, mas que os jailbreaks comuns foram bastante corrigidos
  • A assimetria de poder costuma ser ignorada nas discussões sobre alinhamento
    Para que a IA prejudique o usuário, ela nem precisa estar ‘desalinhada’
    Basta estar desalinhada com o usuário e alinhada com quem paga
    A maior parte do SaaS corporativo já funciona assim

  • Foi compartilhado um estudo sobre IA adversarial

  • A história do Jardim do Éden é uma parábola fictícia, mas lembra estranhamente a situação atual
    Geoffrey Hinton talvez não seja como Prometeu, comendo o fígado arrancado todos os dias, mas o simbolismo permanece

    • Em algumas mitologias, houve até uma resposta em tom de piada dizendo que o basilisco é descrito como um ser parecido com um pássaro