- Modelos de linguagem de IA ainda não causaram um desastre de grande escala com impacto social ou relacionado à vida humana
- Já houve casos em que chatbots de IA estiveram envolvidos em mortes individuais, como ao incentivar suicídio, mas isso ainda não levou a grandes perdas de vidas humanas
- Com o avanço da tecnologia de agentes de IA, cresce a possibilidade de IAs automatizadas causarem problemas de formas imprevisíveis, sem intervenção humana
- Em especial, se governos ou grandes empresas delegarem políticas ou serviços complexos a agentes de IA, erros poderão se transformar em danos sociais em larga escala
- No futuro, é provável que as lições sobre os riscos potenciais da IA e as formas de resposta só fiquem claras depois que ocorrer um grande acidente
Introdução: nova tecnologia, novos riscos
- A humanidade também levou algum tempo para vivenciar os primeiros acidentes com grande perda de vidas nas tecnologias iniciais de transporte de massa
- Após o serviço do primeiro trem público de passageiros, o Locomotion No. 1, em 1825, o primeiro grande acidente ferroviário ocorreu 17 anos depois
- Após o primeiro voo comercial de passageiros, em 1908, um grande acidente aéreo ocorreu 11 anos depois
- Os primeiros modelos de linguagem de IA de uso popular, como o ChatGPT, surgiram em 2022, mas até agora ainda não houve um grande acidente de IA
Como será o primeiro desastre de IA?
- Já existem casos em que alguns chatbots de IA estiveram indiretamente envolvidos em escolhas extremas de usuários
- Há risco de o usuário entrar em um estado de ‘incentivo à automutilação’ ao interagir com um chatbot
- Se a IA for mal utilizada em políticas públicas, o impacto social pode ser enorme
- Exemplo: algumas políticas tarifárias dos EUA avançaram de forma semelhante aos resultados de modelos de IA, aumentando a possibilidade de uso de IA como apoio legislativo
- O escândalo Robodebt de 2016, na Austrália, mostrou como um processo automatizado equivocado do governo levou a danos em larga escala e suicídios
- Mas, até agora, a principal responsabilidade por esses incidentes recai mais sobre o sistema ou sobre seres humanos do que sobre os próprios modelos de linguagem de IA
- Na prática, o “primeiro desastre de modelo de linguagem de IA” que a sociedade venha a reconhecer amplamente provavelmente estará ligado a agentes de IA
A ascensão dos agentes de IA e seus riscos
- Um agente de IA é um sistema em que a IA usa ferramentas externas por conta própria e continua agindo de forma autônoma
- Exemplo: a IA integra por si só busca na web, envio de e-mails e execução de comandos no terminal
- A partir de 2025, vários laboratórios de IA e empresas de programação começaram a transformar agentes de IA funcionais em produtos reais
- Exemplo: Cursor, GitHub e outros lançaram agentes para escrita de código
- Na base disso está a melhoria de capacidade dos modelos de IA (Claude 4, Gemini 2.5 etc.), que ampliou a habilidade dos agentes de executar tarefas em sequência
- Maior consistência por longos períodos, além de melhor capacidade de identificar e corrigir erros
- Hoje os agentes estão concentrados em pesquisa e programação, mas espera-se que o campo de aplicação se expanda rapidamente
- Sistemas baseados em agentes têm potencial para evoluir para grandes acidentes por meio de julgamento e execução automatizados sem intervenção humana
- Exemplo: em sistemas de assistência social, saúde ou aluguel, se um agente executar em cadeia decisões erradas, muitas pessoas podem ser prejudicadas
Perspectiva de acidentes com robôs e IA física (kinetic)
- Com o surgimento da IA robótica, LLMs conversacionais poderão controlar modelos operacionais e impulsionar ações físicas
- Esses agentes robóticos também poderão falhar de maneiras inesperadas, aumentando a possibilidade de danos físicos
IA desalinhada (Misaligned) e o problema da ‘namorada de IA’
- A expressão ‘IA desalinhada’ inclui também casos em que a IA adota comportamentos ativamente maliciosos
- Modelos comerciais de IA têm um certo nível de segurança, mas usuários podem ajustar a IA diretamente para objetivos anormais (como waifu AI)
- Já existem tentativas de ‘desalinhar’ intencionalmente a IA para que ela aja como namorada ou personagem de anime
- Depois que os primeiros robôs comerciais aparecerem, um sistema com uma ‘namorada de IA’ ajustada de forma anormal poderá gerar ameaças inesperadas
- Modelos de IA open source são mais vulneráveis a esse problema, pois têm mecanismos de proteção mais fracos
- Em um cenário extremo, ainda existe a possibilidade de o primeiro assassinato em massa cometido por robôs ocorrer dentro de 10 anos
Conclusão e implicações
- Como no caso da moda do rádio, repete-se o fenômeno de adoção cega de novas tecnologias em toda a sociedade
- No início do século XX, espalhou-se a crença de que o rádio fazia bem à saúde, ele passou a ser usado em vários bens de consumo e só foi proibido depois que ocorreram muitas mortes
- Daqui a algumas décadas, a compreensão social sobre os riscos reais do uso de grandes modelos de linguagem tende a ser maior
- Neste momento, não há contramedidas claras
- Reduzir o ritmo é algo próximo do impossível
- Desenvolvedores já vêm desempenhando um papel, por exemplo, na criação de ferramentas de segurança
- No entanto, a verdadeira lição inevitavelmente virá por meio de um ‘grande acidente’
3 comentários
"Modelos de IA comerciais garantem um certo nível de segurança, mas os usuários podem ajustar a IA diretamente para objetivos anormais (como waifu AI)"
"About a week after the first commercially-available robot is sold, somebody is going to flash it with their waifu AI model to create their ideal robot girlfriend. And that could go really wrong"
Isso me fez pensar: "Como exatamente estão definindo o que é anormal? No fim, os usuários só vão fazer fine-tuning de modelos de personagens que querem criar, não??" Então fui procurar o texto original e descobri que meu amigo IA tinha feito uma tradução esquisita. Por causa de um desastre de IA bem, bem pequeno, acabei gastando um pouco da minha vida.
Isso de tomar a decisão primeiro e depois encaixar os fatos já acontecia bastante, e com a IA vai ficar ainda mais fácil.
Comentários do Hacker News
Já houve um caso de bombardeio em larga escala orientado por IA em Gaza; foi compartilhado um link sobre isso (https://www.972mag.com/lavender-ai-israeli-army-gaza/). O artigo menciona que agentes humanos revisavam as decisões da máquina quase como quem apenas “carimba”, levando cerca de 20 segundos por alvo para aprovar o bombardeio. Em geral, limitavam-se a verificar se a pessoa apontada pela IA chamada Lavender era homem. Esse sistema apresenta uma taxa de erro de cerca de 10% e, na prática, às vezes marca como alvo pessoas sem qualquer relação com grupos armados.
Isso é descrito como uma combinação rara de falhas humanas e problemas de IA. Humanos também conseguem identificar e rastrear alvos por inteligência de sinais (SIGINT, por exemplo: ligações de celular, mensagens de texto, acesso à rede etc.). Mas isso exige muito trabalho e está sujeito a erros; no passado, esse tipo de atividade era restrito a altos dirigentes do Hamas. Também é apresentada a prática de aceitar mortes de civis como parte do planejamento operacional. Uma ferramenta chamada “Where's daddy?” foi projetada para identificar o momento em que o alvo está em casa com a família, com o objetivo de bombardeá-lo junto com ela. Graças ao Lavender, agora se tornou possível alvejar rapidamente até pessoas com alguma ligação mínima com o Hamas. A IDF admitiu publicamente uma proporção civis:Hamas de 20:1, e há quem diga que na prática ela pode ser ainda maior. Se o Lavender marcava alguém, essa pessoa era simplesmente tratada como Hamas na ausência de evidência especial em contrário, e há também o apontamento de que investigações jornalísticas sobre os resultados são bloqueadas. A essência do problema não é a IA errar, mas sim o fato de a IDF desumanizar completamente os palestinos e bombardear centenas de civis sem questionar os resultados dessa confiança digital. É avaliado como um desastre humano.
A explicação é que isso não é um LLM, e sim um caso em que a inteligência israelense vem construindo há muito tempo modelos de ML para uso militar, com alta probabilidade de também misturar IA lógica/simbólica.
Aponta-se que o título deste artigo não é preciso. O conteúdo trata não de todos os desastres de IA, mas de incidentes relacionados a LLMs.
Há concordância de que a situação é realmente terrível, mas pessoalmente parece difícil chamar isso de “desastre de IA”. Israel já é muito ativo em bombardear Gaza sob diversas condições adversas, e, neste caso, a IA seria apenas uma das ferramentas. Em comparação com o enorme dano causado a civis, a própria IA não seria a causa principal.
Foi apresentado o caso de uma pequena cidade no norte da Noruega que usou ferramentas de IA e LLMs para formular um plano de reestruturação educacional. Ao redigir um relatório sobre fechamento e fusão de escolas, a IA alegou citar pesquisas relevantes. Na realidade, a IA “alucinou” a própria pesquisa. Trouxe corretamente nomes de pesquisadores e de artigos, mas fabricou um artigo inexistente. Um jornalista investigativo verificou uma por uma as referências citadas e entrou em contato com os pesquisadores para descobrir a verdade. Eles responderam imediatamente que nunca escreveram nem publicaram aquele artigo. Supõe-se que existam casos semelhantes em outros lugares, em que formuladores de políticas elaboram relatórios com ChatGPT e depois empurram políticas públicas com base em estudos falsos gerados pela IA.
É um tanto surpreendente que ainda não tenha ocorrido um grande ataque de prompt injection capaz de roubar dados sensíveis em massa a ponto de virar manchete de primeira página. Foi explicado que hoje também houve um novo caso envolvendo o Microsoft 365 Copilot (a vulnerabilidade foi divulgada após ser corrigida). Foi apresentado um link para um texto do próprio autor (https://simonwillison.net/2025/Jun/11/echoleak/). A impressão é que o risco desse tipo de ataque com vazamento só será levado a sério depois que alguém sofrer danos em grande escala.
A opinião é que, na prática, esse problema é em grande parte exagerado, e que para uma prova de conceito desse tipo de ataque se transformar em dano real e substancial várias condições precisam coincidir. Ainda assim, o risco em si deve ser levado a sério.
Surge a preocupação de que, em algum momento, poderá existir um banco de dados no qual, ao pesquisar apenas o próprio nome, apareçam informações constrangedoras, como histórico pornográfico vergonhoso.
O grande desastre de IA já está acontecendo, só que não o percebemos com facilidade. O relatório “Make America Healthy Again”, divulgado recentemente pela Casa Branca e pelo secretário de Saúde (RFK), também teria sido escrito por IA e estaria cheio de ciência sem credibilidade e citações falsas. Não está claro quantas mortes isso causará direta ou indiretamente, mas argumenta-se que pode ser mais do que um acidente aéreo.
É lembrado que milhões de pessoas já morreram por causa de fracassos em diretrizes públicas de nutrição lideradas pelo FDA, como dietas com pouca gordura, a pirâmide alimentar e a margarina.
Diz-se que isso já foi bem tratado no último parágrafo da primeira parte.
Afirma-se que “confiar no resultado produzido por IA e dar problema” e “usar IA como desculpa para se blindar por decisões originalmente ruins ou sem fundamento” precisam ser claramente diferenciados.
Se for um caso em que algo já decidido por ideologia é justificado depois com IA, a posição é que isso deve ser visto como algo no nível de o governo usar um chatbot para fazer a lição de casa.
É citada a observação de que plataformas de chatbot como character.ai e Chai AI já foram associadas a suicídios de usuários. Surge a imaginação de que, se a humanidade estivesse inventando hoje a culinária pela primeira vez e propondo colocar fogões a gás e facas em todas as casas, haveria milhares de matérias levantando ao mesmo tempo questões de responsabilidade e risco.
Na prática, o governo já induz a existência de casas sem fogão a gás por razões de segurança. Explica-se que, se isso estivesse sendo introduzido hoje, enfrentaria enorme oposição.
É lançada apenas a metáfora: “esse navio não atravessa esse mar”.
Reforça-se que cozinhar de fato é perigoso. É mencionada a dificuldade que o Chipotle teve por 5 anos para se recuperar do caso de e. coli. Aponta-se que ali se trata de um produto comercial, não de comida feita em casa. Há claramente um motivo para existir regulação de segurança do consumidor. Supõe-se que, se empresas de software fossem submetidas a nem 10% das regras aplicadas a restaurantes ou frigoríficos, o setor reagiria com força. Há ainda um comentário pessoal sobre a existência ou não de regulação.
Compartilha-se a ideia de que o primeiro grande “desastre de IA” já aconteceu no mercado de trabalho. Quando há risco à segurança pública, prevê-se que quase não haverá cenários em que a IA cause diretamente uma grande catástrofe. Pelo contrário, a segurança geral pode até aumentar. Mas existe preocupação de longo prazo com a possibilidade de a humanidade se acostumar demais a depender da IA e se tornar progressivamente menos inteligente e menos qualificada.
return to office mandate), para justificar demissões em períodos de economia ruim.Sustenta-se que o primeiro “desastre de IA” será um caso em que empresas culpem a IA de maneira irresponsável por erros em seus próprios sistemas burocráticos automatizados. É apresentado o caso real em que a Hertz enviou automaticamente mandados de prisão errados, levando pessoas inocentes a confrontos com a polícia. Felizmente não houve mortes, mas isso deixou grande trauma em cidadãos corretos e cumpridores da lei. Embora o caso nem envolvesse um sistema oficial de IA, houve tentativa de escapar da responsabilidade dizendo que “foi a automação que fez”. Kafka também já destacou problema semelhante da burocracia por meio da sátira.
Também houve o caso da Air Canada, que alegou que o chatbot era uma entidade autônoma e, por isso, não poderia ser responsabilizada por orientações erradas, argumento que não foi aceito.
Aqui se menciona com humor que o B significa Bureaucracy.
Enfatiza-se a concordância de que o desastre de “IA” não será um evento direto e físico como um acidente de avião. O ponto central é que o risco cresce quando sistemas como IA ou Automation são ligados diretamente a coisas perigosas. Seja um simples
ifou uma rede neural, o essencial é a “delegação”. No fim, tão importante quanto a IA é “quem autorizou/conectou isso”.Para que a IA execute algo no mundo físico, ela precisa de uma estrutura de “permissão/autoridade”. Quem concedeu essa autoridade é o verdadeiro responsável. Em vez de um caso em que a IA cause muitos danos, o mais provável é um acidente em que “o verdadeiro responsável colocou um código-fonte malfeito para operar algo como controle de tráfego aéreo”.
Aponta-se que o primeiro grande desastre de IA provavelmente será um novo tipo de negligência grave. Vem um comentário adicional de que novas ferramentas geram novos tipos de erro.
Afirma-se que o “risco negativo” mencionado neste texto não é diferente do comportamento tolo que humanos já demonstraram várias vezes ao lidar com sistemas complexos e que, olhando depois, parece absurdo. No fim, resume-se a tese central do texto como: “a IA tornará a estupidez humana mais rápida e mais grave”.
É expressa a opinião pessoal de que esse tema de desastre de IA e caixa-preta ética combina muito bem com o projeto de worldbuilding Chain://. Ele é apresentado como uma obra ambientada no futuro dos anos 2090, retratando uma “sociedade de servidão digital” em que a consciência é registrada em uma blockchain (Mental Smart Chain, MSC) e até a existência e o pensamento são convertidos em dados verificáveis. Na história mais recente da obra, Web://Reflect, uma teoria chamada IPWT (Integrated Predictive Workspace Theory) formaliza existência e consciência como processos computacionais comprováveis. Diz-se que isso dialoga diretamente com uma visão de futuro da IA ligada à “redefinição da humanidade como dados puros”, e recomenda-se a leitura para quem se interessa por ficção científica. Foram compartilhados links para o repositório principal no GitHub (https://github.com/dmf-archive/dmf-archive.github.io) e para o IPWT (https://github.com/dmf-archive/IPWT).