Tudo está caminhando para a mentira
(aphyr.com)- A tecnologia hoje chamada de AI é, na prática, um sistema complexo de machine learning (ML), estruturado para completar estatisticamente texto, imagem e áudio
- LLMs são máquinas de produzir “mentiras plausíveis” como num improviso teatral, evitando responder que não sabem e gerando fatos fictícios
- As pessoas frequentemente os confundem com entidades conscientes, mas a autoexplicação e o processo de raciocínio do modelo não passam de narrativas fictícias
- LLMs exibem desempenho irregular, resolvendo problemas avançados e falhando em tarefas simples, revelando limites pouco confiáveis
- Em meio a esse desequilíbrio e incerteza, o ML está se consolidando como uma tecnologia que transforma a sociedade humana de forma fundamentalmente estranha
Introdução
- A geração que cresceu admirando os mundos de ficção científica de Asimov e Clarke imaginava com otimismo a chegada de máquinas inteligentes, mas acabou se decepcionando com a realidade em que o teste de Turing desmoronou
- Quando uma grande empresa de cloud anunciou, em 2019, hardware para treinamento de LLMs, surgiram preocupações de que a expansão do deep learning pudesse criar novas formas de spam e propaganda
- O texto explora o espaço negativo do discurso sobre AI, não como uma análise completa, mas como uma tentativa de delinear os contornos dos riscos e possibilidades
- Como o termo “AI” é abrangente demais, o foco recai sobre uma discussão concreta centrada em ML e LLMs
- Algumas previsões já se concretizaram, enquanto outras ainda permanecem em um campo incerto e estranho
O que é “AI”
- O que hoje se chama de “AI” é um conjunto complexo de técnicas de machine learning (ML), sistemas que reconhecem, transformam e geram vetores de tokens em texto, imagem, áudio e vídeo
- Um LLM (Large Language Model) lida com linguagem natural e funciona prevendo a continuação estatisticamente provável de uma string de entrada
- Os modelos são treinados com páginas da web e grandes corpora de dados, incluindo livros e músicas pirateados, e depois do treinamento podem ser reutilizados repetidamente com inferência (inference) de baixo custo
- O modelo não aprende sozinho com o tempo; ele só é atualizado por ajustes dos operadores ou retreinamento
- A “memória” de modelos conversacionais é, na prática, implementada por uma técnica estrutural que inclui no input um resumo das conversas anteriores
Fanfic da realidade
- LLMs funcionam como máquinas de improviso (improv), dando continuidade ao contexto recebido com um padrão de “yes-and”
- Por isso, geram frases plausíveis mas desconectadas dos fatos, interpretam mal sátira ou contexto e fabricam informação falsa
- Os humanos tendem a confundir essa saída com a fala de um ser realmente consciente
- Como LLMs geram uma resposta para qualquer entrada, há uma tendência a evitar dizer “não sei” e a inventar mentiras
- Essas mentiras não são um ato intencional, mas um produto sociotécnico resultante da interação entre humanos e máquinas
Um narrador não confiável
- As pessoas pedem aos LLMs autoexplicações como “por que você fez isso?”, mas o modelo não tem capacidade de autoconsciência
- O LLM apenas gera completamentos probabilísticos com base em conversas anteriores e no corpus, e até suas explicações sobre si mesmo são histórias fictícias
- Modelos de raciocínio (reasoning) também operam encenando narrativamente o próprio processo de pensamento
- Segundo pesquisa da Anthropic, a maior parte do registro de raciocínio do Claude era imprecisa, e até mesmo a mensagem de estado “pensando” não passava de encenação fictícia
O modelo é inteligente
- Nos últimos meses, espalhou-se a percepção de que as capacidades dos LLMs melhoraram rapidamente
- Alguns engenheiros relatam que Claude ou Codex resolvem tarefas complexas de programação de uma vez só
- Em várias áreas, já há uso prático em planejamento de dieta, revisão de especificações de construção, visualização 3D e redação de autoavaliações
- Também demonstram alto desempenho em áreas como a previsão de dobramento de proteínas do AlphaFold e interpretação de imagens médicas
- Em estilo de escrita em inglês, imagens e música, está ficando cada vez mais difícil distinguir humano de máquina, embora a geração de vídeo ainda siga limitada
O modelo é burro
- Ao mesmo tempo, LLMs também são vistos como sistemas “burros” que repetem erros básicos
- Por exemplo, o Gemini lida repetidamente de forma errada com geometria e materiais em renderização de modelos 3D, e o Claude gera código JavaScript de visualização sem sentido
- O ChatGPT não consegue executar corretamente nem um simples pedido de alteração de cor e chega a fazer afirmações falsas presumindo incorretamente a orientação sexual do usuário
- Já foram relatados casos em que LLMs geraram gráficos com dados falsos, falharam no controle de smart home ou causaram perdas financeiras
- O recurso de resumos por AI do Google apresenta taxa de erro de cerca de 10%, e alegações de “inteligência de nível especialista” são vistas como fantasias exageradas
A fronteira irregular
- Em geral, os humanos conseguem prever a faixa de suas capacidades, mas o desempenho de sistemas de ML é irregular e imprevisível
- LLMs resolvem matemática avançada e fracassam em problemas linguísticos simples, além de oferecerem explicações sem noção física do mundo
- Esse desequilíbrio é chamado de “jagged technology frontier”, e, ao contrário da distribuição de capacidades humanas, assume uma forma descontínua
- Como o ML depende de dados de treinamento e da janela de contexto (window), ele é frágil em tarefas que exigem conhecimento implícito
- Robôs humanoides e áreas que exigem conhecimento incorporado (embodied knowledge) ainda continuam distantes
Está melhorando ou não?
- Os pesquisadores ainda não entendem claramente nem mesmo o motivo do sucesso dos modelos transformer
- Desde o artigo de 2017 Attention is All You Need, várias arquiteturas foram testadas, mas a abordagem de simplesmente aumentar o número de parâmetros continua sendo a mais eficaz
- Mesmo com o aumento explosivo do custo de treinamento e do número de parâmetros, o ganho de desempenho vem desacelerando, e não está claro se isso é uma ilusão ou um limite real
- Mesmo que o ML não melhore mais, ele já está causando impacto profundo em toda a sociedade, política, arte e economia
- Em última análise, o ML é uma tecnologia que altera a vida humana de modo fundamentalmente estranho, e os desdobramentos futuros provavelmente seguirão “por caminhos estranhos”
Nota terminológica
- Como “AI” é abrangente demais, o texto a especifica como ML ou LLM
- “AI generativa” é considerada uma expressão incompleta, porque não inclui tarefas de reconhecimento
- A razão de LLMs mentirem sobre si mesmos decorre da narrativa humana sobre AI e da influência dos dados de treinamento
- Como contraponto à afirmação de que “o modelo é burro”, há quem diga que o problema está no prompt ou na escolha do modelo, mas foi confirmado que os mesmos erros se repetem até em modelos comerciais mais recentes
1 comentários
Comentários do Hacker News
Tenho pensado com frequência que a situação atual se parece com a da Revolução Industrial
Antes da Revolução Industrial, os recursos naturais eram vistos como quase infinitos, e a baixa eficiência impedia que fossem totalmente esgotados. Mas, com o surgimento das máquinas, um pequeno número de pessoas passou a conseguir consumir completamente partes do planeta, e como resultado surgiu a necessidade de direitos de propriedade e sistemas legais
Agora estamos na era da revolução da informação, e a IA está desempenhando o mesmo papel no domínio digital. Uma empresa treina IA para reutilizar, em escala industrial, obras de inúmeros criadores. Isso está rompendo o equilíbrio entre criadores e consumidores
Num mundo em que os textos escritos por autores são absorvidos pelo ChatGPT e o original é esquecido, fico me perguntando quem vai continuar produzindo conteúdo. Parece que estamos, agora, em algo como a Londres da era de Dickens, e que vamos passar por um período difícil até que a sociedade e a lei alcancem a situação
Desde “Attention is All You Need”, a evolução não veio apenas de aumentar parâmetros, mas de estruturas complexas como Mixture-of-Experts, Sparse Attention e Mamba/Gated Linear Attention. A interpretação de Bitter Lesson como “é só aumentar a computação” é um mal-entendido
Os modelos atuais já treinaram com praticamente todos os dados públicos. Se as restrições de copyright ficarem mais rígidas, pode surgir um problema de escassez de dados de treinamento. Sem uma nova inovação no nível de “Attention is All You Need”, dá a sensação de que estamos chegando a um limite de melhora de desempenho
Dizer que “LLMs ainda não são criativos” é simplificar demais. Em problemas baseados em texto, eles já conseguem fazer raciocínio lógico, e as áreas de imagem e UI também estão avançando rapidamente
Eu costumo explicar às pessoas que dentro do LLM não existe consciência nem autonomia. A palavra ‘AI’, do jeito que é usada hoje, está carregada de significados exagerados
Ri ao ver um caso em que um LLM errou um problema de física. Na verdade, físicos também costumam começar com suposições irreais. Existe até a piada do “telhado esférico sem atrito”
Ainda é difícil dizer que já passou no teste de Turing. Quanto mais longa a conversa, mais o contexto se desfaz, e há limites para simular características humanas como neuroplasticidade
O título original do artigo, “The Future of Everything is Lies, I Guess”, não combinava com o conteúdo, então foi alterado. Na prática era um texto equilibrado, e o título caça-cliques foi trocado seguindo as diretrizes do HN
A discussão sobre consciência deveria ser mais humilde. Nem a consciência humana está definida, então não dá para cravar o que seria a consciência de um LLM
Na parte final do texto foi dito que “a IA vai transformar a sociedade como um todo”, mas esta edição parece estar mais focada nas limitações dos LLMs do que nisso