Tudo está caminhando para a mentira

(aphyr.com)

2 pontos por GN⁺ 20 일 전 | 1 comentários | Compartilhar no WhatsApp

A tecnologia hoje chamada de AI é, na prática, um sistema complexo de machine learning (ML), estruturado para completar estatisticamente texto, imagem e áudio
LLMs são máquinas de produzir “mentiras plausíveis” como num improviso teatral, evitando responder que não sabem e gerando fatos fictícios
As pessoas frequentemente os confundem com entidades conscientes, mas a autoexplicação e o processo de raciocínio do modelo não passam de narrativas fictícias
LLMs exibem desempenho irregular, resolvendo problemas avançados e falhando em tarefas simples, revelando limites pouco confiáveis
Em meio a esse desequilíbrio e incerteza, o ML está se consolidando como uma tecnologia que transforma a sociedade humana de forma fundamentalmente estranha

Introdução

A geração que cresceu admirando os mundos de ficção científica de Asimov e Clarke imaginava com otimismo a chegada de máquinas inteligentes, mas acabou se decepcionando com a realidade em que o teste de Turing desmoronou
Quando uma grande empresa de cloud anunciou, em 2019, hardware para treinamento de LLMs, surgiram preocupações de que a expansão do deep learning pudesse criar novas formas de spam e propaganda
O texto explora o espaço negativo do discurso sobre AI, não como uma análise completa, mas como uma tentativa de delinear os contornos dos riscos e possibilidades
Como o termo “AI” é abrangente demais, o foco recai sobre uma discussão concreta centrada em ML e LLMs
Algumas previsões já se concretizaram, enquanto outras ainda permanecem em um campo incerto e estranho

O que é “AI”

O que hoje se chama de “AI” é um conjunto complexo de técnicas de machine learning (ML), sistemas que reconhecem, transformam e geram vetores de tokens em texto, imagem, áudio e vídeo
Um LLM (Large Language Model) lida com linguagem natural e funciona prevendo a continuação estatisticamente provável de uma string de entrada
Os modelos são treinados com páginas da web e grandes corpora de dados, incluindo livros e músicas pirateados, e depois do treinamento podem ser reutilizados repetidamente com inferência (inference) de baixo custo
O modelo não aprende sozinho com o tempo; ele só é atualizado por ajustes dos operadores ou retreinamento
A “memória” de modelos conversacionais é, na prática, implementada por uma técnica estrutural que inclui no input um resumo das conversas anteriores

Fanfic da realidade

LLMs funcionam como máquinas de improviso (improv), dando continuidade ao contexto recebido com um padrão de “yes-and”
Por isso, geram frases plausíveis mas desconectadas dos fatos, interpretam mal sátira ou contexto e fabricam informação falsa
Os humanos tendem a confundir essa saída com a fala de um ser realmente consciente
Como LLMs geram uma resposta para qualquer entrada, há uma tendência a evitar dizer “não sei” e a inventar mentiras
Essas mentiras não são um ato intencional, mas um produto sociotécnico resultante da interação entre humanos e máquinas

Um narrador não confiável

As pessoas pedem aos LLMs autoexplicações como “por que você fez isso?”, mas o modelo não tem capacidade de autoconsciência
O LLM apenas gera completamentos probabilísticos com base em conversas anteriores e no corpus, e até suas explicações sobre si mesmo são histórias fictícias
Modelos de raciocínio (reasoning) também operam encenando narrativamente o próprio processo de pensamento
Segundo pesquisa da Anthropic, a maior parte do registro de raciocínio do Claude era imprecisa, e até mesmo a mensagem de estado “pensando” não passava de encenação fictícia

O modelo é inteligente

Nos últimos meses, espalhou-se a percepção de que as capacidades dos LLMs melhoraram rapidamente
Alguns engenheiros relatam que Claude ou Codex resolvem tarefas complexas de programação de uma vez só
Em várias áreas, já há uso prático em planejamento de dieta, revisão de especificações de construção, visualização 3D e redação de autoavaliações
Também demonstram alto desempenho em áreas como a previsão de dobramento de proteínas do AlphaFold e interpretação de imagens médicas
Em estilo de escrita em inglês, imagens e música, está ficando cada vez mais difícil distinguir humano de máquina, embora a geração de vídeo ainda siga limitada

O modelo é burro

Ao mesmo tempo, LLMs também são vistos como sistemas “burros” que repetem erros básicos
Por exemplo, o Gemini lida repetidamente de forma errada com geometria e materiais em renderização de modelos 3D, e o Claude gera código JavaScript de visualização sem sentido
O ChatGPT não consegue executar corretamente nem um simples pedido de alteração de cor e chega a fazer afirmações falsas presumindo incorretamente a orientação sexual do usuário
Já foram relatados casos em que LLMs geraram gráficos com dados falsos, falharam no controle de smart home ou causaram perdas financeiras
O recurso de resumos por AI do Google apresenta taxa de erro de cerca de 10%, e alegações de “inteligência de nível especialista” são vistas como fantasias exageradas

A fronteira irregular

Em geral, os humanos conseguem prever a faixa de suas capacidades, mas o desempenho de sistemas de ML é irregular e imprevisível
LLMs resolvem matemática avançada e fracassam em problemas linguísticos simples, além de oferecerem explicações sem noção física do mundo
Esse desequilíbrio é chamado de “jagged technology frontier”, e, ao contrário da distribuição de capacidades humanas, assume uma forma descontínua
Como o ML depende de dados de treinamento e da janela de contexto (window), ele é frágil em tarefas que exigem conhecimento implícito
Robôs humanoides e áreas que exigem conhecimento incorporado (embodied knowledge) ainda continuam distantes

Está melhorando ou não?

Os pesquisadores ainda não entendem claramente nem mesmo o motivo do sucesso dos modelos transformer
Desde o artigo de 2017 Attention is All You Need, várias arquiteturas foram testadas, mas a abordagem de simplesmente aumentar o número de parâmetros continua sendo a mais eficaz
Mesmo com o aumento explosivo do custo de treinamento e do número de parâmetros, o ganho de desempenho vem desacelerando, e não está claro se isso é uma ilusão ou um limite real
Mesmo que o ML não melhore mais, ele já está causando impacto profundo em toda a sociedade, política, arte e economia
Em última análise, o ML é uma tecnologia que altera a vida humana de modo fundamentalmente estranho, e os desdobramentos futuros provavelmente seguirão “por caminhos estranhos”

Nota terminológica

Como “AI” é abrangente demais, o texto a especifica como ML ou LLM
“AI generativa” é considerada uma expressão incompleta, porque não inclui tarefas de reconhecimento
A razão de LLMs mentirem sobre si mesmos decorre da narrativa humana sobre AI e da influência dos dados de treinamento
Como contraponto à afirmação de que “o modelo é burro”, há quem diga que o problema está no prompt ou na escolha do modelo, mas foi confirmado que os mesmos erros se repetem até em modelos comerciais mais recentes

1 comentários

GN⁺ 20 일 전

Comentários do Hacker News

Tenho pensado com frequência que a situação atual se parece com a da Revolução Industrial
Antes da Revolução Industrial, os recursos naturais eram vistos como quase infinitos, e a baixa eficiência impedia que fossem totalmente esgotados. Mas, com o surgimento das máquinas, um pequeno número de pessoas passou a conseguir consumir completamente partes do planeta, e como resultado surgiu a necessidade de direitos de propriedade e sistemas legais
Agora estamos na era da revolução da informação, e a IA está desempenhando o mesmo papel no domínio digital. Uma empresa treina IA para reutilizar, em escala industrial, obras de inúmeros criadores. Isso está rompendo o equilíbrio entre criadores e consumidores
Num mundo em que os textos escritos por autores são absorvidos pelo ChatGPT e o original é esquecido, fico me perguntando quem vai continuar produzindo conteúdo. Parece que estamos, agora, em algo como a Londres da era de Dickens, e que vamos passar por um período difícil até que a sociedade e a lei alcancem a situação
- Não é verdade que “a natureza era infinita”. Já no começo da Idade do Ferro havia problemas de esgotamento florestal, e a tensão entre agricultura, pastoreio e gestão florestal existe há milhares de anos
- Muita gente teve um pensamento parecido. O atual papa Leo XIV escolheu esse nome em referência ao papa Leo XIII, da época da Revolução Industrial, e mencionou a responsabilidade social na era da IA ao citar a encíclica Rerum novarum. Artigo relacionado: Vatican News
- Eu não escrevo só por dinheiro. Escrevo por vontade de criar e pelo desejo de mudar o mundo, ainda que um pouco. Se o ChatGPT aprender com o que escrevi e isso ajudar alguém, só isso já tem valor. Nem todo mundo precisa concordar comigo, mas eu vejo isso de forma positiva
- Eu penso justamente o contrário. Agora a criação se tornou um bem público digital acessível a qualquer um. Se a IA automatizou a criação, não há motivo para que um criador específico a monopolize. O open source acabará substituindo as empresas de IA e, se isso não acontecer, então deveria ser nacionalizado como utilidade pública. O conceito de propriedade digital está destinado a desaparecer por causa da própria natureza da tecnologia
- Mesmo antes da Revolução Industrial, as pessoas já brigavam por direitos de uso da água e dos rios. Por exemplo, a guerra Umma–Lagash é um caso de disputa por água de 4.000 anos atrás
Desde “Attention is All You Need”, a evolução não veio apenas de aumentar parâmetros, mas de estruturas complexas como Mixture-of-Experts, Sparse Attention e Mamba/Gated Linear Attention. A interpretação de Bitter Lesson como “é só aumentar a computação” é um mal-entendido
- O autor já deixou claro desde o início que “não sou especialista em ML”, e este texto é um ensaio que reúne pensamentos dos últimos 10 anos. A expressão “talvez seja uma variação da Bitter Lesson” foi usada apenas para provocar reflexão. O objetivo do texto está mais em estimular o pensamento do que em precisão técnica
- Eu também troquei do Qwen 3 para o Qwen 3.5, e mesmo com menos parâmetros o desempenho ficou muito melhor. Graças a inovações algorítmicas como Gated DeltaNet e TurboQuant, a eficiência de memória aumentou e o comprimento de contexto também cresceu. No fim, a chave está na inovação estrutural
- Depois do GPT-3 (175B), estima-se que o GPT-4 tenha 1,8 trilhão de parâmetros. Então está errado dizer que “o aumento de parâmetros parou há 5 anos”
- Fico curioso se o Mamba é realmente usado em modelos de grande escala. Pelo que sei, ainda faltam implementações eficientes. E também gostaria de saber o que significa exatamente dizer que “o treinamento ficou muito mais sofisticado”
- Transformer não é magia. Ele apenas foi muito mais eficiente do que LSTM, RNN e CNN. Recentemente também surgiram modelos que usam reasoning token para expor o processo de raciocínio. Não é perfeito, mas até agora é a abordagem que melhor funciona
Os modelos atuais já treinaram com praticamente todos os dados públicos. Se as restrições de copyright ficarem mais rígidas, pode surgir um problema de escassez de dados de treinamento. Sem uma nova inovação no nível de “Attention is All You Need”, dá a sensação de que estamos chegando a um limite de melhora de desempenho
- Ainda assim, os pesquisadores continuam testando novas ideias. Pode surgir um avanço em 5 a 10 anos. Só que, até lá, o custo será alto
- Em matemática e software, há menos restrições porque é possível gerar dados sintéticos. É um tipo de domínio em que se pode fazer aprendizado com autoverificação, como no AlphaGo Zero
- Na verdade, o avanço atual também começou com o experimento de “vamos aumentar absurdamente a quantidade de dados”. Depois disso, a diferenciação vem acontecendo na etapa de post-training
- Algumas empresas estão contratando pessoas para produzir tokens de alta qualidade e, com base neles, gerar dados sintéticos para reutilizar no treinamento
Dizer que “LLMs ainda não são criativos” é simplificar demais. Em problemas baseados em texto, eles já conseguem fazer raciocínio lógico, e as áreas de imagem e UI também estão avançando rapidamente
- O ponto central é que o LLM não ‘entende’ pensamento. Raciocínio é apenas um loop de feedback, não pensamento de verdade. Sobre se essa limitação pode ser resolvida tecnicamente, coexistem otimismo e pessimismo
- Para mim, às vezes o LLM apresenta ideias que eu nunca tinha visto. Mas não posso ter certeza de que isso seja realmente novo para a humanidade como um todo
- Este texto não está dizendo que “LLM é burro”, e sim que a fronteira entre inteligência e estupidez é complexa e imprevisível
- Mesmo que o LLM resolva problemas lógicos, ainda é difícil abordar as coisas de formas que não estavam nos dados de treinamento
- A geração de imagens também está evoluindo rapidamente. Dá para ver isso em projetos como GenAI Showdown
Eu costumo explicar às pessoas que dentro do LLM não existe consciência nem autonomia. A palavra ‘AI’, do jeito que é usada hoje, está carregada de significados exagerados
- Nesse caso, fico curioso sobre como a estrutura interna teria de ser diferente para haver ‘consciência’ ou ‘autonomia’
- Na verdade, ‘AI’ é um termo acadêmico que existe desde os anos 1950. Originalmente era uma tentativa de imitar o pensamento humano, mas hoje significa apenas um sistema computacional inteligente. Como o público ainda entende isso num sentido humano, surge confusão
- Eu diria justamente o contrário: a palavra ‘AI’ é precisa. A máquina está apenas executando inteligência de forma artificial. Assim como matemática e lógica, no fim isso também é um processo mecânico. Do mesmo modo que transistores executam lógica, prever tokens é algo natural
- Também é questionável se existe base para afirmar com certeza que o cérebro humano funciona de maneira essencialmente diferente de um LLM
Ri ao ver um caso em que um LLM errou um problema de física. Na verdade, físicos também costumam começar com suposições irreais. Existe até a piada do “telhado esférico sem atrito”
- Essa é uma abordagem típica da ciência. Primeiro se obtém uma aproximação com um modelo simples, e depois se acrescenta a complexidade do mundo real
Ainda é difícil dizer que já passou no teste de Turing. Quanto mais longa a conversa, mais o contexto se desfaz, e há limites para simular características humanas como neuroplasticidade
- Houve um momento em que parecia ter passado, mas hoje a maioria das pessoas consegue distinguir o jeito característico de falar dos LLMs. Ainda assim, como os modelos são deliberadamente projetados para serem mais gentis e prolixos, a comparação não é totalmente justa
- O teste de Turing nunca foi, para começo de conversa, um exame de aprovado/reprovado
- Hoje se espalhou a ideia de que “LLM quebrou o teste de Turing”, mas na prática, se considerarmos a condição de que o avaliador conhece a tecnologia mais recente, ainda é fácil distinguir
- Mas, se o teste for tão rigoroso assim, até humanos podem falhar por falta de concentração
- Entre todos os LLMs que vi até agora, não existe um único que escreva bem. Fico curioso se algum dia vai surgir um modelo com o qual conversar seja realmente agradável
O título original do artigo, “The Future of Everything is Lies, I Guess”, não combinava com o conteúdo, então foi alterado. Na prática era um texto equilibrado, e o título caça-cliques foi trocado seguindo as diretrizes do HN
- Foi uma boa decisão. A “mentira” de que o texto fala não é alucinação (hallucination), mas o fenômeno em que o modelo, quando perguntado “por que você respondeu assim?”, inventa na hora um motivo sem sentido. Humanos também cometem erros parecidos
- Graças à curadoria, o título ficou muito melhor
- O título original funcionava bem para atrair cliques, mas representava mal o conteúdo
A discussão sobre consciência deveria ser mais humilde. Nem a consciência humana está definida, então não dá para cravar o que seria a consciência de um LLM
- Algumas teorias da consciência excluem LLMs, enquanto outras deixam essa possibilidade em aberto. É uma área sem resposta definitiva
- Algumas pessoas veneram LLMs como se fossem um ídolo de silício. Acreditam entender completamente a entidade que criaram, mas ao mesmo tempo acham que nela existe uma essência secreta da inteligência. Essa postura lembra as tentativas dos alquimistas de fabricar ouro no passado
Na parte final do texto foi dito que “a IA vai transformar a sociedade como um todo”, mas esta edição parece estar mais focada nas limitações dos LLMs do que nisso
- Na verdade, este texto é a introdução de uma série de 10 partes. Nas próximas edições serão tratados temas diversos como política, arte, economia e relações humanas
- Neste momento, na verdade, é preciso continuar reforçando a mensagem de que LLMs não são perfeitos. Porque o mundo está confundindo IA com uma solução universal para tudo.

Tudo está caminhando para a mentira

Introdução

O que é “AI”

Fanfic da realidade

Um narrador não confiável

O modelo é inteligente

O modelo é burro

A fronteira irregular

Está melhorando ou não?

Nota terminológica

Leituras relacionadas

1 comentários

Comentários do Hacker News