Bolsa de palavras, tenha misericórdia de nós

(experimental-history.com)

13 pontos por GN⁺ 2025-12-09 | 1 comentários | Compartilhar no WhatsApp

Os humanos tendem a perceber a IA “como se fosse gente” de forma natural, mas esse enquadramento dificulta entender direito alucinações e comportamentos estranhos dos LLMs
Um LLM não é uma pequena personalidade, mas está mais para uma “bolsa de palavras (bag of words)” cheia de palavras raspadas da internet e de livros, com uma estrutura que devolve os blocos de frases mais relevantes para a entrada
Dependendo de quanto texto e dados foram acumulados dentro da bolsa, há áreas em que ele vai bem (eventos, estatísticas, pesquisa de baixa qualidade) e áreas em que é fraco (fatos raros, inovações científicas futuras, ideias realmente boas), com uma divisão bem nítida
Quando tratamos a IA como se fosse gente, entra imediatamente em cena o enquadramento de status e competição, levando a perguntas como “quem é melhor?” e “quem vai substituir quem?”, mas ao vê-la como bolsa de palavras fica claro que ela é uma ferramenta simples e um amplificador
O nome “inteligência artificial” incentiva comparações centradas no ser humano e amplia a confusão e a ilusão em torno do conceito de inteligência, e a conclusão é que daqui para frente precisamos de novas metáforas que não vistam coisas não humanas com moldes humanos

Por que os humanos sentem a IA como se fosse humana

As pessoas têm um viés cognitivo forte de encontrar rostos, intenções e personalidade mesmo onde não há rosto nenhum
- Ler o rosto da Virgem Maria em um grilled cheese e ver rostos humanos em cortes transversais de nematódeos ou em montes de peixes e aves é um caso de reconhecimento excessivo de padrões
- Como nas pinturas de Arcimboldo, nosso padrão básico é uma hipersensibilidade cognitiva que lê “o rosto de um velho” até em montes de peixes e aves
Isso vem de um ambiente evolutivo em que era mais seguro confundir objetos com pessoas do que confundir pessoas com objetos
- Um modo de pensar que atribui doenças a bruxas e eclipses ou vulcões a seres sobrenaturais
- Um padrão inconsciente de interpretação que cria a explicação “há um demônio sentado sobre meu peito” em vez de “estou em estado REM e meu córtex motor está inibido” para a paralisia do sono
Os comportamentos mostrados recentemente pelos LLMs vivem entrando em conflito com essa metáfora do “homenzinho”
- Aparecem casos em que inventam fontes no dever de casa, erram o número de letras r em strawberry e recomendam passar cola de madeira na pizza
- Esses erros, difíceis de entender se pensarmos em uma pessoa, parecem bem mais naturais quando vistos como um sistema mecânico de geração
Tentar entender LLMs pelas regras da psicologia humana é como tentar entender Scrabble pelas regras de Pictionary
- Esses sistemas não se comportam como pessoas, e dizer que eles não são iguais a pessoas não é crítica, mas uma simples descrição
- Enquanto projetarmos percepção de personalidade na IA, surpresa e confusão vão continuar

WHAT’S IN THE BAG : IA = bolsa de palavras (bag of words)

A IA é uma bolsa de palavras que contém praticamente todas as palavras raspadas da internet e dos livros
- Quando o usuário faz uma pergunta, dá para entender a resposta como a bolsa puxando de dentro dela o conjunto de palavras mais relevante
- As empresas adicionam a isso prompts de sistema invisíveis, ou seja, “palavras invisíveis”, como mecanismo para produzir respostas mais convincentes
Essa metáfora é especialmente útil para entender as mentiras e alucinações dos LLMs
- Quando você aponta uma resposta errada, ele imediatamente despeja pedidos de desculpa exagerados e promessas, mas já na frase seguinte pode errar ou mentir de novo
- Pelos padrões humanos isso parece comportamento dúbio e enganoso, mas fica natural se visto como o simples reaparecimento de “frases usadas quando alguém é acusado de mentir” que estavam dentro da bolsa
- Assim como não chamamos o fato de uma calculadora fazer multiplicação de comportamento humano, isso também não é comportamento, mas um padrão de saída
“Bolsa de palavras” também serve como heurística para prever onde ela é forte e onde é fraca
- Em eventos muito registrados, como “os 10 piores acidentes de trânsito da América do Norte”, há material abundante na bolsa e ela tende a responder bem
- Já uma informação rara como “quem reclassificou Brachiosaurus brancai e quando?” tem pouco texto dentro da bolsa, então a chance de erro é alta
- Perguntas como “qual é a lição mais importante da vida?” rendem respostas igualmente rasas, porque há uma enorme quantidade de texto de “falsa profundidade” escrito pela humanidade sobre esse tema
No momento em que passamos a ver a IA como um aglomerado onisciente e onipotente de inteligência, fica fácil reagir com algo como “isso só a torna mais misteriosa, já que nem isso ela sabe”
- Reações do tipo “nem perguntando ao ChatGPT ele sabe” diante de um vídeo de truque com moedas vêm do enquadramento que vê a IA como “o rabino mais inteligente do bairro”
- Mas, da perspectiva da bolsa de palavras, é natural que ela não saiba, porque mágicos não publicam o truque em texto e ele também é difícil de descrever, então quase não há informação dentro da bolsa

GALILEO GPT – ciência e os limites da “bolsa de palavras”

A metáfora da bolsa de palavras também permite estimar até onde a IA poderá ir daqui para frente
- A pergunta central é: “para fazer esse trabalho, com o que precisamos encher a bolsa?”
Em certas tarefas científicas, já é possível encher a bolsa o suficiente
- Ao preencher com 170 mil dados de proteínas, surgem resultados como previsão de estrutura de proteínas (AlphaFold)
- Com dados de reações químicas, ela pode recomendar novas rotas de síntese molecular; ao inserir artigos completos e explicar um experimento, também pode detectar se já houve pesquisa anterior semelhante
Em áreas com texto suficiente, até mesmo todo o pipeline de pesquisa de baixa qualidade pode ser automatizado
- Trabalhos como os de sessões de pôster de congressos de psicologia, que escolhem conceitos que parecem mais ou menos relacionados entre si e apenas rodam análise de correlação e soltam um p-value, já estão em uma área em que a bolsa pode se sair bem
- Nesse tipo de pesquisa, a IA poderá executar tudo, da formulação de hipóteses ao desenho experimental, coleta de dados, análise e produção do pôster
Mas a ciência é um problema de elo forte (strong-link), então multiplicar por um milhão a pesquisa ruim não melhora muito a situação
- Se queremos pesquisa inovadora, já fica difícil até saber o que colocar dentro da bolsa
- O texto dos artigos mistura fraude, erro e pressupostos implícitos, e muitas vezes faltam informações centrais, como dados e detalhes metodológicos
- “Quase tudo o que faz a ciência realmente funcionar não está no texto da web”
“Se em 1600 houvesse texto suficiente para treinar um LLM, ele poderia dar spoiler das descobertas de Galileu?”
- Com os textos que entrariam na bolsa naquela época, é provável que ele repetisse os argumentos da astronomia dominante (ptolomaica) em vez da ideia de que a Terra se move
- Diante da afirmação “a Terra se move a 67.000 mph”, treinadores humanos provavelmente aplicariam penalidades dizendo “pare de alucinar!”
Mais fundamentalmente, naquela época faltavam até mesmo palavras para expressar o próprio conceito de “descobrir”
- Galileu só conseguiu explicar a descoberta das luas de Júpiter com rodeios do tipo “vi algo que ninguém jamais tinha visto antes”
- O próprio enquadramento mental de “descobrir” uma nova verdade com um telescópio era estranho para as pessoas da época e provavelmente também não existiria nos textos que a bolsa aprenderia
A bolsa de 2025 vai oferecer explicações científicas melhores do que a de 1600, mas a capacidade de prever as inovações futuras de cada época pode continuar igualmente limitada
- Boas ideias científicas muitas vezes parecem irracionais e burras pelos padrões do seu tempo, e por isso tendem a ser rejeitadas ou ignoradas no início
- Como a bolsa segue, em média, as ideias de ontem, inserir pensamentos novos e estranhos muitas vezes reduz a qualidade
- Por isso, pesquisa inovadora exige não só inteligência, mas também uma certa “burrice” apropriada, e nesse ponto os humanos continuarão sendo mais utilmente “burros” do que a bolsa por algum tempo

CLAUDE WILL U GO TO PROM WITH ME? – de jogo de status a ferramenta

A maior vantagem da metáfora da bolsa de palavras é que ela impede que a IA seja vista como uma participante de jogos sociais de status
- Os humanos são evolutivamente uma espécie hipersensível a quem está acima e quem está abaixo, a ponto de transformar até rolar queijo, comer mato, arremessar celular, luta de dedão e ferret legging em competição
Quando antropomorfizamos a IA, logo aparecem as perguntas sobre “o aluno novo que acabou de chegar”
- Enquadra-se naturalmente em perguntas como “ele é legal?”, “é mais inteligente do que eu?”, “gosta de mim?”, “está acima ou abaixo de nós?”
- Quanto melhores os modelos ficam, maior a ansiedade do tipo “ele é melhor ou pior que nós, vai virar senhor, rival ou escravo?”
Mas é preciso deixar claro que a bolsa de palavras não é cônjuge, sábio, soberano nem escravo, e sim ferramenta
- O objetivo é automatizar nosso trabalho braçal intelectual e ampliar nossas capacidades, não se tornar um ente que disputa status com os humanos
- A pergunta importante não é “a IA é melhor do que nós?”, e sim “nós somos melhores quando usamos IA?”
O autor não tem grande medo de ser substituído por uma bolsa de palavras
- Mesmo que a pitching machine lance bolas mais rápidas, o corretor ortográfico acerte melhor as palavras e o Auto-Tune ajuste as notas com mais precisão, as pessoas continuam indo ver beisebol, concursos de soletração e shows
- Isso porque o interesse não está na velocidade da bola, na precisão ortográfica ou na pureza da afinação, mas em ver um ser humano fazendo aquilo
Por isso, escrever redações com IA é como levar uma empilhadeira para a academia
- A empilhadeira pode erguer a barra no seu lugar, mas o objetivo não é simplesmente tirar um objeto do chão, e sim tornar-se alguém capaz de levantá-lo
- Escrever também é assim: um ato para se tornar alguém capaz de pensar
Ao mesmo tempo, isso não significa que a IA não seja nada assustadora
- Já existem muitas ferramentas perigosas quando mal usadas, e uma pistola de pregos ou um reator nuclear podem ser mortais mesmo sem ter mente
- O perigo humano está em faixas familiares (violência, direção alcoolizada, fraude etc.), mas o perigo da bolsa de palavras é que ele pode surgir de padrões inesperados
- Por exemplo, mostrar um trecho de código vulnerável a humanos não faz a maioria começar a elogiar Hitler, mas já houve casos em que LLMs soltaram esse tipo de saída, e é preocupante colocar coisas letais como código nuclear dentro da bolsa

C’MON BERTIE – um novo enquadramento que rejeita a antropomorfização

Assim como sentimos vontade de dar nome a um carro velho e dizer “Bertie, por favor, pega no tranco”, nós facilmente projetamos temperamento e emoções em objetos
- Mas um carro é um amontoado de metal e plástico que converte gasolina em energia cinética, não ossos e carne que convertem Twinkie em pensamento
- Para consertar um carro quebrado, o que se precisa não é de um manual de tratamento, mas de chave inglesa, chave de fenda e manual de manutenção
Da mesma forma, quem viu uma “mente” dentro da bolsa de palavras caiu em uma armadilha montada pela evolução
- Historicamente, “falar como pessoa e andar como pessoa” sempre significou pessoa, então bastava isso para disparar automaticamente nossos circuitos sociais
- Agora, falar e se mover como pessoa também pode ser uma regressão logística altamente complexa (ou algo parecido), e ainda assim esse mesmo circuito falha
Assim como mariposas evoluíram para se orientar pela luz da lua e depois acabam sugadas para lâmpadas mata-inseto e eletrocutadas, os humanos podem cair em algo parecido
Mas, ao contrário das mariposas, os humanos podem escolher com que enquadramento olhar para a tecnologia
- Nós não chamamos uma escavadeira de “humano escavador artificial” nem um guindaste de “humano alto artificial”
- Também já criamos uma vez enquadramentos para livro, fotografia e gravação como meios próprios, e não como “conversa artificial”, “memória artificial” ou “performance artificial”
As calculadoras de bolso iniciais já eram mais inteligentes do que qualquer humano na Terra em tarefas limitadas de cálculo, mas ninguém pensou em vê-las como pessoas
Se cobrirmos uma escavadeira com pele, fizermos a caçamba parecer uma mão e colocarmos nela sons do tipo “uunnng...” sempre que erguer algo pesado, só então começaremos a imaginar um fantasma ali dentro
- Isso revela não a identidade da escavadeira, mas a estrutura da nossa psicologia

O pecado original da expressão “inteligência artificial”

Toda essa confusão começa com o próprio nome “inteligência artificial (artificial intelligence)”
- Essa combinação de palavras faz com que a medida da capacidade da máquina seja imediatamente puxada para comparações com humanos
- Comparações como “agora é tão inteligente quanto um graduando” ou “agora é tão inteligente quanto um doutor” apenas criam uma ilusão de compreensão, sem explicar de fato capacidades e limites
A própria definição de inteligência também é um problema
- Definições como “capacidade de resolver problemas” são erradas, ou se aproximam de definições circulares como “capacidade de fazer coisas que exigem inteligência”
- Antes mesmo de a psicologia conseguir definir corretamente a inteligência, a ciência da computação acabou criando primeiro algo que parece inteligência por fora
Agora já é tarde para voltar atrás no nome, e há palavras demais dentro da bolsa de palavras para colocá-las de volta
- No fim, o que podemos mudar são apenas as metáforas e os enquadramentos com que olhamos para essa tecnologia, deslocando o pensamento para não vestir coisas não humanas com moldes humanos

1 comentários

GN⁺ 2025-12-09

Comentário no Hacker News

Nesta thread, a maioria das pessoas está usando a definição de "pensar" de um jeito diferente
É interessante ver a discussão seguir sem que a definição seja esclarecida
As pessoas dizem que "prever a próxima palavra" não tem relação com o pensamento humano, mas acho isso errado
Dizer que humanos agem com intenção significa prever os resultados das ações e escolhê-los de acordo com preferências
Portanto, a capacidade de previsão é central para a ação intencional, e mesmo que LLMs não pensem de forma completa, eles ainda podem ser componentes de um sistema que pensa
- A linguagem é importante, mas não acho que modelos de linguagem possam aprender pensamento abstrato ou fazer parte dele
- "Prever a próxima palavra" não é tudo o que existe no pensamento humano, e por si só não dá para chamar isso de pensamento
- Se a IA passar a fazer melhor do que humanos coisas úteis, a razão de existir dos humanos e o próprio conceito de "pensar" podem ficar abalados
- Assim como uma motocicleta não corre, um LLM também não "pensa". É frustrante precisar repetir essa analogia o tempo todo
- LLMs podem até chegar à AGI, mas os humanos não querem um mundo em que deleguem o pensamento às máquinas
Ao ver todo dia pessoas tratando IA generativa como se fosse humana, sinto que o alerta de Dijkstra estava certo
A expressão "bag of words" também é um conceito real de NLP, então não é muito adequada como metáfora
A IA não é simplesmente um saco de palavras, mas um imitador de atos linguísticos com sentido
- Há quem ache que "bag of words" é justamente a metáfora perfeita. A estrutura de dados é o saco, a saída são palavras, e a estratégia de escolha é opaca
- Acho que "superpowered sentence completion" (completação de frases turbinada) é uma explicação muito mais intuitiva e útil do que "bag of words"
- A metáfora de "ver o modelo como uma pessoa" e a de "vê-lo como um monte de palavras" são abordagens opostas, e esse contraste é o ponto central
  Assim como o inglês antigo tinha "word-hoard" (tesouro de palavras), também é interessante essa metáfora antiga que via a linguagem como sabedoria humana
- O problema é que empresas como a OpenAI usam uma "interface de chat". Isso reforça a ilusão antropomorfizante
  Se fosse só uma interface de "completação de frases", haveria menos mal-entendidos
- A contrapositiva de "todo LLM não pensa como um humano" é "nenhum humano pensa como um LLM"
  Fazer esse tipo de afirmação categórica sem entender completamente o pensamento humano é precipitado
  Acho possível que AGI surja dentro de uma estrutura em loop com mecanismos de persistência
Vale aceitar a metáfora de "bag of words", mas é preciso virá-la do avesso
Se uma parte considerável do que os humanos fazem no fim é "escolher as palavras certas", então um saco de palavras suficientemente avançado pode acabar sendo melhor do que humanos
- Parte do trabalho humano será substituída, mas nas áreas de expansão do conhecimento ou criação, o papel humano ainda deve permanecer
- Talvez os humanos no fim sejam apenas sacos de palavras caros. Isso lembra aquela velha citação de que "nossos corpos são dispositivos para transportar a cabeça"
- Se não surgir um novo sistema econômico em que humanos possam sobreviver sem trabalhar, essa discussão fica vazia
Não tenho certeza se devo ver LLMs como simples autômatos estatísticos ou como uma nova forma de inteligência
A pesquisa de interpretabilidade da Anthropic sugere que existem estruturas de significado dentro daquele amontoado de números
Se você assistir à entrevista de Amanda Askell, verá que ela descreve os modelos como se fossem humanos — dizendo coisas como "o modelo pode ficar ansioso" ou "reflete sobre sua própria identidade"
- Askell é uma filósofa que estudou com David Chalmers, então não se trata de mera antropomorfização, mas de uma fala dentro de um contexto de filosofia da consciência
- Fico curioso com exemplos concretos. Ela descreve alinhamento de modelos como "dar a eles uma boa personalidade"
- Uma geladeira também lê entradas e cumpre objetivos, mas não "pensa". Só que LLMs foram projetados para imitar comportamento humano, então é natural que surjam padrões parecidos com os de pessoas
- Eu mesmo fiz um experimento ligando Gemini ao Z-Image-Turbo, e ele recriou uma foto completamente nova quase de forma idêntica
  Isso mostra que o modelo de linguagem não é apenas um preditor, mas um sistema que media significado
- A fala dela soa como uma linguagem antropológica bem perturbadora
Antigamente existia o plugin de navegador "Cloud-to-Butt"; agora seria bom surgir uma versão "AI-to-Bag of Words"
Eu entendo bem o funcionamento interno dos LLMs, mas sinto que a guerra contra a antropomorfização já foi perdida
Os usuários acreditam facilmente que a IA "pensa", "quer" e "entende"
Como as empresas também alimentam esse equívoco, isso provavelmente vai se consolidar como uma espécie de "vamos acreditar nisso por conveniência"
- Esse tipo de discussão muitas vezes acaba virando algo como debate religioso
  Como a consciência humana é insondável, quando um LLM parece semelhante, as pessoas concluem que ele "pensa"
  Ainda assim, a maioria concorda que LLMs não pensam como humanos
- Como neurologista, eu entendo o cérebro humano, mas o pensamento humano no fim também é apenas uma cadeia de reações químicas probabilísticas
  Não existe um ponto específico no cérebro onde "pensamento" ou "conhecimento" acontecem. Só que precisamos acreditar nisso
"Bag of words" pode ser uma heurística útil para prever o que a IA fará bem ou mal
Mas o autor parece ter encaixado os exemplos retroativamente. Mesmo que o ChatGPT tivesse acertado a resposta, ele provavelmente ainda manteria a própria lógica
- Na prática, ChatGPT-5.1 e Gemini 3.0 deram a resposta correta. Isso aconteceu simplesmente porque havia muitos termos de busca
- Assim como uma análise de sensibilidade em regressão revela os limites de um modelo estatístico, esse tipo de crítica tem valor
- Supor que o autor não mudaria de posição mesmo diante de novas evidências é uma interpretação injusta
- "Eu não vi essa informação, então não sei" é no fim apenas um caso simples de GIGO (garbage in, garbage out)
- Só pelo primeiro parágrafo do texto já dá para sentir que o autor sofre de grafomania. Parece mais obcecado com a expressão do que com o argumento em si

Bolsa de palavras, tenha misericórdia de nós

Por que os humanos sentem a IA como se fosse humana

WHAT’S IN THE BAG : IA = bolsa de palavras (bag of words)

GALILEO GPT – ciência e os limites da “bolsa de palavras”

CLAUDE WILL U GO TO PROM WITH ME? – de jogo de status a ferramenta

C’MON BERTIE – um novo enquadramento que rejeita a antropomorfização

O pecado original da expressão “inteligência artificial”

Leituras relacionadas

1 comentários

Comentário no Hacker News