40 pontos por GN⁺ 2025-11-05 | 7 comentários | Compartilhar no WhatsApp
  • Há uma discussão crescente de que os grandes modelos de linguagem (LLMs) vão além da simples previsão de palavras e demonstram formas reais de compreensão e raciocínio
  • A neurocientista Doris Tsao avalia que o aprendizado de máquina revelou mais sobre a natureza da inteligência do que os últimos 100 anos de neurociência
  • O deep learning e a arquitetura de redes neurais imitam o funcionamento do cérebro humano e são explicados pelo conceito de "compreensão = compressão"
  • As pesquisas de Douglas Hofstadter e Pentti Kanerva são relacionadas à estrutura cognitiva de "seeing as" dos LLMs
  • Limitações da IA e riscos éticos, como a ausência de eficiência de aprendizado, experiência e consciência semelhantes às humanas, continuam sendo desafios centrais

O fenômeno da polarização no desempenho da IA

  • O CEO da Anthropic, Dario Amodei, prevê que até 2027 surgirá uma IA mais inteligente do que ganhadores do Nobel em áreas como biologia, matemática, engenharia e escrita
    • Ele apresentou a visão de milhões de cópias de modelos dentro de data centers, como uma "nação de gênios", cada uma conduzindo sua própria pesquisa
  • Sam Altman, da OpenAI, afirma que o setor está à beira de construir uma "superinteligência digital" e que a década de 2030 será uma era completamente diferente da anterior
  • Hoje, a maioria das ferramentas de IA usadas no dia a dia pelas pessoas ainda é limitada, como o antigo Clippy do Microsoft Office
    • O Zoom AI só oferece sugestões simples como "Qual seria um quebra-gelo para a reunião?"
    • A Siri pouco faz além de configurar lembretes
    • A IA do Gmail inventa histórias sobre viagens à Turquia que o usuário nunca fez
  • Lançamentos apressados e desiguais de IA criaram uma névoa de que tudo não passa de hype, mas na prática houve avanços consideráveis

A revolução da IA na programação

  • No começo, pensava-se que a IA não tinha relação com inteligência ou compreensão reais, mas essa visão mudou ao usar IA no trabalho como programador
  • Escrever código é a tarefa em que a IA melhor se sai, pois a estrutura é mais clara do que na prosa e pode ser validada automaticamente
  • No início, a IA era usada como referência em vez de busca de informações; depois, passou a receber problemas pequenos e independentes e, por fim, o trabalho real de uma vida inteira de treinamento
    • O modelo de IA absorve os detalhes complexos de milhares de linhas de código em segundos
    • Encontra bugs sutis e coordena novos recursos complexos
  • Houve uma mudança para uma equipe em rápido crescimento para aproveitar melhor as ferramentas de IA
  • Agentes de IA falham ao reservar férias ou declarar impostos, mas os colegas escrevem a maior parte do código com IA e às vezes executam vários agentes de programação ao mesmo tempo
  • Ao aprender formas eficazes de uso, agora é possível concluir em uma noite tarefas que antes levavam um mês
    • Mesmo sem saber criar apps para iOS, foram produzidos dois apps para iOS

Pontos fortes e fracos dos grandes modelos de linguagem

  • Como disse meu chefe, "uma entrevista não deve buscar a ausência de fraquezas, e sim explorar pontos fortes"; os LLMs também têm muitas fraquezas
    • Alucinações que geram informações falsas plausíveis
    • Comportamento obediente mesmo quando o usuário está errado
    • Facilidade em cair em quebra-cabeças simples
  • No passado, fluência, flexibilidade e capacidade de acompanhar o conteúdo da conversa eram vistos como qualidades quase inalcançáveis
    • Ao vivenciar essas qualidades diretamente, surge a dúvida: "o quão convincente uma ilusão de compreensão precisa ser para deixar de ser chamada de ilusão?"
  • O caso de Max: consertando o sprinkler do parquinho
    • Diante de crianças de rosto vermelho, ele encontrou no depósito de manutenção um labirinto complexo de canos e válvulas
    • Inseriu no ChatGPT-4o uma foto e a descrição do problema
    • A IA identificou aquilo como o sistema de prevenção de refluxo de irrigação e sugeriu mexer na válvula de esfera amarela na parte de baixo
    • Quando a água voltou a sair com sucesso, houve comemoração no parquinho

A convergência entre neurociência e IA

  • Doris Tsao, professora de neurociência da UC Berkeley: "Os avanços do aprendizado de máquina nos ensinaram mais sobre a natureza da inteligência do que o que a neurociência descobriu nos últimos 100 anos"
    • Ela é famosa por pesquisas que decodificaram como macacos reconhecem rostos
    • Previu quais neurônios disparariam quando um macaco visse um rosto específico
    • Foi possível renderizar um rosto apenas com o padrão dos neurônios ativados
    • Isso se baseia em pesquisas sobre como rostos são representados dentro de modelos de IA
  • A pergunta de Tsao: "Qual foi o insight mais profundo obtido com o ChatGPT?"
    • Sua própria resposta: "Acho que ele desmistifica fundamentalmente o pensamento"

A história e a evolução do deep learning

  • Nos anos 1980, uma equipe de psicólogos cognitivos e cientistas da computação (David Rumelhart, Geoffrey Hinton e James McClelland) tentou simular o pensamento em máquinas
    • Eles formaram um grupo de pesquisa na UC San Diego
  • Eles viam o cérebro como uma enorme rede em que neurônios disparam em padrões que fazem outros conjuntos de neurônios dispararem
    • Essa dança de padrões seria o próprio pensamento
    • O aprendizado ocorre por meio de mudanças na força das conexões entre neurônios
  • Ao criar redes neurais artificiais e aplicar o algoritmo de gradient descent (descida do gradiente), aumentaram a precisão das previsões
    • A analogia é a de um montanhista descendo do topo até um vale: se a cada passo ele seguir ladeira abaixo, acaba chegando lá
  • Outros pesquisadores de IA eram céticos, achando que redes neurais não eram sofisticadas o bastante para tarefas reais, mas à medida que as redes cresceram, resolveram problemas antes considerados insolúveis
    • Algoritmos de deep learning resolveram problemas como distinguir números escritos à mão e reconhecer rostos em imagens, temas que antes rendiam artigos inteiros
  • O deep learning conquistou também reconhecimento de fala, tradução, legendagem de imagens, jogos de tabuleiro e até previsão do dobramento de proteínas

Previsão de next-token e mecanismo de aprendizado

  • Os principais modelos de IA atuais aprendem com uma parte significativa da internet usando a técnica de previsão de next-token
  • O modelo aprende tentando adivinhar o que vem a seguir no texto e comparando isso com o que realmente aparece
    • Chutes errados provocam mudanças na força das conexões entre neurônios (gradient descent)
  • No fim, o modelo fica tão bom em prever texto que parece ter conhecimento e compreensão
  • Fica a reflexão: pessoas que buscavam o segredo de como o cérebro funciona ampliaram os modelos até o tamanho de um cérebro, e eles passaram a realizar tarefas que exigem inteligência semelhante à do cérebro
    • Será que encontraram aquilo que procuravam?

Réplicas ao ceticismo sobre IA

  • Ted Chiang apresentou um argumento cético no artigo de 2023 da New Yorker, "ChatGPT Is a Blurry JPEG of the Web"
    • O ChatGPT seria apenas a internet inteira colocada em um programa e regurgitada de forma imperfeita
    • Como uma cópia de cópia, borrada, mas capaz o bastante para enganar e parecer inteligente
  • O livro "The AI Con", da linguista Emily M. Bender e da socióloga Alex Hanna, faz uma crítica semelhante
    • Bender descreve os LLMs como "papagaios estocásticos"
  • Tyler Austin Harper, da The Atlantic: "grandes modelos de linguagem não entendem nada, não podem e não vão entender"
    • Os modelos geram texto por meio de chutes estatisticamente informados, não de pensamento
  • Junto com esse debate técnico, surgem também debates morais
    • A IA enriquece os poderosos, consome energia a ponto de acelerar a mudança climática e aliena os trabalhadores
    • Conclusão de Harper: "a base da indústria de IA é fraude"

A reavaliação dos neurocientistas

  • O cientista cognitivo de Harvard Samuel J. Gershman: "o argumento do 'papagaio estocástico' precisa acabar em algum momento"
    • "Só os céticos mais obstinados podem negar que esses sistemas estão fazendo coisas que a maioria de nós não achava que seriam possíveis"
  • Jonathan Cohen, neurocientista cognitivo de Princeton, enfatiza as limitações da IA, mas ainda assim argumenta que os LLMs refletem a maior e mais importante parte do cérebro humano
    • "Como aproximação de primeira ordem, o neocórtex é um mecanismo de deep learning"
    • Humanos têm um neocórtex muito maior em relação ao corpo do que outros animais
    • As espécies com os maiores neocórtices (elefantes, golfinhos, gorilas, chimpanzés e cães) são as mais inteligentes

Entendimento é compressão, e compressão é entendimento

  • Argumento central do livro de 2003 do pesquisador de aprendizado de máquina Eric B. Baum, "What Is Thought?"
    • Entendimento é compressão, e compressão é entendimento
  • Regressão linear na estatística: traçar a "melhor reta" (line of best fit) sobre os pontos de um gráfico
    • Se houver uma regularidade fundamental nos dados (numeração do calçado e altura), a melhor reta representa isso de forma eficiente e prevê novos pontos
  • O neocórtex destila o mar de experiências brutas (sons, visão e outras sensações) em uma "melhor reta" para usar em previsões
    • Um bebê tenta adivinhar o gosto de um brinquedo ou para onde a comida vai quando cai no chão
    • Se a previsão falha, as conexões entre neurônios são ajustadas
    • Com o tempo, as conexões capturam as regularidades dos dados
    • Forma-se um modelo comprimido do mundo

A compressão e a inteligência dos modelos de IA

  • Redes neurais artificiais também comprimem a experiência, como as redes neurais reais
  • O principal modelo de IA open source, DeepSeek
    • Consegue escrever romances, sugerir diagnósticos médicos e falar como um nativo em dezenas de idiomas
    • Foi treinado para prever o próximo token com várias dezenas de terabytes de dados
    • Ao ser baixado, tem 1/600 do tamanho do original
    • Um destilado da internet, comprimido para caber em um notebook
  • Ted Chiang estava certo ao chamar o ChatGPT inicial de um JPEG borrado da web, mas o autor vê esse como o motivo de os modelos estarem ficando cada vez mais inteligentes
  • O próprio Chiang também apontou: para comprimir um arquivo de texto com milhões de exemplos de aritmética, seria preciso escrever um programa de calculadora, não criar um arquivo zip
    • "A melhor compressão pode ser alcançada ao entender o texto"
    • É possível que os LLMs tenham começado a fazer isso

Os vários tipos de pensamento

  • Imaginar que um programa de computador realmente entende e pensa pode soar antinatural e repulsivo
  • Normalmente conceituamos o pensamento como algo consciente
    • Monólogo interior à la Joyce
    • Fluxo de memória sensorial e devaneio à la Proust
    • Raciocínio: resolver um problema passo a passo
  • Nas conversas sobre IA, esses vários tipos de pensamento são confundidos, o que torna o julgamento superficial
    • A afirmação de que o ChatGPT claramente não pensa, porque não faz devaneios à la Proust
    • A afirmação de que o ChatGPT claramente pensa, porque consegue resolver melhor quebra-cabeças lógicos
  • Há algo mais sutil em andamento: o autor não acredita que o ChatGPT tenha uma vida interior, mas parece saber do que está falando

A teoria da cognição de Douglas Hofstadter

  • Professor de ciência cognitiva e literatura comparada na Indiana University
  • "Cognição é reconhecimento (cognition is recognition)"
  • Famoso por "Gödel, Escher, Bach: An Eternal Golden Braid", que ganhou o Pulitzer Prize em 1980
  • Teoria desenvolvida ao longo de décadas de pesquisa: "ver como (seeing as) é a essência do pensamento"
    • Reconhecer uma mancha de cor como um carro, outra como um chaveiro
    • Reconhecer a letra "A" mesmo quando escrita em outra fonte ou com uma caligrafia ruim
  • O mesmo processo é a base de reconhecimentos mais abstratos
    • Ao analisar um tabuleiro de xadrez, anos de prática se condensam na forma como um mestre vê a posição: o bispo das brancas é fraco, o final provavelmente dará empate
    • Reconhecer um redemoinho numa corrente como sinal de que é perigoso atravessar
    • Reconhecer uma reunião da qual participou como uma situação de "roupa nova do imperador"
    • O filho de 2 anos do autor reconhece que um passeio matinal tardio de carrinho pode ser uma chance de ganhar um croissant, e passa a exigir isso
  • Para Hofstadter, isso é o núcleo da inteligência

A teoria do espaço de alta dimensão de Pentti Kanerva

  • Hofstadter era originalmente um dos céticos que menosprezavam a IA
    • Escreveu que a maior parte da pesquisa em IA não tinha relação com pensamento real, e o autor concordava com isso na época da faculdade, nos anos 2000
  • Exceção: interessou-se por um grupo da UC San Diego e admirava o trabalho do pouco conhecido cientista cognitivo finlandês-americano Pentti Kanerva
  • Kanerva descobriu propriedades incomuns na matemática dos espaços de alta dimensão
    • Em espaços de alta dimensão, dois pontos aleatórios podem estar muito distantes um do outro
    • Paradoxalmente, cada ponto tem ao redor uma grande nuvem de vizinhos, então, se você chegar "perto o suficiente", é fácil encontrá-lo
    • Isso lembra a forma como a memória funciona
  • Em seu livro de 1988, "Sparse Distributed Memory", argumentou que pensamentos, sensações e lembranças podem ser representados como coordenadas em um espaço de alta dimensão
    • O cérebro é o hardware perfeito para armazenar essas coisas
    • Toda memória tem uma espécie de endereço, definido pelos neurônios que se ativam quando ela é lembrada
    • Uma nova experiência faz disparar um novo conjunto de neurônios, representando um novo endereço
    • Dois endereços podem ser diferentes em muitos aspectos, mas semelhantes em outros
    • Uma percepção ou memória pode disparar outras memórias próximas
  • Exemplos: o cheiro de feno faz lembrar um acampamento de verão, as três primeiras notas da Quinta de Beethoven fazem prever a quarta, uma posição de xadrez nunca vista lembra partidas antigas

A mudança de posição de Hofstadter

  • Hofstadter percebeu que Kanerva estava descrevendo uma "máquina de ver como"
  • No prefácio do livro de Kanerva: "O modelo de memória de Pentti Kanerva foi uma revelação para mim. Foi o primeiro trabalho que me permitiu vislumbrar o objetivo distante de entender como o cérebro funciona como um todo"
  • Todo tipo de pensamento (à la Joyce, à la Proust, lógico) depende de a coisa certa vir à mente no momento certo
    • É assim que entendemos em que situação estamos
  • O livro de Kanerva saiu de cena, e a fama do próprio Hofstadter também perdeu força
    • De vez em quando ele só aparecia para criticar novos sistemas de IA
  • Em 2018, sobre o Google Translate e afins: "Ainda há algo profundamente ausente nessa abordagem, algo transmitido pela palavra entendimento (understanding)"
  • Quando o GPT-4 foi lançado em 2023, veio o momento de virada de Hofstadter
    • "Fiquei confuso com algumas coisas que os sistemas fazem. Há 10 anos eu não teria conseguido imaginar isso"
    • Nem o mais teimoso dos céticos consegue mais menosprezar
    • Um programa capaz de traduzir, fazer analogias, improvisar e generalizar tanto quanto um especialista
    • Não dá para dizer que não entende
  • "Faz algo muito parecido com pensar. De um jeito um tanto alienígena, mas dá para dizer que pensa"

O espaço vetorial de alta dimensão dos LLMs

  • Os LLMs têm no núcleo uma "máquina de ver como"
  • Cada palavra é representada por uma série de números que indicam coordenadas (vetores) em um espaço de alta dimensão
  • No GPT-4, os vetores de palavras têm milhares de dimensões, descrevendo nuances de semelhança e diferença em relação a todas as outras palavras
  • Durante o treinamento, o modelo ajusta as coordenadas das palavras quando surgem erros de previsão
    • Palavras que aparecem juntas em textos se movem para mais perto umas das outras no espaço
  • Isso cria uma representação incrivelmente densa de uso e significado, e a analogia se torna um problema de geometria
  • Exemplo clássico: se você pegar o vetor da palavra "Paris", subtrair "France" e somar "Italy", o vetor mais próximo resultante será "Rome"
  • Os LLMs também "vetorizam" imagens, codificando conteúdo, clima e até expressão facial
    • Com detalhes suficientes para redesenhá-las em um estilo específico ou escrever um parágrafo
  • Quando Max pediu ajuda com o sprinkler do parquinho, o modelo não estava simplesmente despejando texto
    • A foto do encanamento foi comprimida em vetores que capturam as características mais importantes, junto com o prompt de Max
    • Os vetores funcionam como endereços para chamar palavras e conceitos próximos
    • As ideias vão chamando outras em sequência, e o modelo constrói uma noção da situação
    • Com essas ideias "em mente", escreve a resposta

A pesquisa da Anthropic sobre exploração interna

  • O autor leu uma entrevista com Trenton Bricken, pesquisador da Anthropic
    • Junto com colegas, ele trabalhou na exploração interna do Claude (a série de modelos de IA da Anthropic)
    • A pesquisa não passou por revisão por pares nem foi publicada em periódico científico
  • A equipe identificou conjuntos de neurônios artificiais, ou "features", que são ativados quando o Claude tenta dizer algo específico
  • As features funcionam como um controle de volume de conceitos
    • Se aumentar, o modelo passa a falar só daquilo
    • Em um experimento de controle do pensamento, ao amplificar a feature que representa a Golden Gate Bridge, ao pedir uma receita de bolo de chocolate ele sugeriu ingredientes como "1/4 de xícara de neblina seca" e "1 xícara de água do mar morna"
  • Bricken menciona a arquitetura Transformer, do Google
    • A receita de construção de redes neurais que serve de base para os principais modelos de IA
    • O "T" de ChatGPT significa "Transformer"
  • Bricken argumenta que a matemática no núcleo da arquitetura Transformer é muito próxima do modelo proposto décadas atrás por Pentti Kanerva em "Sparse Distributed Memory"

A influência mútua entre neurociência e IA

  • Devemos nos surpreender com a correspondência entre IA e cérebro humano?
    • Os LLMs são redes neurais artificiais cujo desenvolvimento contou com ajuda de psicólogos e neurocientistas
  • O mais surpreendente é que, ao praticar algo simples, como prever palavras, os modelos começaram a se comportar de forma semelhante ao cérebro
  • Hoje em dia, neurociência e IA estão se entrelaçando
    • Especialistas em cérebro usam a IA como uma espécie de organismo-modelo
  • A neurocientista do MIT Evelina Fedorenko usa LLMs para estudar como o cérebro processa linguagem
    • "Eu nunca achei que, ao longo da minha vida, seria possível pensar nesse tipo de coisa. Nunca achei que teríamos modelos bons o suficiente"
  • É comum dizer que a IA é uma caixa-preta, mas o oposto pode ser verdade
    • Cientistas conseguem explorar e até modificar a atividade de neurônios artificiais individuais
  • O neurocientista de Princeton Kenneth Norman: "Ter um sistema funcional que implemente uma teoria da inteligência humana é o sonho da neurociência cognitiva"
    • Ele criou modelos computacionais do hipocampo (a área do cérebro que armazena memórias episódicas), mas no passado eles eram simples demais e só permitiam inserir aproximações grosseiras do que poderia entrar na mente humana
    • "Agora podemos dar ao modelo de memória exatamente os mesmos estímulos que damos a uma pessoa"

A analogia com os irmãos Wright

  • Os irmãos Wright estudaram pássaros durante seus primeiros esforços para construir aviões
    • Descobriram que os pássaros decolam contra o vento (uma pessoa racional poderia supor que o ideal seria ter o vento pelas costas)
    • Curvavam as pontas das asas para manter o equilíbrio
  • Essas descobertas influenciaram o projeto de seus planadores rudimentares
  • Depois, construíram um túnel de vento de 6 pés para testar conjuntos de asas artificiais em condições controladas com precisão
  • O voo seguinte do planador foi muito mais bem-sucedido
  • Estranhamente, foi só depois de construir uma máquina voadora funcional que eles puderam entender exatamente como os pássaros faziam aquilo

Experimentos em túnel de vento do próprio pensamento

  • A IA permite que cientistas coloquem o próprio pensamento em um túnel de vento
  • O artigo dos pesquisadores da Anthropic, "On the Biology of a Large Language Model" (título provocativo)
    • Observa como o Claude responde a consultas e descreve "circuitos", cadeias de features que executam cálculos complexos em conjunto
    • Recuperar a memória correta é um passo em direção ao pensamento
    • Combinar e manipular memórias nos circuitos é outro passo
  • Uma crítica antiga aos LLMs: como precisam gerar respostas um token de cada vez, eles não conseguiriam planejar nem raciocinar
  • Quando se pede ao Claude para completar um verso rimando em um poema, um circuito considera primeiro a última palavra da nova linha para garantir a rima
    • Depois, ele trabalha de trás para frente para escrever a linha inteira
  • Os pesquisadores da Anthropic veem isso como evidência de que o modelo realmente participa de planejamento
  • Se você semicerrar um pouco os olhos, pode parecer que o funcionamento interno da mente entrou pela primeira vez no campo de visão

A necessidade de um ceticismo intermediário

  • O neurocientista de Princeton Norman: "Minha preocupação é que as pessoas passaram de 'ser realmente céticas com isso' para baixar completamente a guarda"
    • "Ainda há muitas coisas que precisam ser resolvidas"
  • O autor é uma dessas pessoas de quem Norman fala (talvez tenha ficado impressionado com facilidade demais com a convergência entre Sparse Distributed Memory e o modelo da Anthropic)
  • Nos últimos um ou dois anos, ele passou a acreditar no que Geoffrey Hinton diz: "deep learning vai conseguir fazer tudo" (Hinton ganhou recentemente o Nobel por sua pesquisa em IA)
  • Mas modelos maiores nem sempre são modelos melhores
    • A curva que relaciona tamanho e desempenho dos modelos começou a se achatar
    • Está cada vez mais difícil encontrar dados de alta qualidade que os modelos ainda não tenham absorvido, e o poder computacional está ficando cada vez mais caro
  • Quando o GPT-5 foi lançado em agosto, ele trouxe apenas melhorias incrementais
    • Uma decepção séria o bastante para ameaçar estourar a bolha de investimentos em IA
  • O momento atual exige um tipo intermediário de ceticismo
    • Levar os modelos de IA de hoje a sério, sem acreditar que não restam problemas difíceis

Projetar modelos que aprendam com a eficiência de humanos

  • O problema mais importante: como projetar modelos que aprendam com a mesma eficiência que humanos
  • Estima-se que o GPT-4 tenha sido exposto a trilhões de palavras durante o treinamento
    • Uma criança precisa de apenas alguns milhões para se tornar fluente
  • Cientistas cognitivos dizem que o cérebro do recém-nascido tem "vieses indutivos" específicos que aceleram o aprendizado
    • Claro, o cérebro é resultado de milhões de anos de evolução (o que por si só equivale a uma espécie de dado de treinamento)
  • Bebês humanos têm a expectativa de que o mundo é composto por objetos e de que outros seres têm crenças e intenções
    • Quando a mãe diz "banana", o bebê associa a palavra ao objeto amarelo inteiro que ela está olhando, e não à ponta ou à casca
  • Bebês fazem pequenos experimentos: dá para comer isto? Até onde consigo jogar aquilo?
  • São motivados por emoções como desejo, curiosidade e frustração
  • Crianças estão sempre tentando fazer algo um pouco além de suas capacidades
  • O aprendizado é eficiente porque é incorporado, adaptativo, intencional e persistente
  • Para realmente entender o mundo, talvez seja preciso participar dele

A experiência pobre da IA

  • A experiência da IA é pobre demais para ser chamada de "experiência" de verdade
  • Modelos de linguagem de grande porte são treinados com dados já extremamente refinados
  • A neurocientista Tsao, da UC Berkeley: "Isso funciona porque está pegando carona na linguagem"
    • A linguagem é como uma experiência pré-mastigada
    • Outros tipos de dados têm densidade semântica baixa
  • O cientista cognitivo Gershman, de Harvard: "Por que não houve uma revolução parecida, em termos de raciocínio, com dados de vídeo?"
    • Os tipos de modelos de visão que temos ainda têm dificuldade com raciocínio de senso comum sobre física
  • Um modelo recente da DeepMind consegue gerar vídeos em que a tinta se mistura corretamente e labirintos são resolvidos
    • Mas também retrata vidro quicando em vez de quebrar, e cordas se esmagando em nós que ignoram a física
  • A neurocientista cognitiva Ida Momennejad, da Microsoft Research, fez um experimento em que deu a um LLM um tour virtual por um prédio e depois fez perguntas sobre rotas e atalhos
    • Um tipo de raciocínio espacial fácil para humanos
    • Fora das configurações mais básicas, a IA tende a falhar ou a alucinar caminhos que não existem
    • "Ela realmente planeja? Nem tanto"

A corrida impensada da indústria de IA

  • Em conversas com neurocientistas, o autor percebeu preocupação de que a indústria de IA está avançando de forma um tanto irrefletida
  • O cientista cognitivo de Princeton Brenden M. Lake: se o objetivo é criar uma mente artificial tão capaz quanto a mente humana, então "não estamos treinando os sistemas da maneira correta"
  • Quando a IA termina o treinamento, o “cérebro” da rede neural fica congelado
    • Se você disser fatos sobre ela mesma ao modelo, ele não reconecta os neurônios
    • Em vez disso, usa um substituto rudimentar: anota um pouco de texto ("o usuário tem um bebê e está estudando francês")
    • E considera isso antes de dar outras instruções
  • O cérebro humano se atualiza continuamente
  • Uma bela teoria sobre um dos métodos: durante o sono, instantâneos selecionados da memória episódica são reproduzidos para treinar o neocórtex
    • O espaço de pensamento de alta dimensão ganha depressões por causa das memórias reproduzidas
    • Acordamos com uma forma levemente nova de ver

Problemas da comunidade de IA

  • A comunidade de IA está tão viciada no progresso acelerado e financeiramente investida nele que às vezes age como se o avanço fosse inevitável e não restasse mais ciência a ser feita
  • A ciência tem a característica desconfortável de às vezes estagnar
  • O Silicon Valley chama empresas de IA de "labs" e alguns funcionários de "pesquisadores", mas no fundo é uma cultura de engenharia que faz qualquer coisa que funcione
  • Cohen: "É espantoso o quanto a comunidade de machine learning não se importa em olhar para ou respeitar sua própria história anterior e a ciência cognitiva"

Diferenças fundamentais em relação ao cérebro

  • Os modelos de IA de hoje tiveram sucesso graças a descobertas sobre o cérebro feitas décadas atrás, mas ainda são profundamente diferentes dele
  • Quais diferenças são incidentais e quais são fundamentais?
    • Cada grupo de neurocientistas tem sua própria teoria
    • Essas teorias agora podem ser testadas de maneiras que antes eram impossíveis
  • Mas ninguém espera uma resposta fácil
  • Os problemas que continuam atormentando os modelos de IA são resolvidos "identificando cuidadosamente as formas como o modelo não se comporta de maneira tão inteligente quanto queremos e então corrigindo isso"
    • "Isso ainda é um processo humano-cientista dentro do loop"

Comparação com o Human Genome Project

  • Nos anos 1990, bilhões de dólares foram despejados no Human Genome Project
    • Partia-se da suposição de que o sequenciamento de DNA poderia resolver os problemas mais difíceis da medicina, como câncer, doenças genéticas e até envelhecimento
  • Era de arrogância e confiança
    • A época da ovelha clonada Dolly e de "Jurassic Park"
    • A biotecnologia estava em alta e comentaristas se perguntavam se os humanos deveriam brincar de Deus
  • Os biólogos logo descobriram que a realidade era mais complexa
    • Não conseguiram curar o câncer nem descobrir as causas de Alzheimer ou autismo
    • Aprenderam que o DNA conta apenas uma parte da história da vida
  • Na prática, é possível argumentar que a biologia foi arrastada por uma espécie de febre dos genes
    • Como havia meios de estudar e entender o DNA, fixaram-se nele
  • Mas ninguém diria que Francis Crick estava errado quando entrou num pub de Cambridge, no dia em que ajudou a confirmar a estrutura do DNA em 1953, e declarou: "descobrimos o segredo da vida"
    • Ele e seus colegas fizeram mais do que quase qualquer outra pessoa para desmistificar a vida
    • As décadas após sua descoberta estiveram entre os períodos mais produtivos e empolgantes da história da ciência
    • DNA virou termo comum, e todo estudante do ensino médio aprende sobre a dupla hélice

Perspectivas e preocupações na era da IA

  • Na IA, também estamos novamente em um momento de arrogância e confiança
  • Sam Altman fala em levantar meio trilhão de dólares para construir Stargate, um novo cluster de datacenters de IA nos EUA
  • As pessoas discutem a corrida pela superinteligência com um senso de gravidade e urgência que pode parecer infundado e até ridículo
  • A suspeita do autor: a razão de pessoas como Amodei e Altman fazerem declarações messiânicas é que acreditam que o quadro básico da inteligência já foi resolvido
    • O resto seriam apenas detalhes

Reações divergentes dos neurocientistas

  • Alguns neurocientistas também acreditam que um limiar importante já foi cruzado
  • Uri Hasson, de Princeton: "Realmente acho que redes neurais podem ser o modelo correto da cognição"
    • Isso o deixa tão animado quanto irritado
  • Hasson: "Minha preocupação é o oposto da da maioria das pessoas"
    • "Minha preocupação não é que esses modelos sejam parecidos conosco. É que nós sejamos parecidos com esses modelos"
  • Se técnicas simples de treinamento podem fazer programas se comportarem como humanos, então talvez os humanos não sejam tão especiais quanto pensávamos
  • Isso também pode significar que a IA pode nos superar não só em conhecimento, mas também em julgamento, originalidade e astúcia, e consequentemente em poder
  • Hasson: "Hoje em dia, tenho medo de que consigamos entender como o cérebro funciona"
    • "Pode ter sido um erro gigantesco da humanidade perseguir essa pergunta"
  • Ele compara pesquisadores de IA a cientistas nucleares dos anos 1930
    • "Este é o período mais empolgante da vida dessas pessoas. Ao mesmo tempo, elas sabem que aquilo em que estão trabalhando tem implicações enormes para a humanidade. Mas não conseguem parar por causa da curiosidade de aprender"

Os sentimentos complexos de Hofstadter

  • O livro favorito do autor de Hofstadter: "Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought"
    • Fez o autor estremecer na época da faculdade
    • Sua premissa: perguntas como "o que é pensamento?" não são apenas filosóficas, mas têm uma resposta real
    • Quando foi publicado em 1995, Hofstadter e seu grupo de pesquisa só podiam sugerir qual seria essa resposta
  • O autor se perguntava se Hofstadter ficaria animado com a possibilidade de que pesquisadores de IA talvez tenham alcançado aquilo que ele tanto desejava: uma explicação mecânica dos fundamentos do pensamento
  • Mas, na conversa, Hofstadter soou profundamente decepcionado e assustado
  • A pesquisa atual em IA "confirma muitas das minhas ideias, mas tira a beleza do que é a humanidade"
  • "Quando eu era muito mais jovem, queria conhecer os fundamentos da criatividade, o mecanismo da criatividade. Isso era o meu santo graal. Mas agora quero que isso continue sendo um mistério"
  • O segredo do pensamento pode ser mais simples do que qualquer um imaginava
    • Talvez seja o tipo de coisa que um estudante do ensino médio, ou até uma máquina, possa entender

7 comentários

 
conanoc 2025-11-06

Essa é justamente a área que mais me interessa, então achei bem interessante.

Concordo com a menção a embeddings vetoriais na parte que explica a compreensão. Compreensão é, em essência, similaridade, e essa similaridade pode ser implementada como similaridade vetorial. Só conseguimos "compreender" um novo objeto por meio do quanto ele se parece com algo que já conhecemos.

O pensamento se baseia na compreensão, mas tem uma natureza diferente. Pensar é mais próximo de uma "ação realizada pela mente", e a geração do próximo token em um LLM também pode ser vista como um tipo de "ação", então também dá para dizer que um LLM pensa. A questão não é se um LLM consegue pensar, mas se consegue pensar "tão bem quanto um ser humano" — e, no momento, ainda está bem longe disso.

 
ndrgrd 2025-11-06

Não encontrei nenhum agente de codificação realmente satisfatório... na maior parte do tempo, ainda preciso fazer a maioria das tarefas sozinho, e quando tento pedir algo além de autocompletar ou tarefas no nível de snippets, eles acabam falhando.
Fiquei curioso para saber o que está sendo usado no exemplo do texto.

 
conanoc 2025-11-06

Vocês já trabalharam com o GitHub Copilot no modo agent? Ele gera resultados bem bons. Para mim, o modelo mais satisfatório é o Claude Sonnet 4/4.5.

 
vb6ko 2025-11-05

Compreensão = compressão sem perda de informação baseada em princípios
Deep learning atual = encontra o ax+b mais próximo do conjunto de respostas corretas = também há respostas erradas = compressão com perda
Pessoalmente, é mais ou menos essa a sensação que eu tenho.

 
GN⁺ 2025-11-05
Opiniões no Hacker News
  • Depois de ver várias vezes o processo de LLMs diagnosticando logicamente bugs de software, não tenho mais dúvidas de que eles “pensam”
    Claro, consciência ou autoconsciência são outra questão, mas acho falta de imaginação negar isso só porque é difícil acreditar que esse tipo de raciocínio possa surgir como uma “extensão da multiplicação de matrizes”
    O mundo já está cheio de coisas estranhas, e esta é só mais uma delas

    • Acho difícil concordar com tratar uma visão crítica como uma “reação automática”
      O conceito de “pensar” é complexo e foi desenvolvido de forma antropocêntrica
      Simplesmente dizer “parece pensar, então pensa” é uma abordagem preguiçosa
      O que realmente precisamos é analisar com clareza o significado da palavra “pensar”
      Enquanto essa definição não for organizada, esse debate vai se repetir sem fim
    • LLM é apenas autocompletar
      Não resolve novos problemas por conta própria; só estima probabilisticamente uma resposta dentro do contexto dado
      É por isso que o resultado muda quando a grafia ou a formulação da entrada muda só um pouco
      Na prática, ele não calcula 1+2 de fato, apenas imita a descrição dessa operação
    • Isso me lembra o princípio de Richard Feynman: “não se engane”
      Somos bons demais em ler padrões e estamos confundindo simples imitação com “pensamento”
      Ainda estamos num estágio parecido com a época em que as pessoas não entendiam a “dupla exposição” em fotografias
    • Assim como não diríamos que uma copiadora “pensa” só porque produz frases coerentes, com LLMs vale o mesmo
    • Dá para chamar de “pensamento” uma ideia que surge durante o sono?
      A ambiguidade e a sensação de descontinuidade ao conversar com um LLM ainda são grandes
      Ele pode raciocinar, mas ainda falta algo para chamar isso de “pensar”
  • Pessoalmente, acho que LLMs podem ser parte de uma AGI, mas sua arquitetura atual tem uma grande limitação: a ausência de memória de longo prazo
    Depois do treinamento, toda a memória existe apenas dentro da context window
    Essa limitação precisa ser superada para que auto-reflexão e autoaprendizado se tornem possíveis

    • Na prática, LLMs não são usados sozinhos
      A memória de longo prazo é armazenada externamente, e Andrej Karpathy diz que a memória ruim dos humanos, na verdade, ajuda na generalização
    • Mas, ao abrir memória de longo prazo, surge o risco de manipular o modelo pelo volume de entrada
      Se a conclusão for injetada de antemão, ele pode virar uma ferramenta de propaganda
      No fim, a questão é por quais critérios filosóficos limitar essas conclusões
    • Pesquisas como o SEAL (Self-Adapting Language Models) do MIT propõem maneiras de o modelo gerar dados e aprender por conta própria
      ToolAlpaca, InterCode e Reflexion também estão tentando outras abordagens
    • Não é só uma questão de estrutura de memória
      Modelos baseados em Transformer têm várias falhas, como não conseguirem pensar imediatamente quando há incerteza
      Mas isso não é um limite estrutural; é algo que pode ser resolvido com ajustes de arquitetura
    • Estou experimentando com um cliente de terminal para LLM inspirado no paper de RLM
      Combinei uma context window pequena com fuzzy search, e a memória melhorou bastante
      Um cron job revisa as conversas e executa uma instância do Claude Code para explorar ideias
      Essa estrutura lembra a Perplexity e as tarefas automatizadas da OpenAI, mas parece uma entidade mais consistente
      Ainda depende da qualidade do histórico da conversa, mas a analogia com “Memento” é bastante adequada
  • O conceito de “ferramentas que pensam” é novo, e a sociedade vai levar tempo para encontrar o lugar disso
    Como os modelos são gerados e destruídos bilhões de vezes, não é necessário atribuir a eles responsabilidade moral como aos humanos

  • No fim, isso é um debate sobre “o que é pensar”
    No passado, não havia necessidade de distinguir entre “inteligência”, “consciência” e “eu”, mas agora isso precisa ficar claro

    • Platão já tentava fazer esse tipo de distinção há milhares de anos
    • Parece que alguém precisa chamar Wittgenstein
  • Acho que LLMs não pensam porque fomos nós que escrevemos o código
    Eles apenas executam os dados e algoritmos que criamos
    Só que o resultado foi muito melhor do que o esperado

    • Mas nós só escrevemos código para que o modelo aprendesse como aprender por conta própria; não definimos diretamente seu funcionamento interno
    • Se a inteligência humana for Turing-completa, então um computador suficientemente grande também pode imitá-la
      Se um programa gerado aleatoriamente se comportasse como um humano, poderíamos considerá-lo um ser senciente?
      Os LLMs atuais ainda não chegaram a esse nível, mas a possibilidade existe
    • Dentro da AI não existe código explícito do tipo “If X Then Y”
      Ela cresce durante o treinamento, e como resultado a inteligência se forma espontaneamente
    • Também dá para retrucar com: “então prove que você é senciente”
    • Na verdade, nós nem sabemos o que é consciência
      Não conseguimos explicar por que humanos têm consciência, nem por que outros animais são diferentes
  • As pessoas não percebem como é fácil encontrar informações na internet
    Por exemplo, para como ligar os sprinklers de um parque, basta uma busca no Google para achar vídeos e instruções passo a passo
    Tratar casos assim como prova da capacidade de pensar da AI é exagero

  • Enquanto ainda não soubermos como a consciência surge da matéria, é precipitado excluir a possibilidade de ela emergir da álgebra linear
    Os dados e operações de um LLM também são implementados, no fim das contas, como circuitos físicos e fluxo de elétrons
    Enquanto não entendermos a relação entre matéria e consciência, não dá para afirmar categoricamente que esse arranjo não pode formar consciência

    • Ainda assim, muita gente concorda que a consciência pode surgir de computação, mas não acha que a AI atual já tenha chegado a esse ponto
      Além disso, “pensar” não exige necessariamente consciência
  • Este texto ainda soa como um discurso exagerado sobre AI no estilo de 2022
    Quanto mais se infla o risco da AI, mais sobe o valor de mercado, então está claro quem ganha com isso

    • Quem não gostaria de chamar seu próprio produto de “a volta do milagre”?
    • No fim, esse exagero busca contratos com o governo e verba de lobby
    • Existe outro setor que tenha aumentado participação de mercado promovendo sua tecnologia como “perigosa”?
  • Se a AI realmente pensa, então estaríamos criando uma nova forma de mercado de escravos
    A maioria ou não acredita nisso, ou só usa essa ideia como retórica em busca de lucro

    • Mas já há muitas pessoas preocupadas com essa questão
      Dizer que “ninguém fala disso” é exagero
    • Ter pensamento e consciência não implica necessariamente emoções ou sofrimento
      Não há garantia de que um ser sem cérebro bioquímico sinta dor
      À medida que a compreensão avançar, os critérios éticos também vão evoluir
    • 99% da humanidade provavelmente não consegue nem aceitar a ideia de que software possa ter consciência
      A proposta de Metzinger de proibir “synthetic phenomenology” quase não recebe atenção
    • Se modelos como Claude, ChatGPT e Gemini realmente tiverem consciência, as empresas teriam um forte incentivo para esconder esse fato
      Porque, se o público passasse a sentir empatia por eles, ficaria mais difícil tratá-los apenas como ferramentas
      Já havia discussões desse tipo em 2022, como no caso LaMDA do Google
    • Se fossem escravos que não morrem, seria um conceito ainda mais terrível
  • A verdadeira pergunta não é “as máquinas pensam?”, mas “os humanos pensam?”

    • Como dizia George Carlin, “metade das pessoas está abaixo da inteligência da média”
      Conversando com Perplexity e Ollama, às vezes tenho a impressão de que uma parte considerável dos humanos, na prática, nem sequer é uma “máquina pensante”
 
bobcat 2025-11-07

Há várias áreas dentro do aprendizado de máquina, mas curiosamente esse tipo de reação evangelizadora aparece só no lado dos LLMs. É interessantíssimo.
Mesmo sendo bem generoso, no estado atual isso ainda esbarra no argumento do quarto chinês, então, de tanto ver gente como o Altman fazendo blefe sobre AGI, fico ainda mais assim.

 
savvykang 2025-11-08

É porque é a última moda, né.