A criatividade e a descoberta em IA segundo Rich Sutton

(twitter.com/RichardSSutton)

5 pontos por GN⁺ 2026-06-11 | 1 comentários | Compartilhar no WhatsApp

A IA generativa treinada por aprendizado supervisionado é um modelo de imitação que se comporta de forma semelhante aos exemplos, e, embora útil, tem limites para novas descobertas em ciência e matemática
Em respostas da internet ou resumos de documentos, a novidade acaba sendo alucinação, e boas respostas vêm da qualidade do material de origem
Mesmo em casos que exigem novidade, como geração de romances e imagens, é difícil saber o quão perto a saída está dos materiais de treinamento, e a aleatoriedade cria novidade, mas sem avaliação isso não se torna uma boa descoberta
Sistemas como AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code e RL-Lyft encontram resultados novos e bons por meio de avaliação e retenção seletiva
Se quisermos um cientista de IA completo, precisamos compartilhar objetivos explícitos para que a IA possa criar, avaliar e descobrir, sendo necessária a automação da criatividade e da descoberta

Limites e utilidade da IA generativa

A IA generativa é um modelo de imitação que recebe grandes quantidades de exemplos para produzir texto como humanos, imagens como artistas ou a natureza, ou vídeos como os da internet
A IA generativa pode ser muito útil, mas a velha piada de que “as partes boas não são novas, e as partes novas não são boas” se aplica em grande medida
Ao buscar respostas na internet ou resumir documentos, a IA não precisa ser nova, e a qualidade da resposta vem do material de origem, como autores dos documentos ou textos da internet
Se a resposta da IA acrescenta algo além do material de origem, isso é alucinação, e na maioria dos casos os usuários não querem que a IA invente coisas

Novidade, aleatoriedade e o problema da avaliação

Quando o usuário quer ficção e entretenimento, e não fatos ou realidade, a novidade é excepcionalmente necessária
É possível pedir à IA generativa uma história de ninar para uma criança ou uma imagem diferente das imagens já existentes na internet, mas ainda baseada nelas
Como a internet é grande demais e há fontes possíveis demais, é difícil saber na prática o quão criativas realmente são as histórias, poesias e imagens da IA
Parte do processamento da IA generativa é probabilístico, então cada decisão pode seguir vários caminhos e gerar uma trajetória diferente a cada vez
Se a trajetória se baseia em aleatoriedade, ela é nova; se se baseia nos dados de treinamento, pode ser boa por causa da qualidade dos dados, mas não consegue ser ao mesmo tempo nova e boa

A descoberta necessária para ciência e matemática

Mesmo que a IA generativa não consiga ser ao mesmo tempo boa e nova, isso não é um problema fatal na maioria dos usos, e pode se tornar uma tecnologia transformadora se for rápida, barata, pequena, personalizável e replicável
Em ciência e matemática, uma IA de mera imitação não basta; é necessária criatividade real e descoberta
A jogada 37 do AlphaGo, o estilo original de xadrez do AlphaZero e o desempenho em corrida simulada do GT-Sophy são exemplos de descoberta de algo novo e bom
AlphaFold, AlphaProof e Claude-Code são apresentados como casos de avanço real em ciência, matemática e programação
RL-Lyft é um sistema que otimiza a forma de atribuir veículos a passageiros em um negócio de transporte por aplicativo
Alguns modelos de linguagem foram reforçados de maneiras que vão além da IA generativa baseada em aprendizado supervisionado

As três etapas da descoberta

Descoberta é o processo de tentar várias coisas, ver o que funciona e preservar aquilo que funcionou melhor
A evolução por seleção natural, o método científico, a vida cotidiana e o aprendizado todos avançam tentando coisas e lembrando do que funcionou
Na psicologia, isso é chamado de aprendizado instrumental ou condicionamento operante; em aprendizado de máquina, chama-se aprendizado por reforço
Mesmo em planejamento e busca combinatória, a ideia de descoberta como “gerar e testar” funciona
O cerne da descoberta é combinar três etapas: variação, avaliação e retenção seletiva
Só com aprendizado supervisionado não há como avaliar as criações em tempo de execução; sem avaliação, não há retenção seletiva e, portanto, não há descoberta
A novidade pode surgir por um instante, mas se seu valor não for reconhecido, ela desaparece e se perde

Avaliação, objetivos e autonomia

Quando uma pessoa gera várias imagens com IA e escolhe a que mais gosta, o sistema humano+IA completa a descoberta
Quando há um objetivo claro, a avaliação também é possível: alguns lances levam ao xeque-mate, alguns passos levam a uma prova, algumas ações levam a recompensas altas
Alguns genótipos produzem mais replicações, e algumas teorias explicam melhor os dados
A variação não precisa ser totalmente aleatória, e um bom cientista não escolhe teorias para testar ao acaso
Se onde está a resposta já estiver totalmente determinado, isso não é descoberta; a descoberta exige incerteza
As atualizações de pesos por retropropagação são determinísticas, mas os pesos são inicializados com pequenos valores aleatórios, portanto há variação
A inicialização aleatória é uma forma necessária de variação que precisa ser feita corretamente para obter bom desempenho
Na retropropagação, a variação acontece apenas uma vez, na inicialização da rede, então seu efeito é temporário e depois a rede pode perder a capacidade de aprender
A “continual backpropagation” reinicializa ocasionalmente neurônios menos usados com pequenos pesos aleatórios, para que a variação continue e a plasticidade seja mantida
A descoberta precisa de avaliação vinda de pessoas ou de objetivos explícitos, e a autonomia completa é possível quando objetivos explícitos fornecem a avaliação
Se quisermos toda a capacidade de um cientista de IA, precisamos compartilhar objetivos para que a IA crie, avalie e descubra, participando da realização desses objetivos

1 comentários

GN⁺ 2026-06-11

Comentários do Hacker News

As aplicações mais bem-sucedidas, como programação, parecem vir não do resultado de um LLM/modelagem generativa puro, mas de fechar o loop com um arnês agentivo
O loop de gerar-testar-refinar seletivamente é o padrão central do trabalho científico, e LLM + aprendizado por reforço com recompensa verificável + feedback de execução de compilador/terminal imita esse processo bastante bem
Isso está mais próximo de um loop de feedback de Fisher/Box implementado sobre sistemas computacionais modernos (https://www-sop.inria.fr/members/Ian.Jermyn/philosophy/writi...), e o LLM é apenas um componente
Eu queria que Sutton tivesse falado do quadro completo atual; foi uma pena ele tratar só de LLM/retropropagação. Fico realmente curioso se esses loops podem automatizar ao menos parcialmente a descoberta
Há mais elementos na descoberta, e ainda não está claro de onde vêm os modelos/hipóteses iniciais ou como as atualizações são escolhidas. Vi recentemente que o livro Patterns of Discovery, de Hanson, aborda essa direção, mas ainda não li e fico curioso se há pistas mecanicistas ali
- A questão de onde vêm os modelos/hipóteses iniciais e como as atualizações são escolhidas também é um problema em aprendizado por reforço, então em geral primeiro se ensina o modelo a imitar algumas trajetórias por meio de aprendizado supervisionado, e depois se refina com aprendizado por reforço
  Só com aprendizado por reforço é difícil alcançar a recompensa, então há um grande problema em aprender a tarefa por reforço puro. Humanos também resolvem problemas de descoberta combinando o sinal de supervisão aprendido em livros com a exploração na resolução de problemas, e alguém sem nenhuma educação inicial em matemática dificilmente produzirá grandes resultados, por mais inteligente que seja. O bootstrap foi exploração cujo custo já havia sido pago no passado
- Concordo totalmente com a importância do arnês
  Ainda assim, vejo um problema parecido com o que algoritmos evolutivos enfrentaram. Você pode gerar soluções candidatas até o dinheiro acabar, mas ainda precisa avaliar essas soluções. É preciso uma função de aptidão, e isso significa que você precisa conhecer ao menos a forma aproximada da solução. Se alguém souber de trabalhos sobre funções de aptidão mais abertas, eu gostaria de ler
- Pesquisadores críticos aos LLMs costumam apontar as propriedades matemáticas/estruturais fundamentais dos LLMs como problema, mas parecem ignorar a engenharia em andamento ao redor do modelo para torná-lo útil
  Pode ser que, por causa dessas limitações matemáticas, LLMs não sejam o caminho para AGI de verdade, mas neste momento isso sinceramente não parece tão importante
- O ponto mais importante é que o loop de reforço é usado durante o treinamento. Eu não concordo com a hipótese original de Sutton, mas depois do aprendizado por reforço essa hipótese fica mais fraca
Gosto muito desse enquadramento do tipo: “coisas novas geradas precisam ser avaliadas para que haja criatividade. Sem avaliação e preservação dos melhores resultados, nada é criado. A novidade aparece por um instante, mas se seu valor não for reconhecido, ela desaparece e se perde”
Muitas pessoas nos comentários do Twitter, e provavelmente algumas aqui também, parecem não ter lido além da introdução. Ele não está dizendo que sistemas de IA não podem ter criatividade e descoberta, e sim que IA generativa sem arnês não pode ter criatividade e descoberta
Isso significa que é necessário outro sistema para reconhecer e lembrar o valor de novas ideias. Ele também apresenta exemplos em que essa etapa de reconhecimento de valor é automatizada, alcançando criatividade e descoberta em sistemas totalmente automáticos por sua própria definição
- Concordo em geral, mas fazer esse tipo de argumento sobre uma definição estreita de IA generativa que não corresponde à forma como ela é usada na prática vira um espantalho
Se não perdi algo, esse argumento parece se aplicar apenas à era original de pré-treinamento (por exemplo, GPT 1~4). O paradigma de pós-treinamento e aprendizado por reforço claramente não faz variação, avaliação e preservação seletiva?
- O texto original parece ignorar etapas de pós-treinamento como RLVR, aprendizado por reforço com recompensa verificável. Claro, não pretendo afirmar que Rich Sutton não saiba disso. O RLVR de fato tem uma forma de avaliação muito estreita
  Fico curioso se isso é um sinal de que a Keen Tech está se inclinando para a abordagem Ineffable Intelligence, de David Silver
- RLVR ainda não consegue ir além da distribuição de base, apenas encontra a moda dentro dela
  Ou seja, há avaliação e preservação, mas não há mutação nem “planejamento”
  Isso não quer dizer que LLMs não possam ser usados. O AlphaEvolve faz exatamente isso. Só que usa um planejador evolutivo simples externo. O ponto maior que ele quer fazer é que nosso planejador ainda é “burro”, e deveríamos investir mais nisso
  Quando o usuário conduz iterativamente um LLM no Claude Code, ele acaba atuando como esse planejador externo, e isso também funciona bem
A formulação do problema parece estranha ao comparar os problemas enfrentados pelo AlphaGo e por esses modelos de IA generativa
O AlphaGo foi submetido a uma avaliação rigorosa dada de fora, não criada por ele mesmo
Modelos de IA generativa também podem ter sucesso em várias áreas quando recebem uma avaliação rigorosa externa. É especialmente surpreendente que consigam ter sucesso em áreas diversas, de tarefas simples de programação até matemática de ponta de lança (recentemente apresentando contraexemplos para conjecturas), além de escrever código de kernel mais otimizado
Em áreas em que a solução é extremamente complexa, mas a avaliação é relativamente menos complexa, também há muito aprendizado por reforço, e de fato ocorrem descoberta e seleção de trajetórias “semelhantes à evolução”
Por isso a comparação com o AlphaGo parece estranha. O AlphaGo recebeu, em um domínio estreito, uma avaliação rigorosa independente dele, dada por uma fonte externa chamada humanos. A IA generativa também pode mostrar resultados bastante impressionantes quando recebe esse tipo de avaliação
Mais estranho ainda é que, em muitos casos, inovação e progresso não exigem ideias genuinamente novas, mas surgem da execução em camadas, com alta qualidade, de métodos, táticas e ideias diferentes. Em muitos domínios, nosso conhecimento coletivo é extremamente esparso e complexo, então a capacidade de recombinar seletivamente ferramentas, modelos e ideias com alta qualidade é muito poderosa
Em um horizonte de busca finito (tempo, recursos), a diferença entre “boas escolhas” serem 1% ou 3% é um mundo completamente diferente
Mais importante, o ponto acima não é sobre inteligência, mas sobre a lavoura árida de soluções para problemas importantes e valiosos que temos. A maior parte do debate sobre AGI e inteligência parece ignorar esse fato simples. Como na analogia comum de que o fato de aviões não voarem como pássaros ou submarinos não nadarem é irrelevante para a utilidade
Por fim, você realmente acha que esses sistemas não podem, em média, se sair melhor do que pessoas comuns nos problemas que elas enfrentam ao longo da vida? Em uma realidade em que diplomas são concedidos com 60~70% em provas de problemas gerais de áreas como ciência ou medicina, como deveríamos definir a inteligência humana?
- Só quero apontar brevemente que aviões têm asas com aerofólio como os pássaros, e submarinos têm tanques de ar como a bexiga natatória dos peixes
  Também existem aves como o albatroz que voam quase sem bater as asas
Vejo uma parte considerável do deep learning como generalização composicional. Os modelos aprendem partes reutilizáveis — abstrações, estilos, procedimentos, restrições etc. — e as recombinam de maneiras que nunca apareceram como um todo nos dados de treinamento
Portanto, mesmo que os ingredientes venham de dados passados, a composição final pode ser nova em um sentido significativo
Não consigo acompanhar bem o ponto dele. a) Ele quer dizer que é necessário um novo algoritmo fundamental que integre diretamente objetivos, isto é, “preferências”, na fase de treinamento, ou b) quer dizer que o modelo treinado deve ser orientado para o objetivo durante a iteração?
Se for a), ele não propôs esse algoritmo, e eu nem saberia como quantificar objetivos abstratos nesse nível tão baixo. Ele propôs esse algoritmo e eu li errado? Se for b), isso já existe. AlphaEvolve ou os vários exemplos que ele mencionou são assim, e, falando de forma um pouco maldosa, basta inserir /goal e rodar
Além disso, considero categoricamente errada a afirmação de que LLMs não conseguem fazer coisas boas e novas. Se conseguirem, alguém pode dizer “isso não é novo, é apenas derivativo”, mas, por exemplo, se eu criar uma linguagem de programação com um LLM e ela funcionar bem para o meu objetivo, isso não é algo novo e bom? Quer dizer que, tirando FORTRAN, todas as outras linguagens não são novas?
Tudo é derivativo, e é possível colocar o LLM dentro do loop que avalia as coisas que o próprio LLM tentou. Ele não é uma pessoa obtusa a ponto de estar tão errado, então acho que estou entendendo algo errado
- Não, ele parece estar dizendo que já temos esse tipo de coisa e deveríamos usar mais
  O AlphaGo usa descoberta ao avaliar jogadas possíveis e iterar
  O Claude Code também usa descoberta ao gerar scripts e depois avaliar se funcionam
  O que ele quer dizer é que, em ciência e engenharia também, devemos fazer com que sistemas de IA realizem por conta própria avaliação e iteração, como fazem no código
  Basicamente, é engenharia de harness para engenharia
- O LLM tem um mapa, mas não consegue distinguir terra fértil e terra estéril. Por exemplo, como o novo modelo da Anthropic geraria um “fármaco” promissor? Porque, além do conhecimento embutido no modelo, ele absorveu o paradigma de inferência do AlphaFold. Só o Claude provavelmente não conseguiria projetar um método de análise de proteínas
- Em uma das apresentações dele no YouTube, acho que ele disse que estamos entrando na era dos “designers” do universo
  https://youtu.be/ThFq87Rp21s?si=SrKj72_X8bjnB6ED
  Por volta dos 35 minutos
Ao usar palavras como “criativo” para falar de IA, é preciso ser muito específico
A IA pode fazer arte? Pode criar algo sensorialmente agradável. Mas, no fim, arte é transmitir emoções e sentimentos humanos. Mesmo entre humanos, a compreensão da arte não é universal. “Emoções e sentimentos”; portanto, a arte pode estar profundamente ligada às crenças e experiências compartilhadas de um grupo específico
Ela pode ser criativa em áreas não subjetivas como matemática ou ciência? Einstein chegou à teoria da relatividade geral por meio de experimentos mentais criativos. Se uma IA, ao testar vários arcabouços matemáticos para resolver um problema revelado por experimentos, apresentasse as equações de campo da relatividade geral, isso seria criativo? Talvez pudesse ser, mas certamente não da mesma forma
- Dá para fazer arte com qualquer coisa, de gravetos e barro a vidro e ar. Então, claro, dá para fazer arte com IA
  Se a pergunta é se uma máquina pode fazer arte, no fim alguém precisou ligar essa máquina e projetá-la para fazer arte, então também dá para dizer que essa pessoa, ou essas pessoas, é que estão fazendo a arte
  Historicamente, a resposta para a pergunta “x é arte?” sempre acabou sendo “sim”. Não sei por que as pessoas continuam caindo na mesma armadilha
- A definição dele de criatividade é de circuito fechado. Ou seja, o conceito criado precisa ser novo não para um observador externo, mas para o próprio sistema
- Há um pequeno erro na frase “arte é, no fim, transmitir emoções e sentimentos humanos”. Arte é menos sobre transmitir as emoções do criador e mais sobre provocar emoções em quem vê, ouve etc., isto é, no receptor
  O artigo da Wikipedia sobre arte começa assim
  “Art is a diverse range of cultural activity centered around works utilizing creative or imaginative talents, which are expected to evoke a worthwhile experience”
  https://en.wikipedia.org/wiki/Art
  Portanto, a IA também pode fazer arte. Porque basta gerar uma resposta emocional em quem recebe
- Os modelos atuais são treinados com pastiche de imagens e remix de estilos. Mas não há motivo para não aprenderem significantes emocionais e culturais e adicionarem uma camada de Artistic Director para orquestrar o pastiche e o remix
  O problema prático é que a capacidade do modelo de seguir prompts é muito limitada. O nível de detalhe que se pode especificar no design da cena é grosseiro demais. Por isso, até dá para sair um efeito “slop” com muitos detalhes de pastiche preenchidos automaticamente, mas não dá para criar obras assim, em que cada objeto secundário é colocado intencionalmente para reforçar a mensagem
  https://en.wikipedia.org/wiki/The_Awakening_Conscience
  Basicamente, é a versão para especialistas do problema “desenhe um pelicano andando de bicicleta”
  Em certas situações, esse nível de controle criativo é necessário, e os geradores de imagem atuais não chegam nem perto disso
  E, sem esse controle, não conseguem alcançar o nível de metacriatividade de criar novas estéticas que virem marcos culturais, como artistas famosos fizeram e ainda fazem
- Hoje em dia, as pessoas dão downvote quando a arte as deixa desconfortáveis
  Elas só querem dopamina. Não querem pensar porque pensar dói
Não acho que machine learning não possa ser criativo ou fazer descobertas. Criatividade e descoberta são, no fim, pensar ao mesmo tempo em conceitos corretos que parecem distantes entre si, enquanto o pensamento algorítmico lida com conceitos mais obviamente relacionados
Mesmo sem ser um LLM, algum modelo pode gerar ideias aleatórias, ranqueá-las e então produzir o melhor resultado
Só acho que humanos são melhores nisso, e machine learning é melhor em pensamento algorítmico. Aqui, “melhor” significa mais eficiente e algo de que gostamos mais de fazer e, especialmente, também conseguimos avaliar com mais precisão aquilo que nos atrai subjetivamente, inclusive em nós mesmos, ou seja, o gosto
Acho que machine learning exige mais generalização do que programação, mas ainda deveria ser otimizado principalmente para trabalho lógico. Coisas como desenvolvimento de software, tradução e ferramentas para arte e descoberta
Tudo bem. Os LLMs já são úteis do jeito que são hoje. Mesmo que nunca produzam a próxima geração da matemática ou da física
Mesmo entre humanos, os cérebros que deram saltos graduais no pensamento são tão raros que nós os lembramos pelo nome
- Pode ser que você esteja ignorando que esses humanos raros estavam apoiados sobre inúmeros fracassos ou descobertas parcialmente úteis feitos por humanos mais “comuns”, esquecidos pela história
Link alternativo: <https://xcancel.com/RichardSSutton/status/206121608774494665...>
No momento, aqui para mim está dando 502 “Bad Gateway”, mas parece que deve voltar em algum momento

A criatividade e a descoberta em IA segundo Rich Sutton

Limites e utilidade da IA generativa

Novidade, aleatoriedade e o problema da avaliação

A descoberta necessária para ciência e matemática

As três etapas da descoberta

Avaliação, objetivos e autonomia

Leituras relacionadas

1 comentários

Comentários do Hacker News