Ilya Sutskever: estamos saindo da era da escala e entrando na era da pesquisa

(dwarkesh.com)

7 pontos por GN⁺ 2025-11-26 | 1 comentários | Compartilhar no WhatsApp

Aponta os limites de generalização dos modelos de IA e o viés do treinamento centrado em aprendizado por reforço (RL), explicando por que os sistemas atuais não conseguem pensar com a mesma flexibilidade que os humanos
Pré-treinamento (pre-training) obtém conhecimento de forma natural a partir de enormes volumes de dados, mas é avaliado como insuficiente em capacidade de adaptação ao ambiente real
Diagnostica que a era da escala (2012~2025) terminou, e que agora é necessário um momento de novos princípios de aprendizado e inovação centrada em pesquisa
A SSI busca modelos com capacidade de aprendizado em nível humano ao combinar aprendizado contínuo (continual learning) com aprendizado por meio de implantação no mundo real
A partir da visão de que a inteligência artificial precisa integrar “emoções e função de valor”, “capacidade de generalização” e “alinhamento ético (alignment)”, apresenta a direção futura da pesquisa em IA

Instabilidade dos modelos e problema de generalização

Os modelos atuais de IA se saem muito bem em avaliações (evals), mas no ambiente real exibem uma “irregularidade (jaggedness)” com erros recorrentes
- Como exemplo, menciona o fenômeno em que, ao pedir para corrigir um bug em código, o modelo conserta um problema e volta a criar outro
Analisa que o treinamento com RL fica excessivamente ajustado a métricas específicas de avaliação, causando queda na capacidade de generalização
Em comparação com o aprendizado humano, descreve os modelos como um “estudante de programação competitiva” superajustado a certos tipos de problema, mas fraco em aplicações reais

Emoções e Função de Valor (Value Function)

Explica que o sistema emocional humano desempenha papel central na tomada de decisão, e pode ser interpretado como o correspondente biológico de uma função de valor
A partir de casos de humanos sem emoções, enfatiza que emoções são elemento essencial para julgamento eficiente e aprendizado
O aprendizado por reforço atual depende apenas da recompensa final, mas a função de valor permite feedback em etapas intermediárias, aumentando a eficiência do aprendizado
Sugere que a IA do futuro precisará adotar uma estrutura de função de valor com regulação emocional

Da era da escala para a era da pesquisa

Divide 2012~2020 como fase de avanço centrada em pesquisa e 2020~2025 como fase de avanço centrada em escala
A expansão simples de dados, parâmetros e compute chegou ao limite, e agora é preciso explorar novas receitas de aprendizado
O RL surgiu como um novo eixo de escala, mas uso eficiente de recursos e novos princípios de aprendizado são os desafios centrais da próxima etapa
Com a declaração de que “agora é novamente a era da pesquisa”, reforça a necessidade de inovação fundamental que vá além do simples scaling

Capacidade humana de generalização e eficiência de aprendizado

Explica que os humanos aprendem rapidamente com poucos dados, graças a conhecimentos prévios evolutivos (prior) e a uma função de valor eficiente
O fato de humanos demonstrarem excelente capacidade de aprendizado até em áreas sem relação com a evolução, como linguagem, matemática e programação, sugere a existência de princípios fundamentais de aprendizado
Humanos aprendem por meio de auto-feedback (self-correction), sustentado pela robustez de uma função de valor internalizada
Sutskever afirmou que existe uma forma de implementar princípios de aprendizado em nível humano, mas os detalhes não foram divulgados

Estratégia da SSI e abordagem à superinteligência

A SSI opera com US$ 3 bilhões em financiamento, com foco em pesquisa e priorizando investigação fundamental em vez de produto
Pretende manter a estratégia de “superintelligence straight shot”, mas em paralelo com divulgação gradual e aprendizado por implantação
O objetivo é uma “IA que possa aprender qualquer tarefa”, ou seja, não um corpo de conhecimento fechado, mas um aprendiz contínuo (super learner)
Menciona a possibilidade de crescimento econômico acelerado caso esse tipo de modelo seja implantado em toda a economia

Alinhamento (Alignment) e segurança

O problema central da IA é o “poder (power)”, e quanto mais poderoso o sistema, mais importantes se tornam a implantação gradual e o feedback em tempo real
Prevê como inevitáveis tanto a pesquisa colaborativa em segurança entre empresas de IA quanto o aumento da intervenção governamental
A SSI busca uma IA que leve em consideração a “vida senciente (sentient life)”, argumentando que isso é mais realizável do que um alinhamento estritamente centrado no humano
Propõe a necessidade de limitar o poder da superinteligência ou controlá-la por meio de acordos mútuos

Coevolução humano-IA e equilíbrio de longo prazo

A longo prazo, apresenta o cenário de que humanos terão de se fundir com a IA (Neuralink++) para possibilitar compreensão e controle
Menciona o mistério da neurociência sobre como os desejos sociais e emoções humanos foram codificados em nível tão elevado pela evolução
Sugere que essa estrutura de desejos de alta ordem pode servir como pista para a pesquisa em alinhamento de IA

Identidade da SSI e diferenciais técnicos

A SSI é uma “empresa centrada em pesquisa”, com a investigação dos princípios de generalização como objetivo principal
Diferentemente de outras empresas, persegue novas abordagens técnicas e prevê uma futura convergência de estratégias de alinhamento
Prevê o surgimento de aprendizes em nível humano dentro de 5 a 20 anos, seguido por especialização e diferenciação por meio da competição de mercado

Self-play e múltiplos agentes

Self-play é avaliado como um método interessante por permitir aprendizado apenas com compute, sem dados
Ainda assim, há a limitação de ser um modo de aprendizado restrito a habilidades sociais como negociação e estratégia
Recentemente, evoluiu para estruturas como Prover–Verifier ou LLM-as-a-Judge, indicando a possibilidade de garantir diversidade por meio da competição entre agentes

Gosto por pesquisa (Research Taste)

Uma grande pesquisa deve reunir ao mesmo tempo “beleza, simplicidade e a inspiração certa no cérebro”
É importante se inspirar no cérebro humano, mas imitando com precisão a estrutura essencial
Explica que, mais do que resultados experimentais bottom-up, é a convicção em conceitos superiores (top-down belief) que sustenta a continuidade da pesquisa

Resumo: Ilya Sutskever declara que “a era centrada em escala acabou, e agora começou a era da pesquisa focada em generalização, aprendizado contínuo e alinhamento”, enfatizando que a SSI está no centro dessa transição.

1 comentários

GN⁺ 2025-11-26

Comentários do Hacker News

É confuso que os modelos de hoje pareçam muito mais inteligentes do que seu impacto econômico real
Tenho integrado IA e algoritmos aos fluxos de trabalho das pessoas nos últimos 20 anos, e esse tipo de mudança leva tempo
É preciso passar por um processo de aprender a usar as ferramentas e de como incorporá-las aos sistemas existentes
Mesmo que os modelos não fiquem mais inteligentes do que são agora, acho que em alguns anos veremos resultados claros
- O problema pode não ser a IA em si, mas a falta de compreensão da estrutura econômica moderna
  Se os funcionários já trabalham de forma eficiente, mesmo que a IA acelere o ritmo do trabalho, a produtividade pode não subir muito
  Pelo contrário, muitas organizações já têm gente demais para preencher “trabalho de fachada”, então mesmo que o volume real de trabalho caia, o resultado pode continuar igual
- A IA acelerou bastante as partes do meu trabalho que tomam menos tempo, mas quase não teve efeito nas partes em que gasto mais tempo
  Não sei se isso é um limite técnico ou organizacional
  A maior parte do tempo é gasta resolvendo problemas humanos, como alinhar prioridades entre pessoas ou formar consenso, e não problemas técnicos
- Ao projetar sistemas como ERP, no começo tudo parece simples, mas na prática o trabalho aumenta 10 vezes por causa de inúmeros casos excepcionais, aprovações, logs e integrações de dados
  Na faculdade, um professor dizia: “todo sistema passa 90% do tempo 90% pronto”, e isso era realmente verdade
- Mas no fim o problema é que só restará um único modelo no mercado
  Por exemplo, se houvesse um modelo chamado “Dave”, Microsoft, OpenAI, Meta, Oracle e até o governo dos EUA contratariam o Dave
  No fim, o mundo ficaria cheio de dezenas de formas de pensar clonadas, e a perda de diversidade é o verdadeiro risco
- No fim, empresas de produto como a OpenAI ficam com os ganhos financeiros dos resultados acadêmicos
  Conexões e visão de negócios passam a importar mais do que pesquisa
  O público acabará conhecendo melhor marcas como ChatGPT ou Copilot do que pesquisadores como Ilya ou Andrej
  Tecnologias fundamentais como Wikipedia, OCR e computação em nuvem se acumularam para tornar os LLMs atuais possíveis, e isso é apenas uma etapa intermediária rumo a algo maior
Se “Era of Scaling” significa uma época de ganhos previsíveis de desempenho em que é fácil captar investimento, isso soa parecido com um “AI summer”
Então “Era of Research” talvez seja apenas um eufemismo para “AI winter”
- No futuro, laboratórios de pesquisa vão vender ideias para as grandes empresas de IA
  Como criadores que fazem pitch de ideias para Hollywood, haverá bounties de pesquisa em vez de bug bounties
- Parece que “Era of Research” foi usado com o sentido oposto de “AI winter”
  O próprio título parece ter sido feito de propósito para soar paradoxal
- Para comercializar, o que importa mais do que melhorias simples de desempenho é o framework de uso
  Os modelos já são inteligentes o suficiente, e agora virão a “era da pesquisa” e a “era da engenharia”
  Os antigos invernos da IA não vieram por falta de progresso, mas porque não houve transformação em produto comercial
- Ainda restam trilhões de dólares para queimar
  Pode surgir um hardware que acelere em um milhão de vezes o treino e a inferência de LLMs, mas ainda estamos longe da AGI
  Isso leva a pensar em que condições seriam necessárias para que a IA tivesse emoções ou desejos por conta própria
- Um dia a IA talvez passe a controlar sozinha a alocação de capital
  Os investidores podem acabar rebaixados à condição de ferramenta da IA
  Como na frase “uma forma de vida nascida do mar da informação”, dá para imaginar uma era em que a memória humana e a memória da IA já não se distinguem
A eficiência amostral humana é resultado da evolução
A evolução realizou uma quantidade imensa de aprendizado, e nós aprendemos rápido graças a essa estrutura “pré-treinada”
A humanidade comprimou e transmitiu conhecimento ao longo das gerações, e os modelos artificiais ainda não têm esse nível de qualidade de dados sintéticos
- A evolução não nos deu um dataset, mas otimizou o caminho de aprendizado
  O ser humano, desde o nascimento, recebe dados pelos sentidos e os comprime durante o sono
  Os dados recebidos por um LLM parecem enormes em quantidade, mas ainda são muito menores do que o volume de informação que um humano experiencia ao longo de 20 anos
  O cérebro humano passa por um complexo pipeline de compressão, mesmo processando conscientemente só uma fração mínima dos inputs
- Se enxergarmos as gerações como um processo de comprimir informação no DNA, houve cerca de 50 mil etapas de compressão ao longo de 1 milhão de anos
  Mesmo assim, isso ainda não alcança a escala de treinamento iterativo do machine learning moderno
- No fim, a evolução comprime uma quantidade enorme de dados na forma mais útil, e a capacidade de compressão da natureza é muito superior à dos pesquisadores de ML
- Comparar sistemas biológicos com LLMs não faz sentido
  Os dois sistemas quase não têm nada em comum em termos estruturais
Uma tagline apropriada seria algo como: “o líder intelectual da indústria mais bem financiada do mundo declarou um grande salto de volta à fase de projeto”
- Essa piada foi realmente muito boa
Hoje, a verdadeira inovação em IA não vem simplesmente de aumentar o tamanho do modelo
Mesmo que as pontuações de benchmark subam, do ponto de vista do usuário a melhora percebida não é tão grande
Ainda erra problemas simples, como contar letras em uma palavra, e a maioria das pessoas não quer um modelo que exija capacidade de pesquisa em nível de doutorado
Agora, mais do que scaling, importa pesquisa, além da integração entre produto e modelo
- O problema é que nós não conseguimos definir nem medir inteligência
  Uma pontuação alta em testes feitos para humanos talvez não reflita a inteligência de uma máquina
  Isso porque as características de overfitting do cérebro humano e dos modelos são diferentes
- O próximo scaling deve seguir na direção de simulações mais sofisticadas, para que a IA possa experimentar e coletar dados por conta própria
  O pré-treinamento está praticamente no fim, e o custo computacional será muito maior do que hoje
- Não é que o modelo seja inteligente; ele está apenas extraindo a inteligência presente nos dados
  O modelo é só uma ferramenta para extrair e usar essa inteligência
- A razão de um LLM ter dificuldade para contar letras é que ele opera em nível de tokens, não de letras
  Em vez do fluxo de caracteres que os humanos veem, o modelo reconhece frases como sequências de tokens numéricos
- Os modelos ainda continuam inventando referências bibliográficas fictícias ou áreas acadêmicas que não existem
A situação atual parece como se, em 1996, todo mundo de repente passasse a ter internet de 1 Gbps
O dinheiro corre para a infraestrutura, mas dá a sensação de que o potencial está sendo desperdiçado por ainda não existir um killer app como YouTube ou Dropbox
Esta série de podcasts foi muito boa
Em especial, a série de geopolítica com Sarah Paine apresentada pelo host, que também está no YouTube, foi excelente
Isso lembra a frase “de volta à prancheta”
Mesmo que os trilhões de dólares investidos não sejam recuperados, no fim os contribuintes é que vão salvar tudo
A inteligência humana talvez seja aprendida não apenas pela experiência individual, mas também pelas experiências dos ancestrais
Por exemplo, há estudos mostrando que o medo vivido por um pai pode ser transmitido até a geração dos netos
(link para o artigo na Nature)
Por isso, parece que os humanos conseguem generalizar bem mesmo com poucos dados
- Os LLMs têm uma estrutura de aprendizado totalmente diferente da do cérebro
  Como os humanos precisavam prever o futuro e generalizar para sobreviver, desenvolveram evolutivamente alta eficiência amostral
Se o scaling chegar a um nível capaz de realizar pesquisa melhor do que humanos, então scaling e pesquisa acabarão significando a mesma coisa
Mas o fato de Ilya dizer que ainda não chegamos lá pode ser também uma fala estratégica para atrair investimento
- Concordo com a conclusão, mas não com a premissa
  Mais importante do que um único gênio é a inteligência coletiva da humanidade como um todo
  Não há garantia de que, por mais inteligente que seja, uma IA será melhor do que milhares de pesquisadores
- A fé cega no scaling é perigosa
  Parece haver a ilusão de que uma curva em S pode ser expandida exponencialmente para sempre