- Aponta os limites de generalização dos modelos de IA e o viés do treinamento centrado em aprendizado por reforço (RL), explicando por que os sistemas atuais não conseguem pensar com a mesma flexibilidade que os humanos
- Pré-treinamento (pre-training) obtém conhecimento de forma natural a partir de enormes volumes de dados, mas é avaliado como insuficiente em capacidade de adaptação ao ambiente real
- Diagnostica que a era da escala (2012~2025) terminou, e que agora é necessário um momento de novos princípios de aprendizado e inovação centrada em pesquisa
- A SSI busca modelos com capacidade de aprendizado em nível humano ao combinar aprendizado contínuo (continual learning) com aprendizado por meio de implantação no mundo real
- A partir da visão de que a inteligência artificial precisa integrar “emoções e função de valor”, “capacidade de generalização” e “alinhamento ético (alignment)”, apresenta a direção futura da pesquisa em IA
Instabilidade dos modelos e problema de generalização
- Os modelos atuais de IA se saem muito bem em avaliações (evals), mas no ambiente real exibem uma “irregularidade (jaggedness)” com erros recorrentes
- Como exemplo, menciona o fenômeno em que, ao pedir para corrigir um bug em código, o modelo conserta um problema e volta a criar outro
- Analisa que o treinamento com RL fica excessivamente ajustado a métricas específicas de avaliação, causando queda na capacidade de generalização
- Em comparação com o aprendizado humano, descreve os modelos como um “estudante de programação competitiva” superajustado a certos tipos de problema, mas fraco em aplicações reais
Emoções e Função de Valor (Value Function)
- Explica que o sistema emocional humano desempenha papel central na tomada de decisão, e pode ser interpretado como o correspondente biológico de uma função de valor
- A partir de casos de humanos sem emoções, enfatiza que emoções são elemento essencial para julgamento eficiente e aprendizado
- O aprendizado por reforço atual depende apenas da recompensa final, mas a função de valor permite feedback em etapas intermediárias, aumentando a eficiência do aprendizado
- Sugere que a IA do futuro precisará adotar uma estrutura de função de valor com regulação emocional
Da era da escala para a era da pesquisa
- Divide 2012~2020 como fase de avanço centrada em pesquisa e 2020~2025 como fase de avanço centrada em escala
- A expansão simples de dados, parâmetros e compute chegou ao limite, e agora é preciso explorar novas receitas de aprendizado
- O RL surgiu como um novo eixo de escala, mas uso eficiente de recursos e novos princípios de aprendizado são os desafios centrais da próxima etapa
- Com a declaração de que “agora é novamente a era da pesquisa”, reforça a necessidade de inovação fundamental que vá além do simples scaling
Capacidade humana de generalização e eficiência de aprendizado
- Explica que os humanos aprendem rapidamente com poucos dados, graças a conhecimentos prévios evolutivos (prior) e a uma função de valor eficiente
- O fato de humanos demonstrarem excelente capacidade de aprendizado até em áreas sem relação com a evolução, como linguagem, matemática e programação, sugere a existência de princípios fundamentais de aprendizado
- Humanos aprendem por meio de auto-feedback (self-correction), sustentado pela robustez de uma função de valor internalizada
- Sutskever afirmou que existe uma forma de implementar princípios de aprendizado em nível humano, mas os detalhes não foram divulgados
Estratégia da SSI e abordagem à superinteligência
- A SSI opera com US$ 3 bilhões em financiamento, com foco em pesquisa e priorizando investigação fundamental em vez de produto
- Pretende manter a estratégia de “superintelligence straight shot”, mas em paralelo com divulgação gradual e aprendizado por implantação
- O objetivo é uma “IA que possa aprender qualquer tarefa”, ou seja, não um corpo de conhecimento fechado, mas um aprendiz contínuo (super learner)
- Menciona a possibilidade de crescimento econômico acelerado caso esse tipo de modelo seja implantado em toda a economia
Alinhamento (Alignment) e segurança
- O problema central da IA é o “poder (power)”, e quanto mais poderoso o sistema, mais importantes se tornam a implantação gradual e o feedback em tempo real
- Prevê como inevitáveis tanto a pesquisa colaborativa em segurança entre empresas de IA quanto o aumento da intervenção governamental
- A SSI busca uma IA que leve em consideração a “vida senciente (sentient life)”, argumentando que isso é mais realizável do que um alinhamento estritamente centrado no humano
- Propõe a necessidade de limitar o poder da superinteligência ou controlá-la por meio de acordos mútuos
Coevolução humano-IA e equilíbrio de longo prazo
- A longo prazo, apresenta o cenário de que humanos terão de se fundir com a IA (Neuralink++) para possibilitar compreensão e controle
- Menciona o mistério da neurociência sobre como os desejos sociais e emoções humanos foram codificados em nível tão elevado pela evolução
- Sugere que essa estrutura de desejos de alta ordem pode servir como pista para a pesquisa em alinhamento de IA
Identidade da SSI e diferenciais técnicos
- A SSI é uma “empresa centrada em pesquisa”, com a investigação dos princípios de generalização como objetivo principal
- Diferentemente de outras empresas, persegue novas abordagens técnicas e prevê uma futura convergência de estratégias de alinhamento
- Prevê o surgimento de aprendizes em nível humano dentro de 5 a 20 anos, seguido por especialização e diferenciação por meio da competição de mercado
Self-play e múltiplos agentes
- Self-play é avaliado como um método interessante por permitir aprendizado apenas com compute, sem dados
- Ainda assim, há a limitação de ser um modo de aprendizado restrito a habilidades sociais como negociação e estratégia
- Recentemente, evoluiu para estruturas como Prover–Verifier ou LLM-as-a-Judge, indicando a possibilidade de garantir diversidade por meio da competição entre agentes
Gosto por pesquisa (Research Taste)
- Uma grande pesquisa deve reunir ao mesmo tempo “beleza, simplicidade e a inspiração certa no cérebro”
- É importante se inspirar no cérebro humano, mas imitando com precisão a estrutura essencial
- Explica que, mais do que resultados experimentais bottom-up, é a convicção em conceitos superiores (top-down belief) que sustenta a continuidade da pesquisa
Resumo: Ilya Sutskever declara que “a era centrada em escala acabou, e agora começou a era da pesquisa focada em generalização, aprendizado contínuo e alinhamento”, enfatizando que a SSI está no centro dessa transição.
1 comentários
Comentários do Hacker News
É confuso que os modelos de hoje pareçam muito mais inteligentes do que seu impacto econômico real
Tenho integrado IA e algoritmos aos fluxos de trabalho das pessoas nos últimos 20 anos, e esse tipo de mudança leva tempo
É preciso passar por um processo de aprender a usar as ferramentas e de como incorporá-las aos sistemas existentes
Mesmo que os modelos não fiquem mais inteligentes do que são agora, acho que em alguns anos veremos resultados claros
Se os funcionários já trabalham de forma eficiente, mesmo que a IA acelere o ritmo do trabalho, a produtividade pode não subir muito
Pelo contrário, muitas organizações já têm gente demais para preencher “trabalho de fachada”, então mesmo que o volume real de trabalho caia, o resultado pode continuar igual
Não sei se isso é um limite técnico ou organizacional
A maior parte do tempo é gasta resolvendo problemas humanos, como alinhar prioridades entre pessoas ou formar consenso, e não problemas técnicos
Na faculdade, um professor dizia: “todo sistema passa 90% do tempo 90% pronto”, e isso era realmente verdade
Por exemplo, se houvesse um modelo chamado “Dave”, Microsoft, OpenAI, Meta, Oracle e até o governo dos EUA contratariam o Dave
No fim, o mundo ficaria cheio de dezenas de formas de pensar clonadas, e a perda de diversidade é o verdadeiro risco
Conexões e visão de negócios passam a importar mais do que pesquisa
O público acabará conhecendo melhor marcas como ChatGPT ou Copilot do que pesquisadores como Ilya ou Andrej
Tecnologias fundamentais como Wikipedia, OCR e computação em nuvem se acumularam para tornar os LLMs atuais possíveis, e isso é apenas uma etapa intermediária rumo a algo maior
Se “Era of Scaling” significa uma época de ganhos previsíveis de desempenho em que é fácil captar investimento, isso soa parecido com um “AI summer”
Então “Era of Research” talvez seja apenas um eufemismo para “AI winter”
Como criadores que fazem pitch de ideias para Hollywood, haverá bounties de pesquisa em vez de bug bounties
O próprio título parece ter sido feito de propósito para soar paradoxal
Os modelos já são inteligentes o suficiente, e agora virão a “era da pesquisa” e a “era da engenharia”
Os antigos invernos da IA não vieram por falta de progresso, mas porque não houve transformação em produto comercial
Pode surgir um hardware que acelere em um milhão de vezes o treino e a inferência de LLMs, mas ainda estamos longe da AGI
Isso leva a pensar em que condições seriam necessárias para que a IA tivesse emoções ou desejos por conta própria
Os investidores podem acabar rebaixados à condição de ferramenta da IA
Como na frase “uma forma de vida nascida do mar da informação”, dá para imaginar uma era em que a memória humana e a memória da IA já não se distinguem
A eficiência amostral humana é resultado da evolução
A evolução realizou uma quantidade imensa de aprendizado, e nós aprendemos rápido graças a essa estrutura “pré-treinada”
A humanidade comprimou e transmitiu conhecimento ao longo das gerações, e os modelos artificiais ainda não têm esse nível de qualidade de dados sintéticos
O ser humano, desde o nascimento, recebe dados pelos sentidos e os comprime durante o sono
Os dados recebidos por um LLM parecem enormes em quantidade, mas ainda são muito menores do que o volume de informação que um humano experiencia ao longo de 20 anos
O cérebro humano passa por um complexo pipeline de compressão, mesmo processando conscientemente só uma fração mínima dos inputs
Mesmo assim, isso ainda não alcança a escala de treinamento iterativo do machine learning moderno
Os dois sistemas quase não têm nada em comum em termos estruturais
Uma tagline apropriada seria algo como: “o líder intelectual da indústria mais bem financiada do mundo declarou um grande salto de volta à fase de projeto”
Hoje, a verdadeira inovação em IA não vem simplesmente de aumentar o tamanho do modelo
Mesmo que as pontuações de benchmark subam, do ponto de vista do usuário a melhora percebida não é tão grande
Ainda erra problemas simples, como contar letras em uma palavra, e a maioria das pessoas não quer um modelo que exija capacidade de pesquisa em nível de doutorado
Agora, mais do que scaling, importa pesquisa, além da integração entre produto e modelo
Uma pontuação alta em testes feitos para humanos talvez não reflita a inteligência de uma máquina
Isso porque as características de overfitting do cérebro humano e dos modelos são diferentes
O pré-treinamento está praticamente no fim, e o custo computacional será muito maior do que hoje
O modelo é só uma ferramenta para extrair e usar essa inteligência
Em vez do fluxo de caracteres que os humanos veem, o modelo reconhece frases como sequências de tokens numéricos
A situação atual parece como se, em 1996, todo mundo de repente passasse a ter internet de 1 Gbps
O dinheiro corre para a infraestrutura, mas dá a sensação de que o potencial está sendo desperdiçado por ainda não existir um killer app como YouTube ou Dropbox
Esta série de podcasts foi muito boa
Em especial, a série de geopolítica com Sarah Paine apresentada pelo host, que também está no YouTube, foi excelente
Isso lembra a frase “de volta à prancheta”
Mesmo que os trilhões de dólares investidos não sejam recuperados, no fim os contribuintes é que vão salvar tudo
A inteligência humana talvez seja aprendida não apenas pela experiência individual, mas também pelas experiências dos ancestrais
Por exemplo, há estudos mostrando que o medo vivido por um pai pode ser transmitido até a geração dos netos
(link para o artigo na Nature)
Por isso, parece que os humanos conseguem generalizar bem mesmo com poucos dados
Como os humanos precisavam prever o futuro e generalizar para sobreviver, desenvolveram evolutivamente alta eficiência amostral
Se o scaling chegar a um nível capaz de realizar pesquisa melhor do que humanos, então scaling e pesquisa acabarão significando a mesma coisa
Mas o fato de Ilya dizer que ainda não chegamos lá pode ser também uma fala estratégica para atrair investimento
Mais importante do que um único gênio é a inteligência coletiva da humanidade como um todo
Não há garantia de que, por mais inteligente que seja, uma IA será melhor do que milhares de pesquisadores
Parece haver a ilusão de que uma curva em S pode ser expandida exponencialmente para sempre