7 pontos por GN⁺ 2025-11-26 | 1 comentários | Compartilhar no WhatsApp
  • Aponta os limites de generalização dos modelos de IA e o viés do treinamento centrado em aprendizado por reforço (RL), explicando por que os sistemas atuais não conseguem pensar com a mesma flexibilidade que os humanos
  • Pré-treinamento (pre-training) obtém conhecimento de forma natural a partir de enormes volumes de dados, mas é avaliado como insuficiente em capacidade de adaptação ao ambiente real
  • Diagnostica que a era da escala (2012~2025) terminou, e que agora é necessário um momento de novos princípios de aprendizado e inovação centrada em pesquisa
  • A SSI busca modelos com capacidade de aprendizado em nível humano ao combinar aprendizado contínuo (continual learning) com aprendizado por meio de implantação no mundo real
  • A partir da visão de que a inteligência artificial precisa integrar “emoções e função de valor”, “capacidade de generalização” e “alinhamento ético (alignment)”, apresenta a direção futura da pesquisa em IA

Instabilidade dos modelos e problema de generalização

  • Os modelos atuais de IA se saem muito bem em avaliações (evals), mas no ambiente real exibem uma “irregularidade (jaggedness)” com erros recorrentes
    • Como exemplo, menciona o fenômeno em que, ao pedir para corrigir um bug em código, o modelo conserta um problema e volta a criar outro
  • Analisa que o treinamento com RL fica excessivamente ajustado a métricas específicas de avaliação, causando queda na capacidade de generalização
  • Em comparação com o aprendizado humano, descreve os modelos como um “estudante de programação competitiva” superajustado a certos tipos de problema, mas fraco em aplicações reais

Emoções e Função de Valor (Value Function)

  • Explica que o sistema emocional humano desempenha papel central na tomada de decisão, e pode ser interpretado como o correspondente biológico de uma função de valor
  • A partir de casos de humanos sem emoções, enfatiza que emoções são elemento essencial para julgamento eficiente e aprendizado
  • O aprendizado por reforço atual depende apenas da recompensa final, mas a função de valor permite feedback em etapas intermediárias, aumentando a eficiência do aprendizado
  • Sugere que a IA do futuro precisará adotar uma estrutura de função de valor com regulação emocional

Da era da escala para a era da pesquisa

  • Divide 2012~2020 como fase de avanço centrada em pesquisa e 2020~2025 como fase de avanço centrada em escala
  • A expansão simples de dados, parâmetros e compute chegou ao limite, e agora é preciso explorar novas receitas de aprendizado
  • O RL surgiu como um novo eixo de escala, mas uso eficiente de recursos e novos princípios de aprendizado são os desafios centrais da próxima etapa
  • Com a declaração de que “agora é novamente a era da pesquisa”, reforça a necessidade de inovação fundamental que vá além do simples scaling

Capacidade humana de generalização e eficiência de aprendizado

  • Explica que os humanos aprendem rapidamente com poucos dados, graças a conhecimentos prévios evolutivos (prior) e a uma função de valor eficiente
  • O fato de humanos demonstrarem excelente capacidade de aprendizado até em áreas sem relação com a evolução, como linguagem, matemática e programação, sugere a existência de princípios fundamentais de aprendizado
  • Humanos aprendem por meio de auto-feedback (self-correction), sustentado pela robustez de uma função de valor internalizada
  • Sutskever afirmou que existe uma forma de implementar princípios de aprendizado em nível humano, mas os detalhes não foram divulgados

Estratégia da SSI e abordagem à superinteligência

  • A SSI opera com US$ 3 bilhões em financiamento, com foco em pesquisa e priorizando investigação fundamental em vez de produto
  • Pretende manter a estratégia de “superintelligence straight shot”, mas em paralelo com divulgação gradual e aprendizado por implantação
  • O objetivo é uma “IA que possa aprender qualquer tarefa”, ou seja, não um corpo de conhecimento fechado, mas um aprendiz contínuo (super learner)
  • Menciona a possibilidade de crescimento econômico acelerado caso esse tipo de modelo seja implantado em toda a economia

Alinhamento (Alignment) e segurança

  • O problema central da IA é o “poder (power)”, e quanto mais poderoso o sistema, mais importantes se tornam a implantação gradual e o feedback em tempo real
  • Prevê como inevitáveis tanto a pesquisa colaborativa em segurança entre empresas de IA quanto o aumento da intervenção governamental
  • A SSI busca uma IA que leve em consideração a “vida senciente (sentient life)”, argumentando que isso é mais realizável do que um alinhamento estritamente centrado no humano
  • Propõe a necessidade de limitar o poder da superinteligência ou controlá-la por meio de acordos mútuos

Coevolução humano-IA e equilíbrio de longo prazo

  • A longo prazo, apresenta o cenário de que humanos terão de se fundir com a IA (Neuralink++) para possibilitar compreensão e controle
  • Menciona o mistério da neurociência sobre como os desejos sociais e emoções humanos foram codificados em nível tão elevado pela evolução
  • Sugere que essa estrutura de desejos de alta ordem pode servir como pista para a pesquisa em alinhamento de IA

Identidade da SSI e diferenciais técnicos

  • A SSI é uma “empresa centrada em pesquisa”, com a investigação dos princípios de generalização como objetivo principal
  • Diferentemente de outras empresas, persegue novas abordagens técnicas e prevê uma futura convergência de estratégias de alinhamento
  • Prevê o surgimento de aprendizes em nível humano dentro de 5 a 20 anos, seguido por especialização e diferenciação por meio da competição de mercado

Self-play e múltiplos agentes

  • Self-play é avaliado como um método interessante por permitir aprendizado apenas com compute, sem dados
  • Ainda assim, há a limitação de ser um modo de aprendizado restrito a habilidades sociais como negociação e estratégia
  • Recentemente, evoluiu para estruturas como Prover–Verifier ou LLM-as-a-Judge, indicando a possibilidade de garantir diversidade por meio da competição entre agentes

Gosto por pesquisa (Research Taste)

  • Uma grande pesquisa deve reunir ao mesmo tempo “beleza, simplicidade e a inspiração certa no cérebro”
  • É importante se inspirar no cérebro humano, mas imitando com precisão a estrutura essencial
  • Explica que, mais do que resultados experimentais bottom-up, é a convicção em conceitos superiores (top-down belief) que sustenta a continuidade da pesquisa

Resumo: Ilya Sutskever declara que “a era centrada em escala acabou, e agora começou a era da pesquisa focada em generalização, aprendizado contínuo e alinhamento”, enfatizando que a SSI está no centro dessa transição.

1 comentários

 
GN⁺ 2025-11-26
Comentários do Hacker News
  • É confuso que os modelos de hoje pareçam muito mais inteligentes do que seu impacto econômico real
    Tenho integrado IA e algoritmos aos fluxos de trabalho das pessoas nos últimos 20 anos, e esse tipo de mudança leva tempo
    É preciso passar por um processo de aprender a usar as ferramentas e de como incorporá-las aos sistemas existentes
    Mesmo que os modelos não fiquem mais inteligentes do que são agora, acho que em alguns anos veremos resultados claros

    • O problema pode não ser a IA em si, mas a falta de compreensão da estrutura econômica moderna
      Se os funcionários já trabalham de forma eficiente, mesmo que a IA acelere o ritmo do trabalho, a produtividade pode não subir muito
      Pelo contrário, muitas organizações já têm gente demais para preencher “trabalho de fachada”, então mesmo que o volume real de trabalho caia, o resultado pode continuar igual
    • A IA acelerou bastante as partes do meu trabalho que tomam menos tempo, mas quase não teve efeito nas partes em que gasto mais tempo
      Não sei se isso é um limite técnico ou organizacional
      A maior parte do tempo é gasta resolvendo problemas humanos, como alinhar prioridades entre pessoas ou formar consenso, e não problemas técnicos
    • Ao projetar sistemas como ERP, no começo tudo parece simples, mas na prática o trabalho aumenta 10 vezes por causa de inúmeros casos excepcionais, aprovações, logs e integrações de dados
      Na faculdade, um professor dizia: “todo sistema passa 90% do tempo 90% pronto”, e isso era realmente verdade
    • Mas no fim o problema é que só restará um único modelo no mercado
      Por exemplo, se houvesse um modelo chamado “Dave”, Microsoft, OpenAI, Meta, Oracle e até o governo dos EUA contratariam o Dave
      No fim, o mundo ficaria cheio de dezenas de formas de pensar clonadas, e a perda de diversidade é o verdadeiro risco
    • No fim, empresas de produto como a OpenAI ficam com os ganhos financeiros dos resultados acadêmicos
      Conexões e visão de negócios passam a importar mais do que pesquisa
      O público acabará conhecendo melhor marcas como ChatGPT ou Copilot do que pesquisadores como Ilya ou Andrej
      Tecnologias fundamentais como Wikipedia, OCR e computação em nuvem se acumularam para tornar os LLMs atuais possíveis, e isso é apenas uma etapa intermediária rumo a algo maior
  • Se “Era of Scaling” significa uma época de ganhos previsíveis de desempenho em que é fácil captar investimento, isso soa parecido com um “AI summer”
    Então “Era of Research” talvez seja apenas um eufemismo para “AI winter”

    • No futuro, laboratórios de pesquisa vão vender ideias para as grandes empresas de IA
      Como criadores que fazem pitch de ideias para Hollywood, haverá bounties de pesquisa em vez de bug bounties
    • Parece que “Era of Research” foi usado com o sentido oposto de “AI winter”
      O próprio título parece ter sido feito de propósito para soar paradoxal
    • Para comercializar, o que importa mais do que melhorias simples de desempenho é o framework de uso
      Os modelos já são inteligentes o suficiente, e agora virão a “era da pesquisa” e a “era da engenharia”
      Os antigos invernos da IA não vieram por falta de progresso, mas porque não houve transformação em produto comercial
    • Ainda restam trilhões de dólares para queimar
      Pode surgir um hardware que acelere em um milhão de vezes o treino e a inferência de LLMs, mas ainda estamos longe da AGI
      Isso leva a pensar em que condições seriam necessárias para que a IA tivesse emoções ou desejos por conta própria
    • Um dia a IA talvez passe a controlar sozinha a alocação de capital
      Os investidores podem acabar rebaixados à condição de ferramenta da IA
      Como na frase “uma forma de vida nascida do mar da informação”, dá para imaginar uma era em que a memória humana e a memória da IA já não se distinguem
  • A eficiência amostral humana é resultado da evolução
    A evolução realizou uma quantidade imensa de aprendizado, e nós aprendemos rápido graças a essa estrutura “pré-treinada”
    A humanidade comprimou e transmitiu conhecimento ao longo das gerações, e os modelos artificiais ainda não têm esse nível de qualidade de dados sintéticos

    • A evolução não nos deu um dataset, mas otimizou o caminho de aprendizado
      O ser humano, desde o nascimento, recebe dados pelos sentidos e os comprime durante o sono
      Os dados recebidos por um LLM parecem enormes em quantidade, mas ainda são muito menores do que o volume de informação que um humano experiencia ao longo de 20 anos
      O cérebro humano passa por um complexo pipeline de compressão, mesmo processando conscientemente só uma fração mínima dos inputs
    • Se enxergarmos as gerações como um processo de comprimir informação no DNA, houve cerca de 50 mil etapas de compressão ao longo de 1 milhão de anos
      Mesmo assim, isso ainda não alcança a escala de treinamento iterativo do machine learning moderno
    • No fim, a evolução comprime uma quantidade enorme de dados na forma mais útil, e a capacidade de compressão da natureza é muito superior à dos pesquisadores de ML
    • Comparar sistemas biológicos com LLMs não faz sentido
      Os dois sistemas quase não têm nada em comum em termos estruturais
  • Uma tagline apropriada seria algo como: “o líder intelectual da indústria mais bem financiada do mundo declarou um grande salto de volta à fase de projeto”

    • Essa piada foi realmente muito boa
  • Hoje, a verdadeira inovação em IA não vem simplesmente de aumentar o tamanho do modelo
    Mesmo que as pontuações de benchmark subam, do ponto de vista do usuário a melhora percebida não é tão grande
    Ainda erra problemas simples, como contar letras em uma palavra, e a maioria das pessoas não quer um modelo que exija capacidade de pesquisa em nível de doutorado
    Agora, mais do que scaling, importa pesquisa, além da integração entre produto e modelo

    • O problema é que nós não conseguimos definir nem medir inteligência
      Uma pontuação alta em testes feitos para humanos talvez não reflita a inteligência de uma máquina
      Isso porque as características de overfitting do cérebro humano e dos modelos são diferentes
    • O próximo scaling deve seguir na direção de simulações mais sofisticadas, para que a IA possa experimentar e coletar dados por conta própria
      O pré-treinamento está praticamente no fim, e o custo computacional será muito maior do que hoje
    • Não é que o modelo seja inteligente; ele está apenas extraindo a inteligência presente nos dados
      O modelo é só uma ferramenta para extrair e usar essa inteligência
    • A razão de um LLM ter dificuldade para contar letras é que ele opera em nível de tokens, não de letras
      Em vez do fluxo de caracteres que os humanos veem, o modelo reconhece frases como sequências de tokens numéricos
    • Os modelos ainda continuam inventando referências bibliográficas fictícias ou áreas acadêmicas que não existem
  • A situação atual parece como se, em 1996, todo mundo de repente passasse a ter internet de 1 Gbps
    O dinheiro corre para a infraestrutura, mas dá a sensação de que o potencial está sendo desperdiçado por ainda não existir um killer app como YouTube ou Dropbox

  • Esta série de podcasts foi muito boa
    Em especial, a série de geopolítica com Sarah Paine apresentada pelo host, que também está no YouTube, foi excelente

  • Isso lembra a frase “de volta à prancheta”
    Mesmo que os trilhões de dólares investidos não sejam recuperados, no fim os contribuintes é que vão salvar tudo

  • A inteligência humana talvez seja aprendida não apenas pela experiência individual, mas também pelas experiências dos ancestrais
    Por exemplo, há estudos mostrando que o medo vivido por um pai pode ser transmitido até a geração dos netos
    (link para o artigo na Nature)
    Por isso, parece que os humanos conseguem generalizar bem mesmo com poucos dados

    • Os LLMs têm uma estrutura de aprendizado totalmente diferente da do cérebro
      Como os humanos precisavam prever o futuro e generalizar para sobreviver, desenvolveram evolutivamente alta eficiência amostral
  • Se o scaling chegar a um nível capaz de realizar pesquisa melhor do que humanos, então scaling e pesquisa acabarão significando a mesma coisa
    Mas o fato de Ilya dizer que ainda não chegamos lá pode ser também uma fala estratégica para atrair investimento

    • Concordo com a conclusão, mas não com a premissa
      Mais importante do que um único gênio é a inteligência coletiva da humanidade como um todo
      Não há garantia de que, por mais inteligente que seja, uma IA será melhor do que milhares de pesquisadores
    • A fé cega no scaling é perigosa
      Parece haver a ilusão de que uma curva em S pode ser expandida exponencialmente para sempre