Palestra de Ilya Sutskever na NeurIPS: retrospectiva de 10 anos do seq2seq [vídeo]

(youtube.com)

1 pontos por GN⁺ 2024-12-15 | 1 comentários | Compartilhar no WhatsApp

Ilya Sutskever relembra Sequence to Sequence Learning with Neural Networks, da NeurIPS 2014, dez anos depois, e resume o ponto de partida da atual onda de grandes modelos de linguagem em modelos de texto autorregressivos, grandes redes neurais e grandes conjuntos de dados
A hipótese ousada da época era que, se uma rede neural previsse o próximo token bem o suficiente, ela poderia capturar a distribuição correta da sequência; isso foi aplicado ao problema de tradução
A implementação era baseada em LSTM e pipeline em 8 GPUs, obtendo uma aceleração de 3,5 vezes, mas ele avalia que, pelos padrões atuais, o pipeline não foi uma boa escolha
A era do pré-treinamento, que levou a GPT-2, GPT-3 e scaling laws, inevitavelmente chegará ao fim por causa dos limites dos dados da internet; ele considera que já chegamos ao peak data
A próxima etapa passa por agentes, dados sintéticos, computação em tempo de inferência e casos iniciais como o o1; no longo prazo, podem surgir sistemas qualitativamente diferentes, mais voltados a raciocínio e até dotados de autoconsciência

Revisitando, 10 anos depois, o artigo seq2seq de 2014

Sequence to Sequence Learning with Neural Networks, apresentado na NeurIPS 2014 em Montreal, tornou-se objeto de retrospectiva dez anos depois
Sutskever agradece aos coautores e colaboradores da época e revisita os slides da apresentação de dez anos atrás para examinar o que estava certo e o que estava menos certo
O núcleo do artigo pode ser resumido em três pontos
- Modelos autorregressivos treinados em texto
- Grandes redes neurais
- Grandes conjuntos de dados

Ideias centrais e implementação da época

A apresentação de 2014 incluía a Deep Learning Hypothesis
- Era a suposição de que uma grande rede neural de 10 camadas poderia executar tarefas que humanos conseguem fazer em menos de 1 segundo
- A justificativa vinha da ideia de que neurônios artificiais e neurônios biológicos são parecidos em alguma medida, e de que neurônios reais são lentos
- Como, na época, as redes neurais treináveis tinham cerca de 10 camadas, o foco foi em “coisas que humanos conseguem fazer muito rapidamente”
Outro ponto central era a ideia de que, se um modelo autorregressivo previsse o próximo token bem o suficiente, ele capturaria a distribuição correta da sequência seguinte
- Não foi a primeira rede neural autorregressiva, mas é apresentado como um dos primeiros casos em que havia uma forte crença de que, se bem treinada, ela produziria o resultado desejado
- A tarefa na época era tradução e, vista hoje, pode parecer modesta, mas naquele momento era um objetivo muito ousado
A implementação usou LSTM
- Sutskever apresenta o LSTM como uma arquitetura usada por pesquisadores de deep learning antes do Transformer
- Ele compara o LSTM a uma espécie de “ResNet rotacionada em 90 graus” e vê nele um integrador, hoje chamado de residual stream, e uma estrutura multiplicativa
A paralelização do treinamento foi feita por pipeline, colocando uma camada em cada GPU
- Com 8 GPUs, obteve-se uma aceleração de 3,5 vezes
- Do ponto de vista atual, pipeline não era uma escolha sensata, mas foi assim que o trabalho foi conduzido na época

Scaling, conexionismo e a era do pré-treinamento

O slide de conclusão de 2014 pode ser visto como o início da scaling hypothesis
- Ele continha a ideia de que o sucesso estaria garantido ao treinar redes neurais muito grandes em conjuntos de dados muito grandes
- Sutskever avalia que, sendo generoso, foi de fato assim que as coisas se desenrolaram
Entre as ideias que sobreviveram por mais tempo, ele cita o conexionismo
- Se acreditamos que neurônios artificiais são, em certa medida, parecidos com neurônios biológicos, isso dá confiança de que é possível configurar redes neurais para realizar quase tudo que humanos fazem, mesmo sem aumentá-las até a escala do cérebro humano
- No entanto, ele observa que o cérebro humano tem a capacidade de se reorganizar sozinho, enquanto os algoritmos atuais de treinamento exigem tantos pontos de dados quanto o número de parâmetros; nesse aspecto, humanos ainda são melhores
Essa corrente levou à era do pré-treinamento
- GPT-2, GPT-3 e scaling laws são citados como exemplos representativos
- Ex-colaboradores como Radford, Kaplan e Dario Amodei contribuíram para fazer essa direção funcionar na prática
- O motor do progresso atual foi treinar enormes redes neurais com enormes conjuntos de dados

Direções após o pré-treinamento

Sutskever considera que o pré-treinamento necessariamente vai acabar
- Hardware, algoritmos e clusters podem continuar aumentando a computação
- Os dados dependem de uma única internet, e só existe uma internet
- Ele descreve os dados como os combustíveis fósseis da IA e diz que, como já chegamos ao peak data, será preciso lidar com os dados que existem hoje
Depois do pré-treinamento, várias direções são mencionadas
- Agentes: um conceito frequentemente citado como direção futura
- Dados sintéticos: o próprio significado disso é um grande desafio
- Computação em tempo de inferência: uma direção que aparece de forma mais clara em modelos recentes como o o1
Como exemplo biológico, ele aborda a relação entre tamanho do corpo e tamanho do cérebro em mamíferos
- Mamíferos e primatas não humanos mostram uma relação semelhante, mas os hominídeos têm uma inclinação diferente no expoente de scaling entre tamanho do cérebro e do corpo
- Essa diferença aparece em um gráfico em que os eixos x e y estão em escala logarítmica
- Ele observa que há precedentes, também na biologia, de descoberta de outros tipos de scaling, e considera que aquilo que a IA escalou até agora foi o primeiro alvo para o qual se descobriu como escalar

Superinteligência, raciocínio e sistemas qualitativamente diferentes

No longo prazo, a área caminha rumo à superinteligência
- Os modelos de linguagem e chatbots atuais são surpreendentes, mas ao mesmo tempo têm uma confiabilidade estranhamente baixa e às vezes ficam confusos
- Em avaliações, há casos de desempenho dramaticamente sobre-humano, o que torna difícil conciliar esses dois aspectos
Os sistemas futuros podem ser qualitativamente diferentes dos atuais
- Ele prevê que serão agênticos em um sentido real
- Os sistemas atuais não são agentes em um nível significativo; são avaliados como algo que começou de forma muito fraca
- Ele acredita que terão capacidade de raciocínio, compreenderão a partir de dados limitados e deixarão de ficar confusos
O raciocínio aumenta a imprevisibilidade
- O deep learning existente esteve mais próximo de replicar a intuição humana, isto é, processamentos como respostas em 0,1 segundo, o que torna a previsibilidade maior
- Sistemas que raciocinam se tornam mais imprevisíveis quanto mais raciocinam
- Ele dá como exemplo uma IA forte de xadrez, que é imprevisível até para os melhores enxadristas humanos
A autoconsciência também está entre as possibilidades
- Como o próprio eu faz parte do modelo de mundo, ele considera que self-awareness é útil
- Quando esses elementos se combinam, o resultado pode ser um sistema com propriedades e capacidades fundamentalmente diferentes dos sistemas existentes hoje
- Os problemas que surgirem em tais sistemas podem ser muito diferentes dos problemas aos quais estamos acostumados, e o futuro é de fato difícil de prever

Pontos levantados na sessão de perguntas e respostas

Sobre IA biologicamente inspirada, ele respondeu que, se alguém tiver insights concretos, vale a pena perseguir essa direção
- Até agora, ele considera que a inspiração biológica bem-sucedida se limitou a um nível muito restrito: “vamos usar neurônios”
- Inspirações biológicas mais detalhadas foram difíceis de obter, mas poderiam ser úteis se houvesse insights especiais
À pergunta sobre se modelos de raciocínio podem corrigir suas próprias alucinações, ele respondeu que a possibilidade é muito alta
- Ele concorda com a direção de que, no longo prazo, modelos possam entender e corrigir ocorrências de alucinação por meio do raciocínio
- Também não descarta a possibilidade de que isso já esteja acontecendo em alguns modelos iniciais de raciocínio
- Mas considera que chamar isso de autocorrect subestima a escala do fenômeno
Sobre direitos da IA, coexistência e estruturas de incentivo, ele evitou dar uma resposta definitiva
- Se a IA coexistir com humanos e quiser direitos, isso poderia ser um resultado não ruim
- Mas acrescentou que a situação é muito imprevisível, então é difícil falar com confiança
À pergunta sobre se LLMs generalizam raciocínio multi-hop fora da distribuição, ele considera difícil responder com um simples sim ou não
- O próprio significado de “dentro da distribuição” e “fora da distribuição” é um problema
- Na antiga era da tradução automática estatística, se não fosse a mesma frase do dataset, isso era considerado generalização; hoje, discute-se se a semelhança entre problemas de olimpíadas de matemática e debates na internet é memorização ou generalização
- O critério de generalização ficou muito mais elevado e, embora seja verdade que humanos generalizam melhor, ele responde que LLMs também fazem algum grau de generalização fora da distribuição

1 comentários

GN⁺ 2024-12-15

Opiniões no Hacker News

Esta apresentação me pareceu ter bem pouco conteúdo substancial
O que lembro, com a cabeça cansada, é um resumo dos últimos 10 anos, a ideia de que usamos quase todos os dados disponíveis e estamos chegando perto do limite das leis de escala, e que os próximos passos poderiam ser agentes, dados sintéticos e melhorias de computação
Fora isso, foi quase uma repetição de comparações entre redes neurais artificiais e redes neurais biológicas, com coisas como a correlação positiva entre peso corporal e massa cerebral, mas sem uma tese clara à vista
As perguntas foram sobre se o modelo consegue saber por si mesmo quando está alucinando, uma pergunta relacionada a criptomoedas, e um raciocínio multi-hop um pouco interessante
- Eu ouvi ao vivo, e é preciso contexto. Ele foi convidado para uma série de palestras test of time, o que explica a parte histórica longa
  A personalidade do Ilya e sua relação com IA parecem ter levado às especulações frouxas do fim
  Ele parece querer falar de temas especulativos de um futuro bem distante, mas se protege com algo do tipo “não vou dizer quando nem como, mas vai acontecer”, o que torna difícil refutar
  Esse estilo tende a atrair gente estranha, como na última pergunta sobre criptomoedas, enquanto a palestra imediatamente anterior, sobre o impacto das GANs, não saiu do tema da sessão
- O ponto central parece ter sido: “não dá mais para esperar que treinar modelos de dimensão maior em dumps maiores da internet continue melhorando as capacidades”
  É uma frase só, mas bem importante; mesmo que muita gente já soubesse, o fato de Sutskever ter dito isso pessoalmente ajuda a consolidar como entendimento comum
  O resto foi basicamente introdução e encerramento
- Surpreende que ninguém tenha resumido o vídeo com um LLM e postado nos comentários com um aviso
- Por mais brilhante que seja a mente, deve ser difícil entregar conteúdo profundo sempre que pedem
- As perguntas pareceram um grande sinal de alerta. Eram perguntas vagas sobre criptomoedas, direitos humanos da IA, “autocorreção” para IA, e, embora quem faça perguntas em conferências já costume ser um tipo peculiar, dá a sensação de que há participantes com cara de golpistas demais no campo de IA agora, a ponto de poderem soterrar a pesquisa real
  A maioria dos contribuidores fundamentais já é milionária, com contratos confortáveis, e laboratórios e departamentos garantiram muito financiamento para temas de pesquisa em IA
  Nos próximos 10 anos, talvez dê para gastar dinheiro com dados sintéticos, agentes e o problema de impedir que imagens geradas automaticamente mostrem seios, mas não acho que haverá muito avanço fundamental
  /remindme 10 years
O ponto principal foi quando Sutskever disse que a pré-treinamento “na forma como conhecemos sem dúvida vai acabar” e que “chegamos ao pico dos dados e não há mais”
Também aparece a analogia de que a internet é um recurso finito, como petróleo, no sentido de que o conteúdo criado por humanos é finito
Então o que vai substituir os dados da internet? Conjuntos de dados sintéticos selecionados?
Existem enormes conjuntos de dados proprietários que não são muito usados para treinamento por preocupações de direitos autorais, mas, se você de fato possui esses dados, os problemas legais são muito menores
Por exemplo, a Getty tem uma biblioteca enorme de imagens, e, se outra pessoa treinar com ela, há risco de processo; mas, se a Getty treinar sua própria IA, a história é diferente
O caso da News Corp treinando IA com ativos editoriais como o Wall Street Journal e a HarperCollins é parecido
- Como lugares como Meta ou Google tinham acesso a dados adicionais, acho que, embora eles não estivessem sobrando para todo mundo, esses lugares tinham dados suficientes, então a pesquisa sobre uso de dados sintéticos avançou menos
  No passado, ao treinar detectores de objetos, usei modelos 3D no Blender, scripts de ajuste de parâmetros e modelos existentes de aprendizado de máquina para inferir a calibração da câmera e a orientação da sobreposição, e isso funcionou muito bem para identificar objetos reais
  Conheço também pessoas que fazem algo parecido com motores de jogos para treinar veículos
  Há detalhes táticos inesperados que aumentam bastante a precisão; por exemplo, é preciso randomizar corretamente no conjunto de treinamento elementos irrelevantes como a textura da superfície do modelo 3D
  Se, durante o treinamento, você aplica padrões fractais aleatórios aos objetos, o detector de objetos fica mais robusto a perturbações no ambiente real
- Se você quiser criar um LLM que interprete muito bem “leis estaduais”, também dá para olhar pela ótica de baixar toda a legislação e os regulamentos de um estado específico e ver quais obstáculos existem para treiná-lo até ficar no nível dos 5% superiores entre profissionais do direito e advogados
  Nesse caso, a “internet” em si já não é necessária
  Basta um conjunto de dados específico de domínio com tamanho e qualidade suficientes, e o resultado já pode ser assustador
  O LLM de “leis estaduais” é só um exemplo, e a lógica segue: se você precisa de um especialista específico de domínio em qualquer área, é só treiná-lo
- Não acho que os dados de treinamento estejam realmente prestes a se esgotar. O que é necessário é conhecimento, não necessariamente os padrões de comportamento daquele texto
  LLMs não se lembram bem de coisas que usuários antigos da internet conhecem, como memes famosos que nunca foram noticiados
  Se for possível fazê-los lembrar sem imitar dados como os do 4chan, talvez usá-los no treinamento não seja completamente inútil
  E quanto a roteiros de filmes, letras de músicas, legendas de vídeos famosos do YouTube, ou até programas de televisão?
- Humanos não precisam de trilhões de tokens para raciocinar ou saber o que sabem
  Parte disso deve vir da evolução, mas acredito que as partes vindas da evolução, como habilidades linguísticas básicas e modelagem básica do mundo, já foram em certa medida ajustadas com dados da internet
  O pré-treinamento atual usa muito mais dados que humanos, e, assim como você não precisa ver todas as imagens da Getty para desenhar, modelos de autoconsciência ou autoaperfeiçoamento também não precisariam disso
  Para chegar ao nível de especialista em alguma área, treinar apenas previsão do próximo token, com dados da internet ou quaisquer outros dados, não é a solução
- Indústrias como farmacêutica e exploração de energia chamam a atenção. Nesses campos, os próprios silos de dados são uma parte central da vantagem competitiva
  Não há motivo para abrir os conjuntos de dados e nivelar as condições de concorrência; mantendo-os fechados, é possível monopolizar descobertas potenciais
  Dados públicos são a base da internet, mas algumas indústrias são construídas sobre manter descobertas rigorosamente escondidas por décadas
Fiquei feliz ao ver que Ilya começou a apresentação com uma foto de Quoc Le, que liderou o artigo sobre scaling de redes neurais em 2012. Aquele artigo foi o que, na época, me levou a entrar em deep learning
Os comentários dele são relativamente humildes e baseados em trabalhos anteriores publicados, mas parece claro que ele está fazendo algo grande agora e também tem uma imaginação ampla
Agora que “o gato saiu do saco”, o futuro da IA provavelmente será liderado por uma nova geração de líderes, e só espero que eles sejam humanitários
- Devemos torcer para que sejam o mais humanitários possível, mas ainda assim não podemos esquecer que continuam sendo humanos
- Acho que a probabilidade de a nova geração de líderes de inteligência artificial ser humanitária é literalmente próxima de 0
Acho que a frase dele, “quanto mais inferência houver, mais imprevisível fica”, é um eufemismo enorme
Em certo sentido, deveríamos pensar em inferência como quase equivalente a imprevisibilidade; mais especificamente, a inferência útil é imprevisível por definição
Esse enquadramento é importante para problemas como alinhamento
- Não seria o contrário? A palavra “irracional” também é usada frequentemente para significar volúvel, imprevisível e perigoso
  A razão é considerada algo bastante previsível, e espera-se que duas pessoas que raciocinem racionalmente a partir do mesmo conjunto de fatos cheguem a conclusões semelhantes
  O que Ilya parece querer dizer está mais perto da ideia de que uma pessoa muito inteligente pode parecer “imprevisível” para alguém menos inteligente
  Não é a razão em si que é imprevisível; é que, com raciocínio suficientemente rápido e de alta qualidade, pode-se chegar a uma conclusão que ninguém previa, embora depois ela faça sentido
- A palavra importante aqui é “imprevisível”, não “surpreendente”, “inverificável” ou “irracional”
  Nesta apresentação, previsão está ligada à intuição que uma pessoa tem em 0,1 segundo
  Um modelo de raciocínio poderoso, por definição, inevitavelmente chega a respostas não intuitivas. Se fossem intuitivas, ele teria chegado à mesma resposta muito mais rápido, sem uma longa cadeia de raciocínio
  O “raciocínio” aqui é diferente de uma prova no sentido matemático. Em matemática, até conclusões intuitivas podem exigir provas muito especiais
- Acho que o exemplo de IA de xadrez que ele deu não foi o mais adequado
  Um jogador humano pode ter dificuldade para entender uma jogada porque não consegue calcular tão longe quanto a IA, mas ainda assim pode ter quase certeza de que a IA de xadrez está otimizando o mesmo objetivo sob as mesmas regras
  Em modelos de raciocínio, o alinhamento não é algo dado
  Eles podem raciocinar sob regras e funções de custo completamente diferentes e, quando produzem resultados que humanos não entendem em perguntas mais abertas, é difícil dizer com facilidade se é uma ideia genial ou um pensamento desalinhado
- Se pensarmos na complexidade de tempo de encontrar uma solução versus verificá-la, isso não é exatamente correto
- Temos certeza de que foi isso mesmo que ele quis dizer? Talvez ele quisesse dizer que o processo de extrair mais raciocínio do modelo é imprevisível, não que o raciocínio em si seja imprevisível
O episódio desta semana do podcast da DeepMind com Oriole Vinyals tratou de temas parecidos com esta apresentação — a situação atual dos LLMs e o caminho à frente para o treinamento — e foi muito mais interessante: https://pca.st/episode/0f68afd5-2b2b-4ce9-964f-38193b7e8dd3
A analogia com petróleo é realmente adequada. É como se ferver mais alguns lagos até secarem valesse totalmente a pena para aumentar em mais 3 centavos o patrimônio líquido do Mr Worldcoin e dessa turma
- Entendo a analogia com petróleo, mas não sei de onde veio esse salto. Que lagos estão fervendo?
É surpreendente que alguns profissionais renomados de machine learning ainda comparem os “neurônios” dos Transformers a neurônios biológicos reais
Neurônios reais dependem de spikes, gradientes iônicos, estruturas dendríticas complexas e plasticidade sináptica governada por processos bioquímicos sofisticados
Esses são elementos que não existem nas camadas lineares simples e diferenciáveis e nas não linearidades ponto a ponto dos Transformers
Fico curioso se há neurocientistas ou biólogos confiáveis que apoiem essa comparação, ou se é uma metáfora mantida apenas pela convenção da comunidade de machine learning
- É preciso lembrar o que havia antes de 2012. Eram coisas como SVMs e random forests, que não se pareciam em nada com o cérebro
  Redes neurais são antigas, mas 2012 foi o início da revolução do deep learning
  Visto por esse critério, cérebro e redes neurais são ambos tipos de conexionismo com propriedades semelhantes, e faz bastante sentido compará-los e se inspirar em um para aplicar ao outro
- Não é preciso simular todos os átomos de um planeta para prever sua órbita
  Neurônios matemáticos podem funcionar de modo completamente diferente e ainda assim ter uma função semelhante à dos neurônios reais
- É tão diferente assim de chamar uma estrutura de dados com nós pais e nós filhos de árvore?
- Pelas respostas, parece que a resposta à pergunta simples é algo próximo de “não”
  Eu também tenho curiosidade se houve uma comparação séria e, se houve, gostaria de ler
- Não estou tentando defender a falta de ressalvas suficientes na apresentação, mas acho que o velho ditado “todos os modelos estão errados, mas alguns são úteis” se aplica aqui
Muito do conhecimento do mundo está trancado de modo que só pode ser aberto por meio de experimentos empíricos, e a computação só pode ajudar de forma prática a tornar esses experimentos mais eficientes
Para certas intervenções, é preciso realmente conduzir ensaios clínicos randomizados, e isso exige tempo e átomos do mundo real
A apresentação inteira é interessante: https://www.youtube.com/watch?v=YD-9NG1Ke5Y
- No slide sobre a relação entre peso corporal e peso do cérebro, ele destacou a diferença de scaling da linhagem humana
  Mas o interessante é que o mesmo slide, no mesmo ponto, também mostrava um limite superior rígido para linhagens não humanas, e ele não mencionou essa parte
Há uma transcrição corrigida por LLM. Usei Gemini Flash 8B nas legendas originais do YouTube: https://www.appblit.com/scribe?v=YD-9NG1Ke5Y#0
- Fico curioso para saber como você impediu o Gemini de simplesmente engolir o texto com o passar do tempo
  Correção de transcrição de áudio é uma área em que era difícil obter bons resultados com qualquer LLM se você não recortasse em trechos de no máximo uma ou duas páginas
  Também fico curioso se você usou alguma ferramenta separada

Palestra de Ilya Sutskever na NeurIPS: retrospectiva de 10 anos do seq2seq [vídeo]

Revisitando, 10 anos depois, o artigo seq2seq de 2014

Ideias centrais e implementação da época

Scaling, conexionismo e a era do pré-treinamento

Direções após o pré-treinamento

Superinteligência, raciocínio e sistemas qualitativamente diferentes

Pontos levantados na sessão de perguntas e respostas

Leituras relacionadas

1 comentários

Opiniões no Hacker News