Os funcionários do Google que criaram o transformer

(wired.com)

2 pontos por GN⁺ 2024-03-21 | 1 comentários | Compartilhar no WhatsApp

Em 2017, “Attention Is All You Need”, de oito pesquisadores do Google, deslocou o processamento de linguagem de modelos sequenciais para a arquitetura transformer, tornando-se a base da IA generativa
Jakob Uszkoreit percebeu que LSTMs tendem a perder pistas de contexto no fim de textos longos e defendeu como alternativa o self-attention, que consulta a frase inteira de uma vez
Com a entrada de Illia Polosukhin, Ashish Vaswani, Niki Parmar, Llion Jones, Łukasz Kaiser, Aidan Gomez e Noam Shazeer, os experimentos de tradução ganharam escala, e após a implementação de Shazeer o modelo Big quebrou o recorde em tradução de inglês para alemão
O artigo foi submetido em 19 de maio de 2017, pouco antes do prazo da NeurIPS, recebeu avaliações divergentes e chamou muita atenção na sessão de pôsteres em dezembro; o Google registrou uma patente provisória com objetivo defensivo
Os oito autores já deixaram o Google, e empresas como Character AI, Sakana AI, Essential AI, Cohere e Inceptive, com exceção da Near, cresceram com base na tecnologia transformer

A virada criada por “Attention Is All You Need”

“Attention Is All You Need” é um artigo escrito por pesquisadores do Google na primavera de 2017
- Os oito autores colocaram um asterisco em cada nome e incluíram as notas “Equal contributor” e “Listing order is random” para não definir uma ordem de contribuição
O artigo expandiu a IA baseada em neural networks com a arquitetura transformer, que se tornou a estrutura central de produtos de IA generativa como ChatGPT, Dall-E e Midjourney
Geoffrey Hinton avaliou que, sem o transformer, não teríamos chegado à situação atual
- Referia-se ao movimento em que OpenAI e outras empresas constroem sistemas que competem com a produção humana ou, em alguns casos, a superam
Os oito autores do artigo já deixaram o Google e hoje trabalham em coisas relacionadas a sistemas movidos pela arquitetura criada em 2017

O ponto de partida da ideia de self-attention

O ponto de partida do transformer foi a concepção de self-attention de Jakob Uszkoreit
- Ele trabalhava no grupo do Google Tradutor e, em 2012, entrou para uma equipe que criava sistemas capazes de responder diretamente às perguntas dos usuários na página de busca do Google
- Na época, o Google via o Siri, da Apple, como uma possível ameaça ao tráfego de busca e passou a dar mais atenção a essa área
Naquele momento, os modelos de linguagem dependiam de recurrent neural networks e LSTM, mas tinham limitações para lidar com textos longos
- Na frase de exemplo Joe is a baseball player... got two hits, para entender “two hits” é preciso lembrar a informação anterior sobre beisebol
- O LSTM permitia tratar sequências de texto maiores e mais complexas, mas ainda processava as palavras em ordem e podia perder pistas de contexto que apareciam mais adiante
Uszkoreit concebeu o self-attention por volta de 2014
- O self-attention permite consultar todas as outras posições da frase ao traduzir uma palavra
- Em vez de olhar palavra por palavra de forma sequencial, trata-se de uma abordagem paralela, que observa várias entradas juntas e combinava bem com os chips de processamento paralelo produzidos em massa no boom do machine learning
Como era uma abordagem que descartava a arquitetura neural existente, a reação foi cética
- Até o pai de Uszkoreit, Hans Uszkoreit, não compartilhava da mesma visão nas conversas à mesa de jantar
- Uszkoreit fez pequenos experimentos de texto com colegas e publicou um artigo em 2016, mas os colaboradores existentes se interessaram mais em aplicar isso à busca e à publicidade do Google

A entrada por acaso e a formação da equipe “transformer”

Em 2016, Uszkoreit almoçava com Illia Polosukhin no café do Google quando propôs o self-attention
- Polosukhin via a necessidade de um sistema barato, de alto desempenho e com resposta em milissegundos para responder diretamente no Google.com
- Ele colaborava com Ashish Vaswani, e Vaswani, que buscava um grande projeto no Google Brain, juntou-se à ideia de self-attention
Os três criaram um documento de design chamado “Transformers: Iterative Self-Attention and Processing for Various Tasks”
- O nome “transformers” foi usado desde o início e carregava a ideia de um mecanismo que transforma a informação de entrada para extrair uma compreensão comparável à humana, ou ao menos passar essa impressão
- Uszkoreit também associava o nome às lembranças de infância brincando com os brinquedos Transformers da Hasbro
Depois, Niki Parmar e Llion Jones se juntaram
- Parmar entrou no Google após concluir o mestrado na USC e trabalhou com Uszkoreit em variações de modelo para melhorar a busca do Google
- Jones estava no Google Research sob a gestão de Polosukhin e entrou para a equipe transformer após ouvir sobre o conceito de self-attention com o colega Mat Kelcey
Łukasz Kaiser, do Google Brain, e o estagiário Aidan Gomez também participaram
- Gomez entrou em um grupo de machine learning da University of Toronto, onde ficava o laboratório de Geoffrey Hinton, e conseguiu a oportunidade de estágio ao enviar a Kaiser uma ideia de expansão de um artigo relacionado
- Kaiser e Gomez discutiram se deveriam unir o projeto deles ao projeto de self-attention e decidiram seguir juntos

Experimentos que quebraram recordes e envio no limite do prazo

A equipe aplicou o modelo de self-attention à tradução automática e mediu o desempenho pelo benchmark BLEU
- Os modelos iniciais ficavam em nível parecido com as alternativas baseadas em LSTM, mas não eram melhores
- A qualidade da implementação subiu bastante quando Noam Shazeer soube do projeto por acaso e entrou na equipe
Shazeer reimplementou diretamente o código da equipe transformer
- Ele já se incomodava com as recurrent neural networks existentes e participou com a ideia de substituí-las
- Os colegas descreviam sua implementação com palavras como “magic”, “alchemy” e “bells and whistles”, e Uszkoreit via nisso a prova de que mecanismos intuitivos como self-attention precisam de poucos implementadores muito experientes para ganhar vida
Com a aproximação do prazo de submissão da NeurIPS em 19 de maio de 2017, o ritmo dos experimentos acelerou
- A equipe testou um modelo transformer básico treinado por 12 horas e um modelo Big mais potente treinado por três dias e meio
- Em tradução de inglês para alemão, o modelo básico superou todos os concorrentes, e o Big obteve uma pontuação BLEU que quebrou com folga o recorde anterior, além de ser mais eficiente computacionalmente
Nas duas semanas anteriores ao prazo, a equipe trabalhou intensamente no Building 1965
- Por meio de ablation, eles removiam e substituíam módulos e técnicas para verificar o que realmente era necessário
- Ao corrigir bugs, como problemas causados por masking incorreto, os componentes atuais do transformer foram sendo definidos no ritmo rápido das iterações experimentais
O título foi sugerido por Llion Jones, lembrando “All You Need Is Love”, dos Beatles: “Attention Is All You Need”
- Os resultados de inglês para francês saíram cinco minutos antes da submissão, e o artigo foi enviado faltando dois minutos para o prazo
- O Google correu para registrar uma patente provisória como parte de um portfólio de patentes com finalidade defensiva

Google, OpenAI e os caminhos dos oito depois disso

As avaliações da NeurIPS foram divididas entre uma positiva, uma muito positiva e uma de nível “ok”, e o artigo foi aceito para a sessão noturna de pôsteres
- Em 6 de dezembro de 2017, a sessão de quatro horas ficou lotada de cientistas querendo saber mais
- Mesmo às 22h30, horário de encerramento, ainda havia gente no local, e os seguranças precisaram pedir que saíssem
- Para Uszkoreit, foi especialmente gratificante ver Sepp Hochreiter, co-inventor do LSTM, aparecer e elogiar o trabalho
O transformer não dominou imediatamente o Google nem o mundo
- Perto da publicação do artigo, Shazeer sugeriu à liderança do Google descartar todo o índice de busca e treinar uma rede gigantesca baseada em transformer
- Até Kaiser considerou a proposta absurda na época
- A OpenAI se moveu mais rápido, e o primeiro produto GPT surgiu depois que Ilya Sutskever sugeriu a Alec Radford que trabalhasse nessa ideia
O Google começou a integrar transformers aos produtos a partir de 2018
- A primeira aplicação foi na ferramenta de tradução
- No mesmo ano, lançou o modelo de linguagem BERT, baseado em transformer, e no ano seguinte começou a aplicá-lo à busca
- Sobre não ter lançado primeiro um grande modelo de linguagem como o ChatGPT, Sundar Pichai disse que o Google pôde fazer mais depois que outras empresas mostraram como isso funcionava
Os oito autores do artigo já deixaram o Google
- Noam Shazeer foi cofundador da Character AI, estimada em US$ 5 bilhões
- Llion Jones foi cofundador da Sakana AI, sediada em Tóquio e avaliada em US$ 200 milhões
- A Inceptive, de Jakob Uszkoreit, é uma empresa de biotecnologia avaliada em US$ 300 milhões
- A Near, de Illia Polosukhin, criou uma blockchain cujo token tem cerca de US$ 4 bilhões em valor de mercado
- Niki Parmar e Ashish Vaswani lançaram a Adept em 2021, depois fundaram a Essential AI, que recebeu investimento de US$ 8 milhões
- Aidan Gomez cofundou a Cohere em Toronto em 2019, hoje estimada em US$ 2,2 bilhões
- Łukasz Kaiser não fundou empresa; entrou na OpenAI e é um dos inventores de uma nova tecnologia chamada Q*
Com exceção da Near, as empresas ligadas a esses autores se baseiam em tecnologia transformer
- O Google criou um ambiente onde era possível perseguir ideias não convencionais, e todos os autores trabalhavam no mesmo escritório
- Encontros no corredor e conversas no almoço foram gatilhos importantes
- Seis dos oito nasceram fora dos Estados Unidos, e os outros dois também tinham trajetórias marcadas pela imigração: um nasceu na Califórnia enquanto os pais alemães passavam um período lá, e o outro é um americano de primeira geração de uma família que fugiu de perseguição
- Uszkoreit acredita que inovação acontece quando as condições certas, as pessoas certas no momento certo, a diversão, o problema certo e a sorte se alinham

1 comentários

GN⁺ 2024-03-21

Opiniões no Hacker News

Mais do que um modelo de atenção, a atenção já existia antes daqueles artigos
O que eles fizeram foi mais mostrar que, em um determinado contexto, aquilo por si só era suficiente para prever a próxima sequência de palavras. Em 2018, quando usei um framework parecido, surgiram comportamentos muito estranhos, mas interessantes, e tentei resolvê-los, mas, assim como outros grupos, não vi que aumentar a escala computacional sobre um algoritmo simples era o melhor caminho. É irritante dizer que um grupo descobriu e mudou a IA ignorando os outros. Esses pesquisadores merecem elogios, mas eles fizeram a IA moderna avançar de uma forma interessante, mais do que a inventaram. Ainda hoje há movimentos para voltar a abordagens mais determinísticas, modelos de mundo, memória, grafos e minimização de energia, e a IA generativa é divertida e nos ensinou muito, mas ainda não está escrito em artigo que simplesmente continuar colocando mais chips vai resolver AGI/SGI
- Esta é uma interpretação mesquinha demais e estranhamente depreciativa. Então talvez seja perfeita para o HN
  O estado da arte impressionante de hoje não existiria sem a arquitetura Transformer. Se o Transformer fosse apenas um passageiro sortudo beneficiado pela escala computacional, o aplicativo que abalou o mundo teria sido o ChatMLP ou o ChatCNN, não o ChatGPT. Mas não foi, e em 2024 ainda não há uma arquitetura competitiva em processamento de linguagem natural. O Transformer é uma ideia realmente profunda e impressionante, com propriedades excelentes, como paralelismo no treinamento. Em retrospecto, é fácil reduzir o GPT a algo majoritariamente derivado, e algum dia aplicaremos o mesmo revisionismo a algo como modelos de espaço de estados que substituírem os Transformers. É claro que o GPT foi construído sobre pesquisas anteriores e que outras abordagens também devem ser reconhecidas. Isso é ciência. Mas as pessoas que criaram os Transformers merecem os elogios, como neste artigo, e isso não diminui todos os outros. Essas 8 pessoas mudaram o mundo e merecem carinho de verdade
- A lição amarga de que é melhor aumentar a escala computacional em um algoritmo simples funcionou mais uma vez
  http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- Vejo que eles definitivamente mudaram a IA, mas não acho que isso signifique que inventaram a IA moderna
  Pessoalmente, acho que, para chegar mais perto da AGI, serão necessários tanto poder computacional quanto arquitetura de redes neurais
- Estudo neurociência, mas também tenho muito interesse em como a IA funciona
  Já li sobre as abordagens antigas, mas expressões como grafos de memória ou minimização de energia são novas para mim. Gostaria de saber quais artigos ou textos recentes seriam recomendáveis para quem quer aprender mais
- Um artigo sobre “engenheiros do Google que aprimoraram a IA de forma incremental” provavelmente não teria vendido muitos anúncios
Por volta de 2014, no auge do Google, conversei com Uszkoreit sobre o papel da sua equipe de processamento de linguagem natural na época
Perguntei: “O que você faria se tivesse orçamento ilimitado?”, e ele simplesmente respondeu: “Já temos”
- Quando eu era estagiário de doutorado, dividia o escritório com Uszkoreit, e sempre achei muito legal o fato de ele ter abandonado o doutorado no meio
- Boa história, mas o auge do Google provavelmente foi cerca de 10 anos antes disso. Em 2014, a queda já havia começado
- Trabalhei no Borg
  O sistema de cotas pode entrar em ação a qualquer momento assim que se chega ao limite, e as GPUs ficam espalhadas por várias células Borg, então o teto é limitado. Por isso o XBorg foi criado, para permitir que pesquisadores fizessem buscas globais por todas as células Borg. O gasto de capital com datacenters é de cerca de US$ 5 bilhões por ano, e o Google fatura centenas de bilhões de dólares por ano. Perguntar sobre a situação impossível de um orçamento ilimitado é parecido com perguntar “o que você faria depois de morrer”. Depois de morrer, literalmente não dá para fazer nada. Nesse contexto, também foi difícil entender o que “já temos” significava, e esta foi a reação direta à hipótese de ter orçamento ilimitado
- Eram tempos divertidos. É bom rever isso depois de tanto tempo, e, pensando no que fazíamos naquela época, é surpreendente ver até onde a tecnologia chegou
“Realisticamente, poderíamos ter tido o GPT-3, e talvez até o GPT-3.5, em 2019 ou 2020. A grande pergunta não é se eles viram isso, mas por que vimos e não fizemos nada. A resposta é complicada”
A resposta é que empresas monopolistas sufocam a inovação tecnológica. Um negócio de busca baseado em anúncios e já estabelecido poderia perder receita de anúncios de busca por causa de chatbots emergentes. É parecido com um consórcio de propriedade de investidores que reúne concessionárias de energia, usinas a gás e produtores de gás de xisto. O braço de concessionária de energia iria querer instalar painéis solares em massa e cortar a receita de gás natural que era vendida às utilities? Claro que não. Isso é um bom argumento para aplicar à Alphabet uma cisão antitruste ao estilo Ma Bell
- Um exemplo melhor é a Kodak, que inventou a primeira câmera digital em 1975 e mesmo assim matou o projeto porque ele ameaçava o negócio de filme químico
- Eu conhecia os detalhes desse caso. Sundar impediu que a equipe NEMA, que havia criado um produto no nível do GPT-3 em formato de personagem, o apresentasse no I/O
  Sundar tinha medo da tecnologia e da reação do público, e tentou enterrá-la
- Por outro lado, o fato de a Alphabet não ter conseguido lançar o GPT-3 ou o GPT-3.5 criou a possibilidade de ela própria ser desestabilizada, então talvez medidas antitruste nem sejam necessárias
- Sinceramente, esse é um dos motivos pelos quais acho que, daqui a 10 anos, o Google não será uma empresa dominante
  Pesquisar informações na web resolvia muitas tarefas úteis, mas agora a maior parte disso é feita melhor pelo ChatGPT, Claude e afins. O Gemini existe, mas será que o Google conseguirá ganhar dinheiro algum dia com a busca do Gemini enquanto aceita perder receita de anúncios de busca dos produtos existentes? Como inserir anúncios em uma interface de grandes modelos de linguagem ainda não foi resolvido. O Google também parece um jornal antiquado da era da internet. O modelo de anúncios na web também levou tempo para se consolidar
É bem estranho que o Google não seja a OpenAI de hoje. Mesmo tendo, desde cedo, a DeepMind e um exército de doutores
- A forma de conversar com grandes modelos de linguagem perturba de maneira extrema o modelo de negócios do Google, e é difícil transformar isso em produto sem matar a galinha dos ovos de ouro
- No fim, vejo isso como prova de que timing é tudo
  O deep learning dos anos 2010 ainda estava descobrindo como aproveitar GPUs. A escala de computação necessária depois do GPT-2 teria sido quase impossível em 2017/2018. Mesmo nos cursos da Udacity, era coisa de usar uma GPU K80 por algumas horas. Só por volta de 2020 é que se tornou possível despejar uma quantidade absurda de recursos computacionais para testar a hipótese de escala. O surgimento dos grandes modelos de linguagem é também uma história do avanço das GPUs tanto quanto de algoritmos, e nisso é uma evidência clara da lição amarga
- É preciso explicar melhor o que seria a OpenAI de hoje. O Google é uma empresa de trilhões de dólares com vários negócios, e a OpenAI é uma empresa que vende acesso a grandes modelos generativos
- Para virar a OpenAI, o Google teria que cair bastante
- Antes da entrada da Microsoft, havia até certo ponto uma regra tácita na comunidade de IA: colaborar publicamente, mas não liberar determinados modelos ao público
Esta conversa entre Geoffrey Hinton e Fei-Fei Li cobre bastante da história relacionada. Tem 1h50 de duração
https://www.youtube.com/watch?v=QWWgr2rN45o
https://www.youtube.com/watch?v=E14IsFbAbpI
Ela aborda a trajetória de pesquisa de Hinton, por que ele seguiu naquela direção, e também o esforço de Li no ImageNet
“Os autores não eram apenas todos funcionários do Google; eles trabalhavam no mesmo escritório”
Parece uma propaganda sutil de retorno ao escritório. Uma combinação de colaboração presencial e tempo de concentração profunda sem interrupções provavelmente é a melhor tecnologia para inovação
- “Tempo de concentração profunda sem interrupções” normalmente é impossível em um escritório
  Então, na prática, é algo mais próximo de um modelo híbrido, e é isso que pessoas razoáveis costumam dizer
- Passei os últimos 2 anos trabalhando remotamente e voltei ao escritório em uma nova equipe; quando você realmente quer terminar algo rápido, a diferença muda a vida
- Nem é tão sutil assim
- “Escritório” não precisa significar necessariamente open office
  Há um motivo para acadêmicos terem salas individuais com porta. Detesto open office, mas uma sala individual dentro de um prédio com outras pessoas é excelente
“Seis dos oito nasceram fora dos EUA, e os outros dois são, respectivamente, filho de pais alemães residentes permanentes que estavam temporariamente na Califórnia e um americano de primeira geração de uma família que fugiu de perseguição”
Acho que há muita coisa que os EUA precisam corrigir, mas não existe outro país na Terra onde algo assim seja possível. Isso é um fato
- É difícil ver dessa forma. Na verdade, os EUA tornam a vida muito difícil até para imigrantes qualificados
  Há muitos países com proporção maior de residentes nascidos no exterior do que os EUA, como Singapura, Austrália, Alemanha e Canadá. Quando trabalhei no Google UK, minha equipe era composta 100% por engenheiros nascidos no exterior vindos de todos os continentes
- Concordo. Tendo vivido ou trabalhado na Ásia, na Europa e nos EUA, o grupo de colegas mais diverso sempre foi o dos EUA
É muito legal que funcionários do Google possam ver a primeira implementação de transformer e os comentários dos revisores em cs/
Há muitos momentos monumentais da história da IA preservados assim na intranet do Google
Este trecho chama a atenção
“Seis dos oito nasceram fora dos EUA, e os outros dois são, respectivamente, filho de pais alemães residentes permanentes que estavam temporariamente na Califórnia e um americano de primeira geração de uma família que fugiu de perseguição”
- O mais interessante é que apenas um deles fez graduação em uma universidade de elite dos EUA, a Duke
  Os demais vieram de graduações na Índia, Ucrânia, Alemanha e Canadá, e a University of Toronto tem taxa de aceitação de 43%
- Especialmente nos EUA, não entendo por que isso chamaria a atenção
  Poderia ser uma observação interessante se fosse em um país menos receptivo a imigrantes do que os EUA, como China ou Japão
- Exato. Essa é uma das características realmente admiráveis dos EUA, especialmente da California
  A razão de a California ser uma das maiores economias do mundo é que ela atrai e acolhe pessoas de praticamente todas as partes do planeta

Os funcionários do Google que criaram o transformer

A virada criada por “Attention Is All You Need”

O ponto de partida da ideia de self-attention

A entrada por acaso e a formação da equipe “transformer”

Experimentos que quebraram recordes e envio no limite do prazo

Google, OpenAI e os caminhos dos oito depois disso

Leituras relacionadas

1 comentários

Opiniões no Hacker News