Coautor do artigo "Attention Is All You Need" diz que agora está "de saco cheio" dos transformers
(venturebeat.com)- Llion Jones, que co-desenvolveu a arquitetura Transformers e deu nome a ela, afirmou que “a pesquisa em IA ficou excessivamente estreita” e que vai se afastar do paradigma centrado em transformers
- Fez uma autocrítica ao dizer que os transformers, tecnologia base dos principais sistemas de IA como ChatGPT e Claude, podem na verdade estar atrapalhando a próxima geração de inovação
- Alertou que só temas seguros estão sendo escolhidos e a criatividade desapareceu, dizendo que estamos “mais inclinados à exploração de valor existente (exploitation) do que à exploração de novas possibilidades (exploration)”, e que a indústria de IA pode estar deixando passar inovações maiores
- Criticou que, quando o artigo dos transformers surgiu, havia um ambiente livre para experimentação, mas hoje nem salários altíssimos garantem liberdade de pesquisa
- Ele quer recriar na Sakana AI uma cultura de pesquisa voltada à exploração livre e enfatiza que “a próxima inovação do nível dos transformers pode estar logo ao lado”
A autocrítica do criador dos transformers e uma nova declaração
- Llion Jones, coautor do artigo de 2017 "Attention Is All You Need" e a pessoa que cunhou diretamente o nome transformer, criticou duramente na conferência TED AI em San Francisco o problema da padronização na pesquisa em IA
- Uma fala rara de um autor de um artigo histórico com mais de 100 mil citações, que declarou publicamente estar “de saco cheio” da própria criação
- Atualmente, ele é CTO e cofundador da Sakana AI, sediada em Tóquio
- Apontou que “a pesquisa em IA está presa a uma única estrutura” e disse que está dedicando menos tempo à pesquisa com transformers e explorando novas arquiteturas
- Enfatizou que “há mais talento e dinheiro do que nunca no campo da IA, mas a pesquisa ficou mais estreita”
- Explicou que isso se deve à pressão por retorno dos investidores e à concorrência excessiva, levando pesquisadores a perder criatividade e a viver num ambiente em que precisam “publicar artigos às pressas”
O paradoxo de mais recursos, mas menos criatividade
- Hoje, pesquisadores de IA precisam partir do princípio de que 3 ou 4 grupos estão trabalhando ao mesmo tempo no mesmo tema, verificando constantemente se outro time já “tomou a frente”
- Pesquisadores acadêmicos estão cada vez mais inclinados a escolher temas seguros para publicar, em vez de projetos arriscados, porém inovadores
- A pressão competitiva faz com que artigos sejam enviados às pressas, prejudicando o rigor científico e reduzindo a criatividade
- Pesquisadores estão inclinados ao "exploitation" (aproveitamento) e negligenciando o "exploration" (exploração)
- Aplicando o conceito de trade-off entre exploração e aproveitamento dos algoritmos de IA, é possível que a indústria esteja presa a um ótimo local medíocre devido ao excesso de aproveitamento, deixando escapar alternativas melhores
- Assim como antes do surgimento dos transformers os pesquisadores estavam focados em melhorias incrementais de redes neurais recorrentes (RNN), hoje também há o risco de se perder uma inovação iminente ao focar apenas em variações de uma única arquitetura
“Se os pesquisadores da era pré-transformer soubessem que a próxima inovação estava para chegar, não teriam desperdiçado tanto tempo”
O contexto em que os transformers nasceram: inovação criada pela liberdade
- Jones relembrou que a pesquisa que deu origem aos transformers começou em uma atmosfera livre, sem qualquer pressão de cima
- Disse que “foi uma ideia que começou em discussões no almoço ou rabiscos no quadro branco”
- A equipe não tinha uma ideia claramente definida, mas recebeu tempo e liberdade suficientes, sem qualquer pressão da gestão sobre projetos específicos ou métricas de resultado
- Não havia exigência de publicar um número específico de artigos nem pressão para melhorar indicadores
- Era possível explorar autonomamente por meio de experimentação e tentativa e erro
- Hoje, até pesquisadores contratados com salários anuais acima de US$ 1 milhão podem sentir a pressão de precisar provar seu valor, em vez de tentar ideias ousadas
“Eles escolhem pesquisa segura para provar que são talentos valiosos”
O experimento da Sakana AI: quando a liberdade vence a alta remuneração
- Jones está tentando recriar na Sakana AI o ambiente de pesquisa livre da era pré-transformer
- Busca pesquisas inspiradas na natureza
- Há pressão mínima para publicar artigos ou competir diretamente com rivais
- Compartilhou o conselho do engenheiro Brian Cheung: "você só deve fazer pesquisas que não aconteceriam se você não as fizesse"
- Como exemplo concreto, apresentou o projeto da "continuous thought machine"
- Uma pesquisa que integra mecanismos de sincronização do cérebro em redes neurais
- Comentou que, em um emprego anterior ou no meio acadêmico, o proponente provavelmente teria enfrentado ceticismo e pressão para não perder tempo com isso
- Na Sakana, recebeu uma semana de tempo para explorar, e o resultado acabou se tornando um caso de sucesso que chamou atenção na principal conferência NeurIPS
- Ele argumenta que um ambiente exploratório por si só pode ser uma poderosa ferramenta de contratação de talentos
- Pessoas talentosas e ambiciosas naturalmente procuram esse tipo de ambiente
O paradoxo do sucesso dos transformers: uma maturidade que bloqueia a inovação
- Ele disse que o sucesso dos transformers é “tão poderoso que acaba bloqueando novas inovações”
- Analisou que “quanto mais perfeita a tecnologia atual parecer, menor é a motivação para buscar algo melhor”
- Ainda assim, não rejeita a pesquisa com transformers em si e acrescenta que “ainda é possível gerar valor real”
- Porém, enfatizou que “considerando os enormes recursos e talentos atuais, poderíamos fazer uma exploração muito mais ampla”
- Sua conclusão foi a importância da colaboração e da exploração aberta
- “Temos que aumentar o nível de exploração com colaboração, não com competição. Só assim será possível haver progresso de verdade”
As implicações do ‘problema da exploração’ na indústria de IA
- O alerta de Jones está repercutindo fortemente neste momento em que se discute o limite da escalabilidade da IA e a necessidade de explorar novas arquiteturas
- Já se espalha no setor a percepção de que apenas escalar transformers está chegando ao limite
- Pesquisadores importantes começaram a discutir publicamente os limites fundamentais do paradigma atual
- Está se difundindo o entendimento de que, para sistemas de IA mais avançados, não basta apenas escala, sendo necessária também inovação arquitetural
- Com dezenas de bilhões de dólares por ano sendo investidos no desenvolvimento de IA e uma concorrência feroz entre laboratórios reforçando o sigilo e ciclos rápidos de publicação, a pesquisa livre e exploratória descrita por Jones está cada vez mais rara
- O motivo de a visão interna de Jones ter um peso especial
- Como alguém que criou diretamente a tecnologia que hoje domina o campo, ele entende bem as condições necessárias para descobertas inovadoras
- A decisão de se afastar voluntariamente dos transformers, tecnologia que construiu sua reputação, dá mais credibilidade à mensagem
- É um ponto crítico em que a próxima inovação do nível dos transformers pode ser descoberta por pesquisadores que tenham liberdade para explorar, ou pode continuar inexplorada enquanto milhares de pesquisadores disputam melhorias incrementais
- Em resumo, Jones, como uma das pessoas que mais estudou transformers por mais tempo, sabe melhor do que ninguém que chegou a hora de avançar para a próxima etapa
“Um avanço do nível dos transformers pode já estar ao nosso lado, apenas encoberto pela competição”
1 comentários
Comentários do Hacker News
Na minha visão, o transformer foi uma das invenções mais produtivas da história recente
Em apenas 8 anos desde que surgiu, em 2017, mudou completamente várias áreas e até contribuiu em parte para um Prêmio Nobel
Acho que a ideia essencialmente importante é o modelo gráfico probabilístico (probabilistic graphical model). A abordagem de combinar probabilidade com sequências, árvores e grafos continuará tendo muito valor para pesquisa
O transformer já é um aproximador universal (universal approximator) extremamente bom. Talvez dê para melhorar um pouco, mas na prática é difícil encontrar algo mais “universal”
Em vez disso, acho que precisamos repensar o próprio auto-regressive task, cross entropy loss e gradient descent
Na minha área também houve impacto, mas, para ser sincero, esse impacto foi quase todo negativo
Mas ainda não vejo sinais disso. Mesmo assim, ainda tenho esperança
Ainda não organizei isso em um artigo, mas vejo movimentos convergindo para essa ideia em vários lugares
Queria que o dia tivesse mais horas
Jones, cofundador e CTO da Sakana AI, disse que está deixando os transformers de lado para buscar “a próxima grande coisa”, mas sinceramente isso soa como divulgação para atrair investimento
Falando em tom de piada, eu achei que a singularidade (singularity) chegaria em 2024, mas parece que parou por causa do intervalo entre “monetização” e “autoaperfeiçoamento”
Acho que vamos ficar mais uns 20 anos espremendo dinheiro dos modelos transformer
Como ela não é exclusiva para transformers, isso pode até criar incentivo para buscar novas arquiteturas que aproveitem essa infraestrutura ao máximo
Só não é rápido o bastante para os humanos perceberem
Para a maioria das pessoas, “IA” no fim das contas é um produto de software visível
Mas o modelo central é só uma parte disso, e o resto é refinado por milhares de trabalhadores mal remunerados via feedback humano
Na prática, é 90% desenvolvimento de produto e só 10% pesquisa em ML
A maior parte dos artigos é pesquisa de carreira para conseguir um doutorado, e só uma minoria é pesquisa realmente experimental
O transformer foi projetado de forma tão compatível com GPUs que, para criar um modelo novo, seria preciso convencer até os fabricantes de hardware
No fim, é necessária uma evolução simultânea de hardware e software
Mudanças fundamentais devem acontecer em escala de décadas
Algoritmos paralelizáveis são intrinsecamente superiores, por isso as GPUs evoluíram nessa direção
RNNs são sequenciais e difíceis de paralelizar, mas os transformers removeram esse gargalo
Tenho a impressão de que a pesquisa não baseada em transformers ainda continua ativa
Só parece menos visível porque o dinheiro está indo para CRM em formato de chatbot
Não acho que uma nova arquitetura seja a resposta. O mais importante é aumentar a eficiência de dados
Ilya Sutskever também enfatizou “métodos de treinamento que funcionem mesmo sem a internet inteira”
Se quisermos aprender como humanos, isso precisa ser diferente de simplesmente alimentar modelos com dados da internet
O número de pesquisadores aumentou, mas a proporção de pesquisa não-transformer provavelmente caiu
Teve uma piada dizendo que a quantidade de em dashes (—) no final era tão grande que parecia texto escrito por transformer
Os transformers sugaram toda a atenção e todo o financiamento
Os pesquisadores também foram absorvidos pela indústria dos transformers
Acho que isso vai continuar até bater em um grande limite
Espero que o consumo de energia vire o limite real e mude a direção da pesquisa
A xAI resolveu a energia instalando turbinas a gás ao redor do datacenter, mas isso causou problemas de saúde para os moradores da região
Acho que esse tipo de abordagem logo será regulado
As pessoas tendem a ficar obcecadas demais com inovação em nova arquitetura de modelos
No fim, modelos são apenas ferramentas para criar representações comprimidas de dados
Mesmo que a compressão fique mais eficiente, as capacidades não mudam tanto assim
O mais importante é melhorar a eficiência do treinamento. Hoje em dia, reinforcement learning (RL) é um exemplo disso
Explorar novas estruturas não é obsessão exagerada, e sim uma forma de equilibrar exploração e aproveitamento
Acho que a estrutura industrial centrada em transformers talvez tenha sido moldada pela conveniência computacional de GPU/NPU
Pode até existir uma tecnologia de IA melhor, mas no hardware atual o custo computacional pode ser alto demais
Nosso cérebro não usa 500 watts, então talvez isso seja uma pista