11 pontos por GN⁺ 2025-10-25 | 1 comentários | Compartilhar no WhatsApp
  • Llion Jones, que co-desenvolveu a arquitetura Transformers e deu nome a ela, afirmou que “a pesquisa em IA ficou excessivamente estreita” e que vai se afastar do paradigma centrado em transformers
  • Fez uma autocrítica ao dizer que os transformers, tecnologia base dos principais sistemas de IA como ChatGPT e Claude, podem na verdade estar atrapalhando a próxima geração de inovação
  • Alertou que só temas seguros estão sendo escolhidos e a criatividade desapareceu, dizendo que estamos “mais inclinados à exploração de valor existente (exploitation) do que à exploração de novas possibilidades (exploration)”, e que a indústria de IA pode estar deixando passar inovações maiores
  • Criticou que, quando o artigo dos transformers surgiu, havia um ambiente livre para experimentação, mas hoje nem salários altíssimos garantem liberdade de pesquisa
  • Ele quer recriar na Sakana AI uma cultura de pesquisa voltada à exploração livre e enfatiza que “a próxima inovação do nível dos transformers pode estar logo ao lado”

A autocrítica do criador dos transformers e uma nova declaração

  • Llion Jones, coautor do artigo de 2017 "Attention Is All You Need" e a pessoa que cunhou diretamente o nome transformer, criticou duramente na conferência TED AI em San Francisco o problema da padronização na pesquisa em IA
  • Uma fala rara de um autor de um artigo histórico com mais de 100 mil citações, que declarou publicamente estar “de saco cheio” da própria criação
  • Atualmente, ele é CTO e cofundador da Sakana AI, sediada em Tóquio
    • Apontou que “a pesquisa em IA está presa a uma única estrutura” e disse que está dedicando menos tempo à pesquisa com transformers e explorando novas arquiteturas
    • Enfatizou que “há mais talento e dinheiro do que nunca no campo da IA, mas a pesquisa ficou mais estreita”
    • Explicou que isso se deve à pressão por retorno dos investidores e à concorrência excessiva, levando pesquisadores a perder criatividade e a viver num ambiente em que precisam “publicar artigos às pressas”

O paradoxo de mais recursos, mas menos criatividade

  • Hoje, pesquisadores de IA precisam partir do princípio de que 3 ou 4 grupos estão trabalhando ao mesmo tempo no mesmo tema, verificando constantemente se outro time já “tomou a frente”
  • Pesquisadores acadêmicos estão cada vez mais inclinados a escolher temas seguros para publicar, em vez de projetos arriscados, porém inovadores
    • A pressão competitiva faz com que artigos sejam enviados às pressas, prejudicando o rigor científico e reduzindo a criatividade
    • Pesquisadores estão inclinados ao "exploitation" (aproveitamento) e negligenciando o "exploration" (exploração)
  • Aplicando o conceito de trade-off entre exploração e aproveitamento dos algoritmos de IA, é possível que a indústria esteja presa a um ótimo local medíocre devido ao excesso de aproveitamento, deixando escapar alternativas melhores
  • Assim como antes do surgimento dos transformers os pesquisadores estavam focados em melhorias incrementais de redes neurais recorrentes (RNN), hoje também há o risco de se perder uma inovação iminente ao focar apenas em variações de uma única arquitetura

“Se os pesquisadores da era pré-transformer soubessem que a próxima inovação estava para chegar, não teriam desperdiçado tanto tempo”

O contexto em que os transformers nasceram: inovação criada pela liberdade

  • Jones relembrou que a pesquisa que deu origem aos transformers começou em uma atmosfera livre, sem qualquer pressão de cima
    • Disse que “foi uma ideia que começou em discussões no almoço ou rabiscos no quadro branco”
  • A equipe não tinha uma ideia claramente definida, mas recebeu tempo e liberdade suficientes, sem qualquer pressão da gestão sobre projetos específicos ou métricas de resultado
    • Não havia exigência de publicar um número específico de artigos nem pressão para melhorar indicadores
    • Era possível explorar autonomamente por meio de experimentação e tentativa e erro
  • Hoje, até pesquisadores contratados com salários anuais acima de US$ 1 milhão podem sentir a pressão de precisar provar seu valor, em vez de tentar ideias ousadas

“Eles escolhem pesquisa segura para provar que são talentos valiosos”

O experimento da Sakana AI: quando a liberdade vence a alta remuneração

  • Jones está tentando recriar na Sakana AI o ambiente de pesquisa livre da era pré-transformer
    • Busca pesquisas inspiradas na natureza
    • Há pressão mínima para publicar artigos ou competir diretamente com rivais
  • Compartilhou o conselho do engenheiro Brian Cheung: "você só deve fazer pesquisas que não aconteceriam se você não as fizesse"
  • Como exemplo concreto, apresentou o projeto da "continuous thought machine"
    • Uma pesquisa que integra mecanismos de sincronização do cérebro em redes neurais
    • Comentou que, em um emprego anterior ou no meio acadêmico, o proponente provavelmente teria enfrentado ceticismo e pressão para não perder tempo com isso
    • Na Sakana, recebeu uma semana de tempo para explorar, e o resultado acabou se tornando um caso de sucesso que chamou atenção na principal conferência NeurIPS
  • Ele argumenta que um ambiente exploratório por si só pode ser uma poderosa ferramenta de contratação de talentos
    • Pessoas talentosas e ambiciosas naturalmente procuram esse tipo de ambiente

O paradoxo do sucesso dos transformers: uma maturidade que bloqueia a inovação

  • Ele disse que o sucesso dos transformers é “tão poderoso que acaba bloqueando novas inovações
  • Analisou que “quanto mais perfeita a tecnologia atual parecer, menor é a motivação para buscar algo melhor”
  • Ainda assim, não rejeita a pesquisa com transformers em si e acrescenta que “ainda é possível gerar valor real”
  • Porém, enfatizou que “considerando os enormes recursos e talentos atuais, poderíamos fazer uma exploração muito mais ampla”
  • Sua conclusão foi a importância da colaboração e da exploração aberta
    • “Temos que aumentar o nível de exploração com colaboração, não com competição. Só assim será possível haver progresso de verdade”

As implicações do ‘problema da exploração’ na indústria de IA

  • O alerta de Jones está repercutindo fortemente neste momento em que se discute o limite da escalabilidade da IA e a necessidade de explorar novas arquiteturas
  • Já se espalha no setor a percepção de que apenas escalar transformers está chegando ao limite
  • Pesquisadores importantes começaram a discutir publicamente os limites fundamentais do paradigma atual
    • Está se difundindo o entendimento de que, para sistemas de IA mais avançados, não basta apenas escala, sendo necessária também inovação arquitetural
  • Com dezenas de bilhões de dólares por ano sendo investidos no desenvolvimento de IA e uma concorrência feroz entre laboratórios reforçando o sigilo e ciclos rápidos de publicação, a pesquisa livre e exploratória descrita por Jones está cada vez mais rara
  • O motivo de a visão interna de Jones ter um peso especial
    • Como alguém que criou diretamente a tecnologia que hoje domina o campo, ele entende bem as condições necessárias para descobertas inovadoras
    • A decisão de se afastar voluntariamente dos transformers, tecnologia que construiu sua reputação, dá mais credibilidade à mensagem
  • É um ponto crítico em que a próxima inovação do nível dos transformers pode ser descoberta por pesquisadores que tenham liberdade para explorar, ou pode continuar inexplorada enquanto milhares de pesquisadores disputam melhorias incrementais
  • Em resumo, Jones, como uma das pessoas que mais estudou transformers por mais tempo, sabe melhor do que ninguém que chegou a hora de avançar para a próxima etapa

“Um avanço do nível dos transformers pode já estar ao nosso lado, apenas encoberto pela competição”

1 comentários

 
GN⁺ 2025-10-25
Comentários do Hacker News
  • Na minha visão, o transformer foi uma das invenções mais produtivas da história recente
    Em apenas 8 anos desde que surgiu, em 2017, mudou completamente várias áreas e até contribuiu em parte para um Prêmio Nobel
    Acho que a ideia essencialmente importante é o modelo gráfico probabilístico (probabilistic graphical model). A abordagem de combinar probabilidade com sequências, árvores e grafos continuará tendo muito valor para pesquisa

    • Sinceramente, não acho que vá surgir um grande avanço na arquitetura em si
      O transformer já é um aproximador universal (universal approximator) extremamente bom. Talvez dê para melhorar um pouco, mas na prática é difícil encontrar algo mais “universal”
      Em vez disso, acho que precisamos repensar o próprio auto-regressive task, cross entropy loss e gradient descent
    • Fico curioso sobre quais áreas teriam mudado completamente
      Na minha área também houve impacto, mas, para ser sincero, esse impacto foi quase todo negativo
    • Como alguém que usou muito modelos gráficos probabilísticos no passado, espero que minha experiência volte a ser útil na era dos transformers
      Mas ainda não vejo sinais disso. Mesmo assim, ainda tenho esperança
    • Eu também, pessoalmente, tenho um modelo probabilístico de hipergrafo em mente
      Ainda não organizei isso em um artigo, mas vejo movimentos convergindo para essa ideia em vários lugares
      Queria que o dia tivesse mais horas
    • Concordo. Acho que inferência causal (causal inference) e raciocínio simbólico (symbolic reasoning) são justamente o verdadeiro desafio depois dos transformers
  • Jones, cofundador e CTO da Sakana AI, disse que está deixando os transformers de lado para buscar “a próxima grande coisa”, mas sinceramente isso soa como divulgação para atrair investimento

    • “Attention is all he needs” combina perfeitamente
    • Ainda assim, se ele quer fazer algo novo, precisa de dinheiro, então as duas coisas podem ser verdade
    • Cientistas, por natureza, vivem procurando algo novo e criativo
    • De qualquer forma, acabamos dando attention às palavras dele
    • Mas, afinal, fico me perguntando o que exatamente eles estão tentando vender agora
  • Falando em tom de piada, eu achei que a singularidade (singularity) chegaria em 2024, mas parece que parou por causa do intervalo entre “monetização” e “autoaperfeiçoamento”
    Acho que vamos ficar mais uns 20 anos espremendo dinheiro dos modelos transformer

    • Neste momento, a infraestrutura de hardware e energia está se expandindo enormemente
      Como ela não é exclusiva para transformers, isso pode até criar incentivo para buscar novas arquiteturas que aproveitem essa infraestrutura ao máximo
    • Talvez o autoaperfeiçoamento recursivo (recursive self-improvement) já esteja acontecendo
      Só não é rápido o bastante para os humanos perceberem
  • Para a maioria das pessoas, “IA” no fim das contas é um produto de software visível
    Mas o modelo central é só uma parte disso, e o resto é refinado por milhares de trabalhadores mal remunerados via feedback humano
    Na prática, é 90% desenvolvimento de produto e só 10% pesquisa em ML
    A maior parte dos artigos é pesquisa de carreira para conseguir um doutorado, e só uma minoria é pesquisa realmente experimental

  • O transformer foi projetado de forma tão compatível com GPUs que, para criar um modelo novo, seria preciso convencer até os fabricantes de hardware
    No fim, é necessária uma evolução simultânea de hardware e software
    Mudanças fundamentais devem acontecer em escala de décadas

    • Mas isso é pensar ao contrário
      Algoritmos paralelizáveis são intrinsecamente superiores, por isso as GPUs evoluíram nessa direção
      RNNs são sequenciais e difíceis de paralelizar, mas os transformers removeram esse gargalo
  • Tenho a impressão de que a pesquisa não baseada em transformers ainda continua ativa
    Só parece menos visível porque o dinheiro está indo para CRM em formato de chatbot
    Não acho que uma nova arquitetura seja a resposta. O mais importante é aumentar a eficiência de dados
    Ilya Sutskever também enfatizou “métodos de treinamento que funcionem mesmo sem a internet inteira”

    • O que o artigo diz não é que “uma nova arquitetura é a resposta”, mas que o equilíbrio entre exploração e exploração do que já funciona se quebrou
    • Na verdade, a discussão sobre nova arquitetura é uma discussão sobre AGI
      Se quisermos aprender como humanos, isso precisa ser diferente de simplesmente alimentar modelos com dados da internet
    • A maioria dos pesquisadores de antes de 2017 agora está focada em transformers
      O número de pesquisadores aumentou, mas a proporção de pesquisa não-transformer provavelmente caiu
  • Teve uma piada dizendo que a quantidade de em dashes (—) no final era tão grande que parecia texto escrito por transformer

    • A próxima moda em IA talvez sejam os “disrupters
  • Os transformers sugaram toda a atenção e todo o financiamento
    Os pesquisadores também foram absorvidos pela indústria dos transformers
    Acho que isso vai continuar até bater em um grande limite
    Espero que o consumo de energia vire o limite real e mude a direção da pesquisa

    • Na prática, energia pode mesmo virar o gargalo em breve
      A xAI resolveu a energia instalando turbinas a gás ao redor do datacenter, mas isso causou problemas de saúde para os moradores da região
      Acho que esse tipo de abordagem logo será regulado
  • As pessoas tendem a ficar obcecadas demais com inovação em nova arquitetura de modelos
    No fim, modelos são apenas ferramentas para criar representações comprimidas de dados
    Mesmo que a compressão fique mais eficiente, as capacidades não mudam tanto assim
    O mais importante é melhorar a eficiência do treinamento. Hoje em dia, reinforcement learning (RL) é um exemplo disso

    • Mas a eficiência do treinamento no fim está ligada à arquitetura
      Explorar novas estruturas não é obsessão exagerada, e sim uma forma de equilibrar exploração e aproveitamento
  • Acho que a estrutura industrial centrada em transformers talvez tenha sido moldada pela conveniência computacional de GPU/NPU
    Pode até existir uma tecnologia de IA melhor, mas no hardware atual o custo computacional pode ser alto demais
    Nosso cérebro não usa 500 watts, então talvez isso seja uma pista