10 pontos por GN⁺ 2025-07-01 | 1 comentários | Compartilhar no WhatsApp
  • Nos avanços recentes da IA, o ponto central tem sido a introdução de novos datasets mais do que novas ideias
  • A maioria dos grandes avanços surgiu ao aplicar tecnologias já existentes a novas fontes de dados
  • Mudanças nos dados têm mais impacto no desempenho dos modelos do que inovações na tecnologia de IA
  • As próximas mudanças de paradigma também devem ser possíveis quando forem aproveitadas novas fontes de dados, como YouTube e robôs
  • A maioria dos pesquisadores se concentra em novas metodologias, mas na prática os dados são o núcleo do progresso

O estado atual e o padrão de evolução da IA

  • A IA teve um avanço extraordinário nos últimos 15 anos, especialmente nos 5 mais recentes
  • Alguns pesquisadores afirmam que a IA está avançando de forma exponencial em sua capacidade de executar tarefas específicas, como se houvesse uma "Lei de Moore da IA"
  • Porém, na prática, grandes avanços não acontecem com frequência, e a estrutura real é de progresso lento, mas constante

De onde vem a inovação

  • Muita gente acredita que o avanço da IA vem de ideias surgidas na academia e na indústria, como MIT, Stanford e Google
  • De fato, a pesquisa continua produzindo inovações de sistema que reduzem o custo de treinamento dos modelos e melhoram a eficiência
    • Em 2022, o FlashAttention de Stanford otimizou o uso de memória
    • Em 2023, o speculative decoding do Google aumentou a velocidade de inferência
    • Em 2024, o projeto Muon apresentou uma nova abordagem de otimizador
    • Em 2025, o DeepSeek-R1 ofereceu em open source um modelo no nível dos principais laboratórios de IA
  • Pesquisadores compartilham rapidamente seus resultados em público via arXiv, conferências e redes sociais, o que impulsiona um experimento científico global e distribuído

Por que parece que a inovação em IA ficou mais lenta

  • Recentemente, os ganhos de desempenho dos modelos mais novos, como Grok 3 e GPT-4.5, diminuíram
  • Em avaliações práticas, como olimpíadas de matemática, os resultados foram fracos, levando a críticas de que houve exagero nas divulgações
  • Grandes mudanças de paradigma (deep learning, Transformers, RLHF, Reasoning) aparecem raramente, em intervalos de cerca de uma década

O traço comum dos grandes avanços: novos datasets

  • Os 4 principais avanços coincidem com momentos em que novas fontes de dados passaram a ser usadas em larga escala pela primeira vez
    • AlexNet: ImageNet (grande volume de dados de imagem rotulados)
    • Transformers: texto de toda a web (Internet)
    • RLHF: dados de "bom texto" avaliados por humanos
    • Reasoning: resultados de ferramentas externas de verificação, como calculadoras e compiladores
  • Depois que cada dataset foi introduzido em larga escala pela primeira vez, vieram a corrida por obter os dados restantes e o desenvolvimento de técnicas para usá-los de forma mais eficiente

Novas ideias vs. o papel dos dados

  • Mesmo sem uma arquitetura de modelo específica, se os mesmos dados forem fornecidos, é possível desenvolver modelos de nível semelhante
  • Na prática, trocar o dataset usado no treinamento tem mais impacto no desempenho do que a inovação técnica
    • Mesmo que outra estrutura tivesse surgido no lugar do AlexNet, o progresso teria sido possível porque existia o ImageNet
    • Mesmo sem o Transformer, LSTM, SSM etc. mostram desempenho semelhante com os mesmos dados
  • O dataset define o limite superior do resultado do treinamento, e isso não pode ser superado apenas com melhorias em modelos e algoritmos
  • Como enfatiza The Bitter Lesson, mais do que novos métodos, o que realmente importa no fim são os dados

Candidatos à próxima mudança de paradigma da IA

  • O próximo grande salto da IA provavelmente acontecerá não com uma nova network ou uma nova abordagem de RL, mas com o uso de novas fontes de dados ainda não exploradas
  • Em outras palavras, a mudança de paradigma tende a ocorrer quando novos datasets forem obtidos em larga escala
    • O candidato que mais chama atenção: dados de vídeo do YouTube e afins
      • No YouTube, são enviados 500 horas de vídeo por minuto
      • Esse material contém dezenas de vezes mais informação do que texto e permite aprender nuances linguísticas, além de contexto físico e cultural
      • Há grande chance de que big techs como o Google em breve passem a treinar seriamente com esse dataset
    • Outra possibilidade: coleta de dados do mundo físico por robôs (embodied system)
      • Quando houver infraestrutura para processar e treinar em larga escala, em GPUs, dados de câmeras e sensores, também é alta a chance de que isso se torne uma fonte de inovação em IA
  • Os dados de texto estão chegando ao limite, então novas fontes como vídeo e robôs provavelmente definirão o futuro da IA

Conclusão

  • O próximo avanço da IA virá não de novas ideias ou algoritmos, mas de novas fontes de dados
  • Embora 95% dos pesquisadores se concentrem em novas metodologias, a inovação real surge das mudanças nos datasets
  • Se queremos avanços em IA, devemos focar não em novas ideias, mas em garantir novos dados

1 comentários

 
GN⁺ 2025-07-01
Opiniões do Hacker News
  • Dizem que a forma como John Carmack explora o tema é bastante interessante
    Ele compartilhou a experiência de treinar um modelo para jogar extremamente bem jogos 2D e depois testar se ele conseguiria se sair bem em um jogo 2D nunca visto antes ou em fases novas
    Ao relatar que o desempenho do modelo caiu justamente em jogos sem experiência prévia, ele enfatiza que isso não é inteligência artificial, mas apenas proficiência em uma tarefa específica
    Afirma que, em vez de espalhar medo sobre superinteligência artificial (ASI), é muito mais difícil criar uma inteligência geral que aprenda um novo jogo 2D mais rápido do que um humano

    • Apontam que o modelo que John Carmack realmente usou para chegar a essa conclusão não era estado da arte, e sim um projeto mais voltado à diversão, sem usar um foundational model caro
      Comentam que, em uma pesquisa mais profunda de IA para vídeo/visão, seria mais adequado manipular um espaço latente probabilístico aplicável a jogos em geral
      Citam a capacidade do veo3 de gerar vídeo sob restrições de prompt como exemplo de que a IA pode generalizar jogos 2D e 3D
      Alegam que o veo3 poderia, na prática, mostrar resultados que parecem jogar razoavelmente qualquer jogo mesmo sem fine-tuning específico para um jogo em particular

    • Dizem que é difícil entender por que as pessoas insistem em conduzir a discussão dessa forma
      Há claramente várias maneiras de atingir um objetivo dado, e questionam por que o experimento de John Carmack estaria sendo tratado como padrão se ele nem é especialista em IA

    • Suspeitam que talvez o modelo tenha ficado grande demais e sofrido overfitting, isto é, ajustando-se apenas a um dataset específico
      Perguntam se impor restrições ao modelo poderia induzi-lo a aprender heurísticas mais gerais
      Enfatizam que, sem restrições, a IA acabaria apenas reproduzindo o melhor speedrun possível, enquanto heurísticas variadas são muito mais importantes quando ela encontra conteúdo novo

    • Esclarecem que o tema citado pertence à área de Meta-Reinforcement Learning
      Explorar esse campo como John Carmack está fazendo é significativo, mas não se trata de um tema de pesquisa totalmente novo
      Uma introdução simples a Meta-Reinforcement Learning

    • Dizem que a questão de o modelo ter ou não uma “inteligência de verdade” é um tema interessante para a academia que pensa em AGI, mas não é tão importante para muitos usuários que usam LLMs de forma prática
      Afirmam que não se preocupam se o progresso atual vai ou não levar à AGI
      Compartilham que, mesmo que tudo parasse no Claude 4, continuariam usando porque ainda seria útil
      Enfatizam que, em vez do debate sobre AGI, é muito mais interessante observar como as pessoas estão usando IA na prática hoje em dia

  • Dizem com convicção que estamos vivendo os primórdios da era da IA
    Explicam, como exemplo, que a IA avançou de forma impressionante em duas áreas: linguagem (LLM: GPT-4, Claude) e visão (CLIP, DALL·E)
    Apontam que os computadores já escrevem poesia e código, descrevem fotos e conversam em nível humano, mas na prática isso ainda é uma expansão de apenas duas modalidades: texto e imagem
    A inteligência humana tem uma característica multimodal, rica e entrelaçada, com tato, paladar, olfato, movimento, emoção e muitos outros sentidos
    LLMs e Vision Transformers quase não implementam esses elementos
    Enfatizam que a verdadeira fronteira da IA está no mundo sensorial complexo e rico da vida cotidiana
    Explicam que, para isso, serão necessários novos sensores, representações de dados que vão além de tokens e novas formas de treinar modelos com base em experiência

    • Respondem de forma educada à opinião de que linguagem e visão seriam apenas o ponto de partida da essência da inteligência artificial
      Dizem que tato é interessante, mas que, para praticamente toda interação online, áudio, vídeo e linguagem já bastam
      Explicam que a diferença decisiva entre humanos e animais não está nos “sentidos restantes”, mas em fala, imagem e linguagem
      Reconhecem que integrar tato, propriocepção e olfato é importante para agir no mundo real, mas sustentam a visão de que o núcleo da inteligência em si está na linguagem e na visão

    • Consideram que adaptabilidade orgânica e persistência da memória são as duas coisas que mais precisam evoluir
      Apontam que o cérebro humano muda sua estrutura dinamicamente, enquanto os LLMs são fixos e só “aprendem” depois de repetir o treinamento com as informações dadas
      Enfatizam que, para criar máquinas inteligentes, elas precisam ser capazes de aprender em tempo real e lembrar informações por conta própria

    • Há também a visão de que, com a arquitetura de IA que temos hoje, talvez linguagem e visão sejam o limite
      Observam que houve muitas notícias sobre LLMs nos últimos anos, mas quase nenhum grande avanço em outras áreas da IA

    • Enfatizam que o futuro do verdadeiro progresso em IA está numa existência, como a humana, rica em sentidos e ligada ao mundo físico
      Usam como analogia a ideia já dita em Dr. Who de que um Dalek não é uma máquina com cérebro, mas a própria máquina, assim como o humano também é o próprio corpo inteiro

    • Sobre a menção a um “avanço inacreditável”, apresentam uma visão cínica: seria apenas a aplicação, em computadores 1 milhão de vezes mais poderosos, de técnicas que já haviam sido abandonadas nos anos 1970
      Dizem que não enxergam nenhuma inovação fundamental em arquitetura de modelo ou forma de computação que pareça capaz de elevar o desempenho exponencialmente daqui para frente

  • Mencionam a confusão entre progresso científico e progresso tecnológico
    Explicam que, quando a ciência avança, costuma haver uma evolução rápida em forma de curva S, seguida por uma fase de retornos decrescentes
    Apontam que muitas pessoas não conseguem distinguir a fase de otimização acelerada da fase de desaceleração

    • Criticam que chamar simples exagero ou expectativa de “progresso tecnológico” é generoso demais

    • Acrescentam que as pessoas não entendem bem a diferença entre curva S e função exponencial
      Explicam que, em certos trechos, elas podem até parecer quase iguais

  • Questionam por que o DeepSeek é citado de forma tão especial

  • Do ponto de vista de quem lê pesquisas e artigos sobre arquitetura de modelos, observam que está surgindo uma enorme quantidade de ideias novas
    Mas apenas uma parte delas produz resultados realmente interessantes
    Supõem também que bibliotecas como PyTorch possam estar atrapalhando o desenvolvimento experimental
    Julgam que ficou natural demais simplesmente pegar componentes prontos, o que faz as pessoas pensarem menos profundamente sobre cada elemento
    Demonstram ceticismo em relação à tendência de anexar tokenizer ou modelo de visão criado por terceiros apenas para marcar itens em um “model card”

    • Explicam que esse fluxo é um padrão muito comum e natural também no mundo humano
      Quando o ROI da exploração intelectual cai numa tecnologia de base atual, é normal que os recursos humanos se desloquem temporariamente para outras áreas
      Mas, quando os limites forem atingidos, preveem que pessoas realmente inovadoras voltarão a produzir grandes avanços nas camadas fundamentais
      Acreditam que a próxima geração de foundational tech, como PyTorch, também evoluirá dessa forma

    • Observam que, embora sejam raros os grandes avanços de arquitetura que muita gente conheça e use no dia a dia nos últimos 2 ou 3 anos, também existe uma tendência de ignorar que 3 anos é um recorte de tempo muito curto
      Dizem que, além dos LLMs, continuam existindo muitas pesquisas interessantes e úteis, e que, embora não sejam especialistas na área, sentem que há uma enorme diversidade de novas tentativas surgindo

    • Comentam que, mesmo sem PyTorch, quem não tivesse vontade de experimentar coisas novas provavelmente continuaria com a mesma postura

  • Ao imaginar um sistema que reproduza inteligência em nível humano, há a visão de que a essência da diferença entre modelos pode estar na “mudança de dataset”
    De fato, memória, educação e contexto de uma pessoa ocupam uma parte grande da capacidade de resolver problemas, então há uma semelhança aí

  • Perguntam sobre a possibilidade de o modelo obter dados ativamente, isto é, procurar dados por conta própria e aprender com eles
    Propõem que seria necessário um modo de aprender por experiência direta, realizando ações diversas como um bebê humano
    Comentam que é preciso sair do estado atual de apenas injetar dados continuamente e sugerem, por exemplo, combinar a capacidade de criar objetos 3D com simuladores físicos
    Usando o Cursor como exemplo, sugerem que, após definir regras, um reasoning model poderia inferir os motivos e refleti-los nos dados de treinamento, aumentando ainda mais o valor dos dados
    Revisitar por que o usuário escolheu determinado comportamento e transformar isso em dado de treino poderia trazer insights mais profundos

    • Informam que simulação e embodied AI, como braços robóticos e carros, já são áreas de pesquisa ativas

    • Mencionam que esse caminho corresponde justamente a reinforcement learning e que, na prática, é um campo nada fácil

  • Apresentam a opinião de que novas ideias quase sempre partem de ideias antigas
    A IA seria uma ferramenta para abordar ideias antigas com mais rapidez e sob novos ângulos
    Enfatizam que a inovação nasce de lacunas ou interseções entre ideias antigas, e que toda inovação acontece, no fim das contas, sobre o trabalho dos predecessores
    Explicam que a IA pode ser vista como um elevador que nos leva diretamente aos ombros de gigantes, e que no fim tudo depende de como a ferramenta é usada

    • Concordam com o acesso a ideias antigas, mas argumentam que há limites para abordá-las realmente por novos ângulos
      Dizem que LLMs ajudam em parte na interpretação de dados, mas ainda são insuficientes para criar ideias realmente novas em comparação com a pesquisa existente
      Explicam que o uso de LLMs pode acelerar certas áreas específicas da pesquisa, mas em outras ainda há limitações

    • Dizem que é difícil imaginar um exemplo em que um humano que dominasse todo o conhecimento existente ainda assim não conseguisse produzir uma ideia realmente nova

    • Enfatizam que o ponto do texto é uma discussão sobre a própria inovação em IA e sobre o aumento da quantidade e da qualidade dos dados
      Houve, sim, inovação fundamental, mas argumentam que a melhor forma de melhorar o desempenho continua sendo ter mais dados e dados de melhor qualidade
      Dão como exemplo o ciclo do avanço em IA: “mais dados → modelos mais profundos → repetição”
      Dizem não entender bem como a opinião anterior se conecta com essa perspectiva

    • Contestam a ideia de que toda nova ideia nasce apenas das antigas com o exemplo da descoberta do anel de benzeno
      Citam o caso em que a estrutura do benzeno teria surgido pela imagem onírica de uma cobra mordendo a própria cauda, o “ouroboros”, como exemplo de que imaginação inédita muitas vezes é fonte de inovação

  • Comentam que os LLMs atuais, no fim, apenas somam e multiplicam números
    Descrevem isso de forma extrema, dizendo que é algo que os babilônios já faziam há 4 mil anos

    • Respondem que os humanos também não passam do resultado de interações de ondas e que todo significado é, no fim, atribuído
      Dizem que, se houver um jeito de indexar o espaço conceitual, torna-se possível explorar o inesperado, e que por isso as possibilidades são infinitas

    • Comparam que os babilônios faziam isso em tábuas de argila, enquanto hoje isso é processado em semicondutores com paredes da espessura de átomos
      Defendem que, em termos de método, há uma diferença enorme

  • Acham que o treinamento atual de IA está, na prática, mais próximo de fazer o modelo memorizar datasets
    Enfatizam que isso não significa pensar por conta própria, tirar conclusões e lembrar delas com base nos dados
    Avaliam que talvez um modelo saiba mais “fatos” sobre um tema do que alguém com PhD, mas que, para pensar sobre esse conteúdo, os humanos ainda são melhores

    • Especulam se talvez seja por isso que até doutores mantêm livros-texto por perto
      Perguntam se realmente é necessário que um modelo de IA memorize todos os fatos já registrados

    • Explicam que, na prática, o processo é um pouco mais complexo
      Avaliam que o modelo internaliza os dados em forma de heurísticas para poder responder adequadamente às entradas
      Dizem que essas heurísticas às vezes surpreendem humanos e, em certos casos, mostram soluções de problemas bastante originais
      Reconhecem que o conceito de “pensar” é amplo demais para um julgamento simples, mas concluem que ainda estamos longe da AGI

    • Observam que a afirmação de que o modelo “lembra mais fatos sobre um tema do que alguém com PhD” também poderia ser comparada a um notebook
      Afinal, um notebook também pode armazenar mais fatos, não é?