- Nos avanços recentes da IA, o ponto central tem sido a introdução de novos datasets mais do que novas ideias
- A maioria dos grandes avanços surgiu ao aplicar tecnologias já existentes a novas fontes de dados
- Mudanças nos dados têm mais impacto no desempenho dos modelos do que inovações na tecnologia de IA
- As próximas mudanças de paradigma também devem ser possíveis quando forem aproveitadas novas fontes de dados, como YouTube e robôs
- A maioria dos pesquisadores se concentra em novas metodologias, mas na prática os dados são o núcleo do progresso
O estado atual e o padrão de evolução da IA
- A IA teve um avanço extraordinário nos últimos 15 anos, especialmente nos 5 mais recentes
- Alguns pesquisadores afirmam que a IA está avançando de forma exponencial em sua capacidade de executar tarefas específicas, como se houvesse uma "Lei de Moore da IA"
- Porém, na prática, grandes avanços não acontecem com frequência, e a estrutura real é de progresso lento, mas constante
De onde vem a inovação
- Muita gente acredita que o avanço da IA vem de ideias surgidas na academia e na indústria, como MIT, Stanford e Google
- De fato, a pesquisa continua produzindo inovações de sistema que reduzem o custo de treinamento dos modelos e melhoram a eficiência
- Em 2022, o FlashAttention de Stanford otimizou o uso de memória
- Em 2023, o speculative decoding do Google aumentou a velocidade de inferência
- Em 2024, o projeto Muon apresentou uma nova abordagem de otimizador
- Em 2025, o DeepSeek-R1 ofereceu em open source um modelo no nível dos principais laboratórios de IA
- Pesquisadores compartilham rapidamente seus resultados em público via arXiv, conferências e redes sociais, o que impulsiona um experimento científico global e distribuído
Por que parece que a inovação em IA ficou mais lenta
- Recentemente, os ganhos de desempenho dos modelos mais novos, como Grok 3 e GPT-4.5, diminuíram
- Em avaliações práticas, como olimpíadas de matemática, os resultados foram fracos, levando a críticas de que houve exagero nas divulgações
- Grandes mudanças de paradigma (deep learning, Transformers, RLHF, Reasoning) aparecem raramente, em intervalos de cerca de uma década
O traço comum dos grandes avanços: novos datasets
- Os 4 principais avanços coincidem com momentos em que novas fontes de dados passaram a ser usadas em larga escala pela primeira vez
- AlexNet: ImageNet (grande volume de dados de imagem rotulados)
- Transformers: texto de toda a web (Internet)
- RLHF: dados de "bom texto" avaliados por humanos
- Reasoning: resultados de ferramentas externas de verificação, como calculadoras e compiladores
- Depois que cada dataset foi introduzido em larga escala pela primeira vez, vieram a corrida por obter os dados restantes e o desenvolvimento de técnicas para usá-los de forma mais eficiente
Novas ideias vs. o papel dos dados
- Mesmo sem uma arquitetura de modelo específica, se os mesmos dados forem fornecidos, é possível desenvolver modelos de nível semelhante
- Na prática, trocar o dataset usado no treinamento tem mais impacto no desempenho do que a inovação técnica
- Mesmo que outra estrutura tivesse surgido no lugar do AlexNet, o progresso teria sido possível porque existia o ImageNet
- Mesmo sem o Transformer, LSTM, SSM etc. mostram desempenho semelhante com os mesmos dados
- O dataset define o limite superior do resultado do treinamento, e isso não pode ser superado apenas com melhorias em modelos e algoritmos
- Como enfatiza The Bitter Lesson, mais do que novos métodos, o que realmente importa no fim são os dados
Candidatos à próxima mudança de paradigma da IA
- O próximo grande salto da IA provavelmente acontecerá não com uma nova network ou uma nova abordagem de RL, mas com o uso de novas fontes de dados ainda não exploradas
- Em outras palavras, a mudança de paradigma tende a ocorrer quando novos datasets forem obtidos em larga escala
- O candidato que mais chama atenção: dados de vídeo do YouTube e afins
- No YouTube, são enviados 500 horas de vídeo por minuto
- Esse material contém dezenas de vezes mais informação do que texto e permite aprender nuances linguísticas, além de contexto físico e cultural
- Há grande chance de que big techs como o Google em breve passem a treinar seriamente com esse dataset
- Outra possibilidade: coleta de dados do mundo físico por robôs (embodied system)
- Quando houver infraestrutura para processar e treinar em larga escala, em GPUs, dados de câmeras e sensores, também é alta a chance de que isso se torne uma fonte de inovação em IA
- Os dados de texto estão chegando ao limite, então novas fontes como vídeo e robôs provavelmente definirão o futuro da IA
Conclusão
- O próximo avanço da IA virá não de novas ideias ou algoritmos, mas de novas fontes de dados
- Embora 95% dos pesquisadores se concentrem em novas metodologias, a inovação real surge das mudanças nos datasets
- Se queremos avanços em IA, devemos focar não em novas ideias, mas em garantir novos dados
1 comentários
Opiniões do Hacker News
Dizem que a forma como John Carmack explora o tema é bastante interessante
Ele compartilhou a experiência de treinar um modelo para jogar extremamente bem jogos 2D e depois testar se ele conseguiria se sair bem em um jogo 2D nunca visto antes ou em fases novas
Ao relatar que o desempenho do modelo caiu justamente em jogos sem experiência prévia, ele enfatiza que isso não é inteligência artificial, mas apenas proficiência em uma tarefa específica
Afirma que, em vez de espalhar medo sobre superinteligência artificial (ASI), é muito mais difícil criar uma inteligência geral que aprenda um novo jogo 2D mais rápido do que um humano
Apontam que o modelo que John Carmack realmente usou para chegar a essa conclusão não era estado da arte, e sim um projeto mais voltado à diversão, sem usar um foundational model caro
Comentam que, em uma pesquisa mais profunda de IA para vídeo/visão, seria mais adequado manipular um espaço latente probabilístico aplicável a jogos em geral
Citam a capacidade do veo3 de gerar vídeo sob restrições de prompt como exemplo de que a IA pode generalizar jogos 2D e 3D
Alegam que o veo3 poderia, na prática, mostrar resultados que parecem jogar razoavelmente qualquer jogo mesmo sem fine-tuning específico para um jogo em particular
Dizem que é difícil entender por que as pessoas insistem em conduzir a discussão dessa forma
Há claramente várias maneiras de atingir um objetivo dado, e questionam por que o experimento de John Carmack estaria sendo tratado como padrão se ele nem é especialista em IA
Suspeitam que talvez o modelo tenha ficado grande demais e sofrido overfitting, isto é, ajustando-se apenas a um dataset específico
Perguntam se impor restrições ao modelo poderia induzi-lo a aprender heurísticas mais gerais
Enfatizam que, sem restrições, a IA acabaria apenas reproduzindo o melhor speedrun possível, enquanto heurísticas variadas são muito mais importantes quando ela encontra conteúdo novo
Esclarecem que o tema citado pertence à área de Meta-Reinforcement Learning
Explorar esse campo como John Carmack está fazendo é significativo, mas não se trata de um tema de pesquisa totalmente novo
Uma introdução simples a Meta-Reinforcement Learning
Dizem que a questão de o modelo ter ou não uma “inteligência de verdade” é um tema interessante para a academia que pensa em AGI, mas não é tão importante para muitos usuários que usam LLMs de forma prática
Afirmam que não se preocupam se o progresso atual vai ou não levar à AGI
Compartilham que, mesmo que tudo parasse no Claude 4, continuariam usando porque ainda seria útil
Enfatizam que, em vez do debate sobre AGI, é muito mais interessante observar como as pessoas estão usando IA na prática hoje em dia
Dizem com convicção que estamos vivendo os primórdios da era da IA
Explicam, como exemplo, que a IA avançou de forma impressionante em duas áreas: linguagem (LLM: GPT-4, Claude) e visão (CLIP, DALL·E)
Apontam que os computadores já escrevem poesia e código, descrevem fotos e conversam em nível humano, mas na prática isso ainda é uma expansão de apenas duas modalidades: texto e imagem
A inteligência humana tem uma característica multimodal, rica e entrelaçada, com tato, paladar, olfato, movimento, emoção e muitos outros sentidos
LLMs e Vision Transformers quase não implementam esses elementos
Enfatizam que a verdadeira fronteira da IA está no mundo sensorial complexo e rico da vida cotidiana
Explicam que, para isso, serão necessários novos sensores, representações de dados que vão além de tokens e novas formas de treinar modelos com base em experiência
Respondem de forma educada à opinião de que linguagem e visão seriam apenas o ponto de partida da essência da inteligência artificial
Dizem que tato é interessante, mas que, para praticamente toda interação online, áudio, vídeo e linguagem já bastam
Explicam que a diferença decisiva entre humanos e animais não está nos “sentidos restantes”, mas em fala, imagem e linguagem
Reconhecem que integrar tato, propriocepção e olfato é importante para agir no mundo real, mas sustentam a visão de que o núcleo da inteligência em si está na linguagem e na visão
Consideram que adaptabilidade orgânica e persistência da memória são as duas coisas que mais precisam evoluir
Apontam que o cérebro humano muda sua estrutura dinamicamente, enquanto os LLMs são fixos e só “aprendem” depois de repetir o treinamento com as informações dadas
Enfatizam que, para criar máquinas inteligentes, elas precisam ser capazes de aprender em tempo real e lembrar informações por conta própria
Há também a visão de que, com a arquitetura de IA que temos hoje, talvez linguagem e visão sejam o limite
Observam que houve muitas notícias sobre LLMs nos últimos anos, mas quase nenhum grande avanço em outras áreas da IA
Enfatizam que o futuro do verdadeiro progresso em IA está numa existência, como a humana, rica em sentidos e ligada ao mundo físico
Usam como analogia a ideia já dita em Dr. Who de que um Dalek não é uma máquina com cérebro, mas a própria máquina, assim como o humano também é o próprio corpo inteiro
Sobre a menção a um “avanço inacreditável”, apresentam uma visão cínica: seria apenas a aplicação, em computadores 1 milhão de vezes mais poderosos, de técnicas que já haviam sido abandonadas nos anos 1970
Dizem que não enxergam nenhuma inovação fundamental em arquitetura de modelo ou forma de computação que pareça capaz de elevar o desempenho exponencialmente daqui para frente
Mencionam a confusão entre progresso científico e progresso tecnológico
Explicam que, quando a ciência avança, costuma haver uma evolução rápida em forma de curva S, seguida por uma fase de retornos decrescentes
Apontam que muitas pessoas não conseguem distinguir a fase de otimização acelerada da fase de desaceleração
Criticam que chamar simples exagero ou expectativa de “progresso tecnológico” é generoso demais
Acrescentam que as pessoas não entendem bem a diferença entre curva S e função exponencial
Explicam que, em certos trechos, elas podem até parecer quase iguais
Questionam por que o DeepSeek é citado de forma tão especial
Do ponto de vista de quem lê pesquisas e artigos sobre arquitetura de modelos, observam que está surgindo uma enorme quantidade de ideias novas
Mas apenas uma parte delas produz resultados realmente interessantes
Supõem também que bibliotecas como PyTorch possam estar atrapalhando o desenvolvimento experimental
Julgam que ficou natural demais simplesmente pegar componentes prontos, o que faz as pessoas pensarem menos profundamente sobre cada elemento
Demonstram ceticismo em relação à tendência de anexar tokenizer ou modelo de visão criado por terceiros apenas para marcar itens em um “model card”
Explicam que esse fluxo é um padrão muito comum e natural também no mundo humano
Quando o ROI da exploração intelectual cai numa tecnologia de base atual, é normal que os recursos humanos se desloquem temporariamente para outras áreas
Mas, quando os limites forem atingidos, preveem que pessoas realmente inovadoras voltarão a produzir grandes avanços nas camadas fundamentais
Acreditam que a próxima geração de foundational tech, como PyTorch, também evoluirá dessa forma
Observam que, embora sejam raros os grandes avanços de arquitetura que muita gente conheça e use no dia a dia nos últimos 2 ou 3 anos, também existe uma tendência de ignorar que 3 anos é um recorte de tempo muito curto
Dizem que, além dos LLMs, continuam existindo muitas pesquisas interessantes e úteis, e que, embora não sejam especialistas na área, sentem que há uma enorme diversidade de novas tentativas surgindo
Comentam que, mesmo sem PyTorch, quem não tivesse vontade de experimentar coisas novas provavelmente continuaria com a mesma postura
Ao imaginar um sistema que reproduza inteligência em nível humano, há a visão de que a essência da diferença entre modelos pode estar na “mudança de dataset”
De fato, memória, educação e contexto de uma pessoa ocupam uma parte grande da capacidade de resolver problemas, então há uma semelhança aí
Perguntam sobre a possibilidade de o modelo obter dados ativamente, isto é, procurar dados por conta própria e aprender com eles
Propõem que seria necessário um modo de aprender por experiência direta, realizando ações diversas como um bebê humano
Comentam que é preciso sair do estado atual de apenas injetar dados continuamente e sugerem, por exemplo, combinar a capacidade de criar objetos 3D com simuladores físicos
Usando o Cursor como exemplo, sugerem que, após definir regras, um reasoning model poderia inferir os motivos e refleti-los nos dados de treinamento, aumentando ainda mais o valor dos dados
Revisitar por que o usuário escolheu determinado comportamento e transformar isso em dado de treino poderia trazer insights mais profundos
Informam que simulação e embodied AI, como braços robóticos e carros, já são áreas de pesquisa ativas
Mencionam que esse caminho corresponde justamente a reinforcement learning e que, na prática, é um campo nada fácil
Apresentam a opinião de que novas ideias quase sempre partem de ideias antigas
A IA seria uma ferramenta para abordar ideias antigas com mais rapidez e sob novos ângulos
Enfatizam que a inovação nasce de lacunas ou interseções entre ideias antigas, e que toda inovação acontece, no fim das contas, sobre o trabalho dos predecessores
Explicam que a IA pode ser vista como um elevador que nos leva diretamente aos ombros de gigantes, e que no fim tudo depende de como a ferramenta é usada
Concordam com o acesso a ideias antigas, mas argumentam que há limites para abordá-las realmente por novos ângulos
Dizem que LLMs ajudam em parte na interpretação de dados, mas ainda são insuficientes para criar ideias realmente novas em comparação com a pesquisa existente
Explicam que o uso de LLMs pode acelerar certas áreas específicas da pesquisa, mas em outras ainda há limitações
Dizem que é difícil imaginar um exemplo em que um humano que dominasse todo o conhecimento existente ainda assim não conseguisse produzir uma ideia realmente nova
Enfatizam que o ponto do texto é uma discussão sobre a própria inovação em IA e sobre o aumento da quantidade e da qualidade dos dados
Houve, sim, inovação fundamental, mas argumentam que a melhor forma de melhorar o desempenho continua sendo ter mais dados e dados de melhor qualidade
Dão como exemplo o ciclo do avanço em IA: “mais dados → modelos mais profundos → repetição”
Dizem não entender bem como a opinião anterior se conecta com essa perspectiva
Contestam a ideia de que toda nova ideia nasce apenas das antigas com o exemplo da descoberta do anel de benzeno
Citam o caso em que a estrutura do benzeno teria surgido pela imagem onírica de uma cobra mordendo a própria cauda, o “ouroboros”, como exemplo de que imaginação inédita muitas vezes é fonte de inovação
Comentam que os LLMs atuais, no fim, apenas somam e multiplicam números
Descrevem isso de forma extrema, dizendo que é algo que os babilônios já faziam há 4 mil anos
Respondem que os humanos também não passam do resultado de interações de ondas e que todo significado é, no fim, atribuído
Dizem que, se houver um jeito de indexar o espaço conceitual, torna-se possível explorar o inesperado, e que por isso as possibilidades são infinitas
Comparam que os babilônios faziam isso em tábuas de argila, enquanto hoje isso é processado em semicondutores com paredes da espessura de átomos
Defendem que, em termos de método, há uma diferença enorme
Acham que o treinamento atual de IA está, na prática, mais próximo de fazer o modelo memorizar datasets
Enfatizam que isso não significa pensar por conta própria, tirar conclusões e lembrar delas com base nos dados
Avaliam que talvez um modelo saiba mais “fatos” sobre um tema do que alguém com PhD, mas que, para pensar sobre esse conteúdo, os humanos ainda são melhores
Especulam se talvez seja por isso que até doutores mantêm livros-texto por perto
Perguntam se realmente é necessário que um modelo de IA memorize todos os fatos já registrados
Explicam que, na prática, o processo é um pouco mais complexo
Avaliam que o modelo internaliza os dados em forma de heurísticas para poder responder adequadamente às entradas
Dizem que essas heurísticas às vezes surpreendem humanos e, em certos casos, mostram soluções de problemas bastante originais
Reconhecem que o conceito de “pensar” é amplo demais para um julgamento simples, mas concluem que ainda estamos longe da AGI
Observam que a afirmação de que o modelo “lembra mais fatos sobre um tema do que alguém com PhD” também poderia ser comparada a um notebook
Afinal, um notebook também pode armazenar mais fatos, não é?