Karpathy reduz em 11% o tempo de treino do GPT-2 ao ajustar automaticamente o nanochat por 2 dias com Autoresearch

(x.com/karpathy)

17 pontos por xguru 2026-03-11 | 3 comentários | Compartilhar no WhatsApp

O agente Autoresearch, apresentado há 3 dias, tentou de forma autônoma cerca de 700 mudanças ao longo de aproximadamente 2 dias, com base em um modelo depth=12, e encontrou cerca de 20 mudanças válidas que melhoram a validation loss
As mudanças encontradas são todas aditivas (additive) e também se transferem diretamente para um modelo maior, depth=24, reduzindo o "Time to GPT-2" no leaderboard de 2,02 horas para 1,80 hora, cerca de 11% mais rápido
Até agora, esse processo consistia em otimização manual iterativa por 20 anos, envolvendo etapas como ter ideias → implementar → verificar a validation loss → consultar artigos
Desta vez, o agente executou de ponta a ponta todo o workflow em que analisa a sequência dos resultados dos experimentos e, com base nisso, planeja autonomamente o próximo experimento
Os resultados do "round 1" já foram commitados, e o "round 2" deve começar; em paralelo, também está sendo pesquisada uma forma de colaboração entre múltiplos agentes para processamento paralelo (AgentHub)
Ainda não está no nível de pesquisa revolucionária (ground-breaking research), mas melhorias reais que passaram despercebidas no ajuste manual se acumularam e trouxeram ganhos concretos de desempenho
Em larga escala, isso é muito mais complexo do que ajustar um único train.py, mas, em essência, continua sendo um problema de engenharia, então é solucionável
Com um agent swarm, ajustando primeiro modelos pequenos e promovendo gradualmente as ideias promissoras para escalas maiores, essa tende a ser uma direção que todos os laboratórios de fronteira de LLM acabarão adotando
Qualquer métrica que possa ser avaliada com eficiência (ou que tenha métricas proxy) pode se tornar alvo dessa otimização automática

3 comentários

hanje3765 2026-03-11

Dei uma olhada rápida nos conceitos de Autoresearch e AgentHub,
e me ocorreu que, se juntar os dois, isso não seria justamente a verdadeira academia e os institutos de pesquisa?
Institutos de pesquisa publicam seus resultados em conferências, incorporam o feedback e novos institutos seguem pesquisando; isso me pareceu algo muito parecido com uma forma expandida de aprendizado por reforço.
RL é difícil de explicar, mas senti que o realmente inovador é que, ao expandir com esse método, tudo pode se tornar explicável.
Dizem que esse Karpathy contribuiu para o design do FSD da Tesla, então também fiquei pensando se ele trouxe para a área de pesquisa um conceito que veio de lá.
Enfim, parece ser uma das pessoas que continuo acompanhando.

sea715 2026-03-11

Isso mesmo, então acho que, de certa forma, esse pode ser o último grande obstáculo antes da chegada da AGI.

xguru 2026-03-11

Parece que esse cara vive uma vida diferente mesmo, haha

Karpathy reduz em 11% o tempo de treino do GPT-2 ao ajustar automaticamente o nanochat por 2 dias com Autoresearch

Leituras relacionadas

3 comentários