- O agente Autoresearch, apresentado há 3 dias, tentou de forma autônoma cerca de 700 mudanças ao longo de aproximadamente 2 dias, com base em um modelo depth=12, e encontrou cerca de 20 mudanças válidas que melhoram a validation loss
- As mudanças encontradas são todas aditivas (additive) e também se transferem diretamente para um modelo maior, depth=24, reduzindo o "Time to GPT-2" no leaderboard de 2,02 horas para 1,80 hora, cerca de 11% mais rápido
- Até agora, esse processo consistia em otimização manual iterativa por 20 anos, envolvendo etapas como ter ideias → implementar → verificar a validation loss → consultar artigos
- Desta vez, o agente executou de ponta a ponta todo o workflow em que analisa a sequência dos resultados dos experimentos e, com base nisso, planeja autonomamente o próximo experimento
- Os resultados do "round 1" já foram commitados, e o "round 2" deve começar; em paralelo, também está sendo pesquisada uma forma de colaboração entre múltiplos agentes para processamento paralelo (AgentHub)
- Ainda não está no nível de pesquisa revolucionária (ground-breaking research), mas melhorias reais que passaram despercebidas no ajuste manual se acumularam e trouxeram ganhos concretos de desempenho
- Em larga escala, isso é muito mais complexo do que ajustar um único
train.py, mas, em essência, continua sendo um problema de engenharia, então é solucionável
- Com um agent swarm, ajustando primeiro modelos pequenos e promovendo gradualmente as ideias promissoras para escalas maiores, essa tende a ser uma direção que todos os laboratórios de fronteira de LLM acabarão adotando
- Qualquer métrica que possa ser avaliada com eficiência (ou que tenha métricas proxy) pode se tornar alvo dessa otimização automática
3 comentários
Dei uma olhada rápida nos conceitos de Autoresearch e AgentHub,
e me ocorreu que, se juntar os dois, isso não seria justamente a verdadeira academia e os institutos de pesquisa?
Institutos de pesquisa publicam seus resultados em conferências, incorporam o feedback e novos institutos seguem pesquisando; isso me pareceu algo muito parecido com uma forma expandida de aprendizado por reforço.
RL é difícil de explicar, mas senti que o realmente inovador é que, ao expandir com esse método, tudo pode se tornar explicável.
Dizem que esse Karpathy contribuiu para o design do FSD da Tesla, então também fiquei pensando se ele trouxe para a área de pesquisa um conceito que veio de lá.
Enfim, parece ser uma das pessoas que continuo acompanhando.
Isso mesmo, então acho que, de certa forma, esse pode ser o último grande obstáculo antes da chegada da AGI.
Parece que esse cara vive uma vida diferente mesmo, haha