PonderTTT - Alocação adaptativa de computação baseada em TTT
(ponderttt.worldsw.dev)Olá, este é meu primeiro artigo no arXiv, desenvolvido como uma pesquisa independente no ensino médio.
Ideia central:
Como é ineficiente que um LLM use a mesma quantidade de computação para entradas fáceis e difíceis, usamos a reconstruction loss da camada TTT como sinal para decidir entre UPDATE/SKIP.
Sem treinamento adicional, apenas com threshold + EMA, alcançamos 82-89% do desempenho do Oracle.
Foi implementado em JAX/Flax e, no momento, estou validando o escalonamento com o Gemma 3.
Feedbacks são bem-vindos!
3 comentários
Você está no ensino médio, impressionante. Como você resolveu a questão do fiador?
Consegui isso enviando muitos cold emails para os doutorandos e professores estrangeiros que conduziam as pesquisas anteriores!
Ah, essa foi uma resposta certeira.