1 pontos por GN⁺ 2024-06-09 | 1 comentários | Compartilhar no WhatsApp

σ-GPTs: uma nova abordagem para modelos autorregressivos

Visão geral

  • Modelos autorregressivos (da família GPT) normalmente geram sequências em uma ordem fixa (geralmente da esquerda para a direita).
  • Este artigo mostra que, ao adicionar codificação posicional à saída, é possível ajustar essa ordem dinamicamente para cada amostra.
  • Com isso, torna-se possível amostrar e condicionar subconjuntos arbitrários de tokens, além de amostrar dinamicamente vários tokens de uma vez, de acordo com a estratégia de rejeição.
  • Como resultado, o número de avaliações do modelo pode ser reduzido de forma sublinear.

Principais pontos

  • Adição de codificação posicional: ao adicionar codificação posicional à saída, é possível ajustar dinamicamente a ordem de geração da sequência.
  • Avaliação em diversos domínios: foram realizados testes em vários domínios, como modelagem de linguagem, resolução de trajetórias e previsão de velocidade vertical de aeronaves.
  • Aumento de eficiência: conseguiu reduzir em uma dimensão o número de etapas necessárias para a geração.

Opinião do GN⁺

  • Inovação técnica: ao sair da ordem fixa tradicional e permitir ajuste dinâmico da ordem, a flexibilidade e a eficiência do modelo melhoram significativamente.
  • Aplicações práticas: os resultados em diversos domínios sugerem que essa abordagem tem alto potencial de uso prático.
  • Melhoria de desempenho: avaliações sublineares do modelo podem proporcionar ganhos expressivos de desempenho.
  • Direções para pesquisas futuras: há potencial para aplicar essa abordagem a outros tipos de modelos ou a problemas mais complexos.
  • Visão crítica: o ajuste dinâmico da ordem pode não garantir sempre os melhores resultados em todas as situações. São necessários mais estudos e validações.

1 comentários

 
GN⁺ 2024-06-09
Comentários do Hacker News
  • Primeiro comentário: O autor treina o modelo embaralhando aleatoriamente os tokens de entrada e adicionando duas codificações posicionais. Com essa modificação simples, o modelo passa a prever tokens em paralelo, independentemente da ordem.
  • Segundo comentário: Esta pesquisa usa uma abordagem semelhante à do artigo Taylorformer. Isso ajuda a prever processos contínuos, como dados de séries temporais.
  • Terceiro comentário: É uma pena que pesquisas anteriores não tenham sido citadas. Este estudo já foi apresentado na ICML e tem cerca de 250 citações.
  • Quarto comentário: Esse conceito parece semelhante à dinâmica dos modelos de geração de imagens. A ideia de o conceito geral aparecer primeiro e os detalhes serem preenchidos naturalmente parece útil.
  • Quinto comentário: Há um vídeo no Twitter gerando texto. (link fornecido)
  • Sexto comentário: Gosto muito das funcionalidades que este artigo oferece. Parece que dá para fazer vários experimentos, como geração de JSON e geração de descrições com comprimento específico.
  • Sétimo comentário: Essa abordagem parece especialmente útil para geração de código. A saída atual pode mudar dependendo do que será escrito depois.
  • Oitavo comentário: Parece aplicar ao transformer de linguagem o aprendizado dos vision transformers. É semelhante à forma como modelos de visão dividem imagens em blocos e adicionam codificações posicionais.
  • Nono comentário: Fico curioso para saber onde está o código. Não entendi completamente a posição dupla e o embaralhamento. É interessante que tenha usado concat na codificação posicional.
  • Décimo comentário: O BERT usava mascaramento aleatório na sequência, mas o tempo é sequencial.