BERT era um modelo de difusão de texto: IA generativa criada com RoBERTa em 30 minutos
(aisparkup.com)Foi revelado que o método de treinamento do BERT usado desde 2018 segue, na verdade, o mesmo princípio dos modelos de difusão modernos. Isso vai além de uma simples descoberta acadêmica e mostra a possibilidade prática de converter modelos BERT existentes em modelos geradores de texto, como o GPT.
Pontos principais:
- A modelagem de linguagem mascarada (MLM) do BERT é um processo de difusão com uma taxa de mascaramento fixa: a forma de treinamento do BERT usada há 7 anos segue o mesmo princípio de difusão por remoção de ruído. Ao ajustar a taxa de mascaramento de forma variável, torna-se possível convertê-lo em um modelo totalmente generativo.
- Implementação de geração de texto no nível do GPT-2 com apenas 30 minutos de treinamento: um modelo RoBERTa existente foi transformado em modelo gerador de texto com um pouco de ajuste fino. Diferente do GPT, que prevê uma palavra de cada vez, ele funciona recuperando a frase inteira gradualmente.
- Novas possibilidades para geração de texto: propõe uma abordagem alternativa baseada em difusão além da abordagem autoregressiva do GPT. É o início de uma nova tendência, com o Gemini Diffusion do Google DeepMind e outros.
Ainda não há comentários.