BERT era um modelo de difusão de texto: IA generativa criada com RoBERTa em 30 minutos

(aisparkup.com)

9 pontos por davespark 2025-10-21 | Ainda não há comentários. | Compartilhar no WhatsApp

Foi revelado que o método de treinamento do BERT usado desde 2018 segue, na verdade, o mesmo princípio dos modelos de difusão modernos. Isso vai além de uma simples descoberta acadêmica e mostra a possibilidade prática de converter modelos BERT existentes em modelos geradores de texto, como o GPT.

Pontos principais:

A modelagem de linguagem mascarada (MLM) do BERT é um processo de difusão com uma taxa de mascaramento fixa: a forma de treinamento do BERT usada há 7 anos segue o mesmo princípio de difusão por remoção de ruído. Ao ajustar a taxa de mascaramento de forma variável, torna-se possível convertê-lo em um modelo totalmente generativo.
Implementação de geração de texto no nível do GPT-2 com apenas 30 minutos de treinamento: um modelo RoBERTa existente foi transformado em modelo gerador de texto com um pouco de ajuste fino. Diferente do GPT, que prevê uma palavra de cada vez, ele funciona recuperando a frase inteira gradualmente.
Novas possibilidades para geração de texto: propõe uma abordagem alternativa baseada em difusão além da abordagem autoregressiva do GPT. É o início de uma nova tendência, com o Gemini Diffusion do Google DeepMind e outros.

BERT era um modelo de difusão de texto: IA generativa criada com RoBERTa em 30 minutos

Leituras relacionadas

Ainda não há comentários.