Quiet-STaR: é possível ensinar modelos de linguagem a pensar antes de falar
- As pessoas às vezes param para pensar quando escrevem ou falam, e esse tipo de raciocínio está embutido em quase todo texto escrito.
- Em Self-Taught Reasoner (STaR), mostra-se como aprender pensamentos úteis inferindo a justificativa a partir de poucos exemplos em perguntas e respostas e aprendendo com as justificativas que levam à resposta correta.
- Quiet-STaR é uma generalização do STaR, que treina o modelo de linguagem para gerar justificativas em cada token a fim de explicar o texto futuro e melhorar a previsão.
Principais desafios e soluções
- Há desafios como o custo computacional da geração contínua de texto, o fato de que o modelo de linguagem inicialmente não sabe como gerar ou usar pensamentos internos, e a necessidade de prever além de cada próximo token individual.
- Para resolver esses problemas, propõe-se um algoritmo de amostragem paralela por token que usa tokens aprendíveis para indicar o início e o fim dos pensamentos, além de uma técnica estendida de teacher-forcing.
Melhoria de desempenho do modelo
- As justificativas geradas ajudam a prever tokens difíceis e melhoram a capacidade do modelo de linguagem de responder diretamente a perguntas difíceis.
- Ao continuar o pré-treinamento de um modelo de linguagem com Quiet-STaR em um corpus de texto da internet, foram observadas melhorias zero-shot em GSM8K (5.9%→10.9%) e CommonsenseQA (36.3%→47.2%), além de melhora na perplexity de tokens difíceis em texto natural.
- Essas melhorias foram obtidas sem ajuste fino para essas tarefas.
Opinião do GN⁺
- Quiet-STaR mostra um passo adiante na direção de permitir que modelos de linguagem aprendam raciocínio de forma mais geral e escalável.
- Este estudo representa um avanço importante no fortalecimento da compreensão de linguagem e da capacidade de raciocínio na área de inteligência artificial, podendo contribuir para o avanço das tecnologias de processamento de linguagem natural.
- Sob uma ótica crítica, quando esse tipo de tecnologia for aplicado a problemas complexos do mundo real, pode gerar resultados inesperados, o que exige mais pesquisa e medidas de segurança.
- Outros projetos com funcionalidades semelhantes incluem a série GPT da OpenAI e o BERT do Google, que também seguem em pesquisa para melhorar capacidades de compreensão e geração de linguagem.
- Entre os pontos a considerar na adoção da tecnologia estão a qualidade e a diversidade dos dados de treinamento, o uso ético do modelo e o custo computacional; entre os benefícios está a geração de modelos de linguagem mais precisos e detalhados.
1 comentários
Comentários do Hacker News