2 pontos por GN⁺ 2024-03-17 | 1 comentários | Compartilhar no WhatsApp

Quiet-STaR: é possível ensinar modelos de linguagem a pensar antes de falar

  • As pessoas às vezes param para pensar quando escrevem ou falam, e esse tipo de raciocínio está embutido em quase todo texto escrito.
  • Em Self-Taught Reasoner (STaR), mostra-se como aprender pensamentos úteis inferindo a justificativa a partir de poucos exemplos em perguntas e respostas e aprendendo com as justificativas que levam à resposta correta.
  • Quiet-STaR é uma generalização do STaR, que treina o modelo de linguagem para gerar justificativas em cada token a fim de explicar o texto futuro e melhorar a previsão.

Principais desafios e soluções

  • Há desafios como o custo computacional da geração contínua de texto, o fato de que o modelo de linguagem inicialmente não sabe como gerar ou usar pensamentos internos, e a necessidade de prever além de cada próximo token individual.
  • Para resolver esses problemas, propõe-se um algoritmo de amostragem paralela por token que usa tokens aprendíveis para indicar o início e o fim dos pensamentos, além de uma técnica estendida de teacher-forcing.

Melhoria de desempenho do modelo

  • As justificativas geradas ajudam a prever tokens difíceis e melhoram a capacidade do modelo de linguagem de responder diretamente a perguntas difíceis.
  • Ao continuar o pré-treinamento de um modelo de linguagem com Quiet-STaR em um corpus de texto da internet, foram observadas melhorias zero-shot em GSM8K (5.9%→10.9%) e CommonsenseQA (36.3%→47.2%), além de melhora na perplexity de tokens difíceis em texto natural.
  • Essas melhorias foram obtidas sem ajuste fino para essas tarefas.

Opinião do GN⁺

  • Quiet-STaR mostra um passo adiante na direção de permitir que modelos de linguagem aprendam raciocínio de forma mais geral e escalável.
  • Este estudo representa um avanço importante no fortalecimento da compreensão de linguagem e da capacidade de raciocínio na área de inteligência artificial, podendo contribuir para o avanço das tecnologias de processamento de linguagem natural.
  • Sob uma ótica crítica, quando esse tipo de tecnologia for aplicado a problemas complexos do mundo real, pode gerar resultados inesperados, o que exige mais pesquisa e medidas de segurança.
  • Outros projetos com funcionalidades semelhantes incluem a série GPT da OpenAI e o BERT do Google, que também seguem em pesquisa para melhorar capacidades de compreensão e geração de linguagem.
  • Entre os pontos a considerar na adoção da tecnologia estão a qualidade e a diversidade dos dados de treinamento, o uso ético do modelo e o custo computacional; entre os benefícios está a geração de modelos de linguagem mais precisos e detalhados.

1 comentários

 
GN⁺ 2024-03-17
Comentários do Hacker News
  • Se a rede é composta por cerca de 50 camadas de profundidade, isso significa que ela consegue raciocinar sobre questões simbólicas em aproximadamente 50 “etapas”. Pode ser que 50 etapas no subespaço em que o modelo foi treinado realizem mais do que uma etapa humana, mas sabemos que os humanos têm a capacidade de pensar e deliberar para além dessas etapas.
  • Edsger Dijkstra, mesmo tendo o neerlandês como língua materna, tinha um estilo de escrita em inglês extremamente preciso. Ele lembrava que, desde a infância, aprendeu que precisava saber como terminaria uma frase antes de começá-la. Há a especulação de que exista uma relação causal entre essas duas observações.
  • Pensei que o padrão de raciocínio de "cadeia de pensamento", que contribui para melhorar o desempenho de sistemas baseados em LLM, corre em paralelo ao modelo dos dois sistemas discutido em "Rápido e Devagar" de Kahneman. O "Sistema 1" lida com pensamentos processados com pouco esforço e pouca computação, enquanto o "Sistema 2" é usado para trabalho cognitivo consciente e de alto nível. Em resposta à crítica de que os LLMs parecem usar apenas o "Sistema 1", quando levamos um LLM a pensar passo a passo, isso se parece com oferecer a ele uma espécie de sandbox de tomada de decisão semelhante ao "Sistema 2".
  • Isso preenche a parte que faltava para treinar IA em muitas tarefas nas quais a resposta correta é conhecida, mas as etapas de raciocínio estão ausentes. Com esse método, pode ser possível alcançar capacidade de raciocínio com uma quantidade pequena de dados anotados. Se os pensamentos gerados forem difíceis de entender para humanos, mas ainda assim muito mais úteis para chegar à resposta correta, então poderíamos dizer que criamos algo mais inteligente do que nós mesmos.
  • Muito do significado de um texto está escondido nas entrelinhas, e, se o leitor não entende por que certas afirmações aparecem em um documento, sua compreensão permanece superficial. No entanto, a maioria das pessoas tem um modelo de mundo e entende, até certo ponto, por que as afirmações que aparecem em um livro estão ali. Por exemplo, ao ler um livro-texto de dinâmica dos fluidos, talvez a pessoa não entenda a matemática, mas sabe por que aquelas afirmações aparecem.
  • Há a pergunta sobre se os autores deste artigo têm alguma relação com o modelo Q* cercado de rumores da OpenAI, ou se é apenas uma coincidência de nome.
  • Eles não citaram um artigo [1] de quase 8 anos atrás, anterior ao trabalho deles, sobre modelagem de linguagem em RNNs com computação variável (aprendida). Na época, a Microsoft também tinha algo semelhante para reconhecimento de imagem.
  • Isso é basicamente o mesmo que tentei hoje de manhã no nível de prompt, mas fui além ao pensar em introduzir “meta-tokens” que ajudariam o LLM a reexplorar seu contexto. Alguns desses meta-tokens poderiam ter efeitos colaterais como destacar, estruturar, resumir ou esquecer partes do contexto. Isso poderia não apenas dar ao LLM capacidades lógicas/de raciocínio, mas também fornecer um meio para que ele produza sua própria estrutura cognitiva.
  • Há um caso em que a equipe da Intel tentou usar o Base Mistral 7B de uma forma inadequada para avaliação, assim como no NeuralChat.
  • Esta pesquisa parece muito interessante, e há a pergunta se os pesquisadores provavelmente divulgarão o código em breve.