- Modelos de linguagem de grande porte (LLMs) são pré-treinados em enormes volumes de linguagem humana e demonstram fortes capacidades de raciocínio
- A abordagem "Chain-of-Thought (CoT)" ajuda o modelo a chegar à resposta ao gerar um processo de raciocínio passo a passo
- No entanto, o raciocínio de um LLM precisa ser gerado em palavras, o que impõe uma limitação fundamental ao modelo
- Humanos nem sempre expressam seus pensamentos em linguagem. A IA também precisa fazer isso?
- O artigo de pesquisa da Meta, "Training Large Language Models to Reason in a Continuous Latent Space", propõe uma nova abordagem, COCONUT (Chain of Continuous Thought), para superar essas limitações
Abordagem Chain-of-Thought (CoT)
- CoT recebe uma pergunta como entrada e gera a resposta final por meio de raciocínio em etapas
- O modelo processa os tokens de entrada para gerar o primeiro token de resposta (o início do processo de raciocínio)
- Em seguida, a pergunta e os tokens de raciocínio anteriores são repetidamente passados de volta ao modelo para completar todo o processo de raciocínio e, por fim, gerar a resposta
Abordagem Chain of Continuous Thought (COCONUT)
- O COCONUT alterna entre modo de linguagem e modo de pensamento latente (latent thought)
- Modo de linguagem: funciona como um modelo de linguagem padrão, gerando o próximo token
- Modo de pensamento latente: usa o último estado oculto para calcular a próxima etapa
- No modo de pensamento latente, usar o último estado oculto como próxima entrada permite um raciocínio mais eficiente
- O modo de pensamento latente começa com o token
<bot> e termina com o token <eot>, retornando então ao modo de linguagem
Procedimento de treinamento
- O modelo é treinado com base em dados CoT existentes (pergunta, etapas de raciocínio e resposta final)
- O treinamento é feito de forma gradual:
- Na etapa inicial, o modelo aprende a gerar etapas de raciocínio baseadas em linguagem e a resposta
- Nas etapas seguintes, as etapas de raciocínio são removidas e, em seu lugar, são adicionados tokens de pensamento latente
- Em cada etapa, a perda é calculada sobre as etapas de raciocínio baseadas em linguagem que restam e sobre a resposta
- O pensamento latente é totalmente diferenciável, permitindo backpropagation (retropropagação)
Transição da geração de pensamento para a geração de tokens de palavras
- Há duas estratégias para o modelo passar do modo de pensamento latente para o modo de linguagem.
- A primeira estratégia faz com que "o modelo decida usando um classificador binário", e a segunda usa "um número fixo de tokens de pensamento latente"
- Como ambas produzem resultados semelhantes, foi adotada a abordagem mais simples de número fixo
Resultados experimentais
- O método Coconut mostrou desempenho superior ao No-CoT em todos os datasets.
- Em comparação com CoT, CoT foi melhor em matemática, mas Coconut foi superior no ProsQA, que exige capacidade de planejamento.
- Em comparação com i-CoT, Coconut mostrou melhor acurácia em matemática.
- Desempenho do Coconut:
- GSM8K (matemática): desempenho inferior ao CoT
- ProsQA (exige planejamento): desempenho superior ao CoT
- No-CoT (gera resposta direta sem raciocínio): desempenho superior em todos os datasets
- Em termos de eficiência, gera menos tokens do que CoT
- Comparação com i-CoT:
- Maior acurácia em matemática
- Desempenho semelhante em planejamento e raciocínio lógico
- Efeito do curriculum learning:
- O modelo "w/o curriculum" teve desempenho significativamente inferior
Capacidade de raciocínio semelhante a BFS
- No dataset ProsQA, o COCONUT apresentou excelente desempenho na resolução de problemas orientados a planejamento
- Exemplo de busca em grafos:
- CoT: "alucina" relações inexistentes e chega a respostas erradas
- Coconut: consegue encontrar o caminho correto usando múltiplos tokens de pensamento latente
- Como o Coconut consegue explorar vários caminhos possíveis, ele mostra melhor desempenho em tarefas intensivas em planejamento
Conclusão e direções para pesquisas futuras
- Conclusão:
- A abordagem COCONUT melhora significativamente a capacidade de raciocínio dos LLMs
- O raciocínio no espaço latente oferece desempenho superior em tarefas orientadas a planejamento por meio de padrões semelhantes a BFS
- Direções para pesquisas futuras:
- Integrar o pensamento contínuo desde a fase de pré-treinamento
- Aumentar a eficiência para lidar com múltiplos raciocínios sequenciais
- Explorar a possibilidade de combinar CoT com pensamento latente
1 comentários
Comentário no Hacker News
A ênfase em BFS é o oposto do que tentei. Humanos dividem o trabalho em etapas curtas guiadas por instinto e intuição, e etapas longas para resumir/armazenar a próxima etapa. Em caso de falha, resumem a árvore da falha para excluí-la de escolhas futuras.
O próximo passo é criar representações sem linguagem humana. Se LLMs conseguirem se comunicar apenas por embeddings, sem entrada de texto humano, isso abrirá um novo capítulo da IA.
A Meta começa com um modelo de linguagem pré-treinado e faz fine-tuning com exemplos de raciocínio passo a passo. Introduz novos tokens para fazer o modelo mudar para um modo de pensamento em espaço latente.
Fico me perguntando se pular as etapas de embedding/unembedding para o pensamento interno é a grande melhoria, ou se o principal é o método de treinamento que ensina a alternar entre CoT, "pensamento latente" e saída em texto.
Pode ser o momento do "isso" para IA/LLMs. Humanos não pensam em "tokens". Ao permanecer no espaço latente, o modelo pode expressar ideias com resolução maior do que a linguagem.
Os concorrentes estão alcançando rapidamente. Espero ver vários SkyNets competindo.
Fico curioso se a base de usuários dos personagens gerados por IA do Facebook poderá ter interações melhores.
O site diz que simplifica o artigo, mas tem muitos anúncios e não consigo encontrar "Coconut" na página oficial da Meta FAIR. Fico em dúvida se este site é realmente a melhor opção para linkar.
É uma postagem duplicada de 20 dias atrás.