Coconut da Meta AI – melhorando o raciocínio de LLMs com uma cadeia contínua de pensamento

(aipapersacademy.com)

6 pontos por GN⁺ 2025-01-01 | 1 comentários | Compartilhar no WhatsApp

Modelos de linguagem de grande porte (LLMs) são pré-treinados em enormes volumes de linguagem humana e demonstram fortes capacidades de raciocínio
A abordagem "Chain-of-Thought (CoT)" ajuda o modelo a chegar à resposta ao gerar um processo de raciocínio passo a passo
No entanto, o raciocínio de um LLM precisa ser gerado em palavras, o que impõe uma limitação fundamental ao modelo
Humanos nem sempre expressam seus pensamentos em linguagem. A IA também precisa fazer isso?
O artigo de pesquisa da Meta, "Training Large Language Models to Reason in a Continuous Latent Space", propõe uma nova abordagem, COCONUT (Chain of Continuous Thought), para superar essas limitações

Abordagem Chain-of-Thought (CoT)

CoT recebe uma pergunta como entrada e gera a resposta final por meio de raciocínio em etapas
O modelo processa os tokens de entrada para gerar o primeiro token de resposta (o início do processo de raciocínio)
Em seguida, a pergunta e os tokens de raciocínio anteriores são repetidamente passados de volta ao modelo para completar todo o processo de raciocínio e, por fim, gerar a resposta

Abordagem Chain of Continuous Thought (COCONUT)

O COCONUT alterna entre modo de linguagem e modo de pensamento latente (latent thought)
- Modo de linguagem: funciona como um modelo de linguagem padrão, gerando o próximo token
- Modo de pensamento latente: usa o último estado oculto para calcular a próxima etapa
No modo de pensamento latente, usar o último estado oculto como próxima entrada permite um raciocínio mais eficiente
O modo de pensamento latente começa com o token <bot> e termina com o token <eot>, retornando então ao modo de linguagem

Procedimento de treinamento

O modelo é treinado com base em dados CoT existentes (pergunta, etapas de raciocínio e resposta final)
O treinamento é feito de forma gradual:
- Na etapa inicial, o modelo aprende a gerar etapas de raciocínio baseadas em linguagem e a resposta
- Nas etapas seguintes, as etapas de raciocínio são removidas e, em seu lugar, são adicionados tokens de pensamento latente
Em cada etapa, a perda é calculada sobre as etapas de raciocínio baseadas em linguagem que restam e sobre a resposta
O pensamento latente é totalmente diferenciável, permitindo backpropagation (retropropagação)

Transição da geração de pensamento para a geração de tokens de palavras

Há duas estratégias para o modelo passar do modo de pensamento latente para o modo de linguagem.
A primeira estratégia faz com que "o modelo decida usando um classificador binário", e a segunda usa "um número fixo de tokens de pensamento latente"
Como ambas produzem resultados semelhantes, foi adotada a abordagem mais simples de número fixo

Resultados experimentais

O método Coconut mostrou desempenho superior ao No-CoT em todos os datasets.
Em comparação com CoT, CoT foi melhor em matemática, mas Coconut foi superior no ProsQA, que exige capacidade de planejamento.
Em comparação com i-CoT, Coconut mostrou melhor acurácia em matemática.
Desempenho do Coconut:
- GSM8K (matemática): desempenho inferior ao CoT
- ProsQA (exige planejamento): desempenho superior ao CoT
- No-CoT (gera resposta direta sem raciocínio): desempenho superior em todos os datasets
- Em termos de eficiência, gera menos tokens do que CoT
Comparação com i-CoT:
- Maior acurácia em matemática
- Desempenho semelhante em planejamento e raciocínio lógico
Efeito do curriculum learning:
- O modelo "w/o curriculum" teve desempenho significativamente inferior

Capacidade de raciocínio semelhante a BFS

No dataset ProsQA, o COCONUT apresentou excelente desempenho na resolução de problemas orientados a planejamento
Exemplo de busca em grafos:
- CoT: "alucina" relações inexistentes e chega a respostas erradas
- Coconut: consegue encontrar o caminho correto usando múltiplos tokens de pensamento latente
Como o Coconut consegue explorar vários caminhos possíveis, ele mostra melhor desempenho em tarefas intensivas em planejamento

Conclusão e direções para pesquisas futuras

Conclusão:
- A abordagem COCONUT melhora significativamente a capacidade de raciocínio dos LLMs
- O raciocínio no espaço latente oferece desempenho superior em tarefas orientadas a planejamento por meio de padrões semelhantes a BFS
Direções para pesquisas futuras:
- Integrar o pensamento contínuo desde a fase de pré-treinamento
- Aumentar a eficiência para lidar com múltiplos raciocínios sequenciais
- Explorar a possibilidade de combinar CoT com pensamento latente

1 comentários

GN⁺ 2025-01-01

Comentário no Hacker News

A ênfase em BFS é o oposto do que tentei. Humanos dividem o trabalho em etapas curtas guiadas por instinto e intuição, e etapas longas para resumir/armazenar a próxima etapa. Em caso de falha, resumem a árvore da falha para excluí-la de escolhas futuras.
- O efeito do instinto diminui rapidamente com a distância. Usar BFS reduz o valor do instinto e favorece a computação. A abordagem muda conforme o tipo de problema.
- Se quiser criar um protótipo junto, entre em contato.
O próximo passo é criar representações sem linguagem humana. Se LLMs conseguirem se comunicar apenas por embeddings, sem entrada de texto humano, isso abrirá um novo capítulo da IA.
A Meta começa com um modelo de linguagem pré-treinado e faz fine-tuning com exemplos de raciocínio passo a passo. Introduz novos tokens para fazer o modelo mudar para um modo de pensamento em espaço latente.
- A camada oculta final é copiada repetidamente para a camada de entrada para obter mais insights.
- O treinamento substitui gradualmente etapas de raciocínio em linguagem por etapas autorregressivas no espaço latente. O modelo aprende a ativar e encerrar por conta própria o modo de pensamento em espaço latente.
Fico me perguntando se pular as etapas de embedding/unembedding para o pensamento interno é a grande melhoria, ou se o principal é o método de treinamento que ensina a alternar entre CoT, "pensamento latente" e saída em texto.
- É interessante que uma quantidade fixa de "pensamento latente" tenha o mesmo desempenho de um classificador binário.
Pode ser o momento do "isso" para IA/LLMs. Humanos não pensam em "tokens". Ao permanecer no espaço latente, o modelo pode expressar ideias com resolução maior do que a linguagem.
- O espaço latente tem baixo custo de execução. Dá para pensar sem as etapas de codificação/decodificação da linguagem. Também permite raciocinar com diferentes tipos de dados como entrada.
Os concorrentes estão alcançando rapidamente. Espero ver vários SkyNets competindo.
Fico curioso se a base de usuários dos personagens gerados por IA do Facebook poderá ter interações melhores.
O site diz que simplifica o artigo, mas tem muitos anúncios e não consigo encontrar "Coconut" na página oficial da Meta FAIR. Fico em dúvida se este site é realmente a melhor opção para linkar.
É uma postagem duplicada de 20 dias atrás.

Coconut da Meta AI – melhorando o raciocínio de LLMs com uma cadeia contínua de pensamento

Abordagem Chain-of-Thought (CoT)

Abordagem Chain of Continuous Thought (COCONUT)

Procedimento de treinamento

Transição da geração de pensamento para a geração de tokens de palavras

Resultados experimentais

Capacidade de raciocínio semelhante a BFS

Conclusão e direções para pesquisas futuras

Leituras relacionadas

1 comentários

Comentário no Hacker News