6 pontos por GN⁺ 2025-01-01 | 1 comentários | Compartilhar no WhatsApp
  • Modelos de linguagem de grande porte (LLMs) são pré-treinados em enormes volumes de linguagem humana e demonstram fortes capacidades de raciocínio
  • A abordagem "Chain-of-Thought (CoT)" ajuda o modelo a chegar à resposta ao gerar um processo de raciocínio passo a passo
  • No entanto, o raciocínio de um LLM precisa ser gerado em palavras, o que impõe uma limitação fundamental ao modelo
  • Humanos nem sempre expressam seus pensamentos em linguagem. A IA também precisa fazer isso?
  • O artigo de pesquisa da Meta, "Training Large Language Models to Reason in a Continuous Latent Space", propõe uma nova abordagem, COCONUT (Chain of Continuous Thought), para superar essas limitações

Abordagem Chain-of-Thought (CoT)

  • CoT recebe uma pergunta como entrada e gera a resposta final por meio de raciocínio em etapas
  • O modelo processa os tokens de entrada para gerar o primeiro token de resposta (o início do processo de raciocínio)
  • Em seguida, a pergunta e os tokens de raciocínio anteriores são repetidamente passados de volta ao modelo para completar todo o processo de raciocínio e, por fim, gerar a resposta

Abordagem Chain of Continuous Thought (COCONUT)

  • O COCONUT alterna entre modo de linguagem e modo de pensamento latente (latent thought)
    • Modo de linguagem: funciona como um modelo de linguagem padrão, gerando o próximo token
    • Modo de pensamento latente: usa o último estado oculto para calcular a próxima etapa
  • No modo de pensamento latente, usar o último estado oculto como próxima entrada permite um raciocínio mais eficiente
  • O modo de pensamento latente começa com o token <bot> e termina com o token <eot>, retornando então ao modo de linguagem

Procedimento de treinamento

  • O modelo é treinado com base em dados CoT existentes (pergunta, etapas de raciocínio e resposta final)
  • O treinamento é feito de forma gradual:
    • Na etapa inicial, o modelo aprende a gerar etapas de raciocínio baseadas em linguagem e a resposta
    • Nas etapas seguintes, as etapas de raciocínio são removidas e, em seu lugar, são adicionados tokens de pensamento latente
  • Em cada etapa, a perda é calculada sobre as etapas de raciocínio baseadas em linguagem que restam e sobre a resposta
  • O pensamento latente é totalmente diferenciável, permitindo backpropagation (retropropagação)

Transição da geração de pensamento para a geração de tokens de palavras

  • Há duas estratégias para o modelo passar do modo de pensamento latente para o modo de linguagem.
  • A primeira estratégia faz com que "o modelo decida usando um classificador binário", e a segunda usa "um número fixo de tokens de pensamento latente"
  • Como ambas produzem resultados semelhantes, foi adotada a abordagem mais simples de número fixo

Resultados experimentais

  • O método Coconut mostrou desempenho superior ao No-CoT em todos os datasets.
  • Em comparação com CoT, CoT foi melhor em matemática, mas Coconut foi superior no ProsQA, que exige capacidade de planejamento.
  • Em comparação com i-CoT, Coconut mostrou melhor acurácia em matemática.
  • Desempenho do Coconut:
    • GSM8K (matemática): desempenho inferior ao CoT
    • ProsQA (exige planejamento): desempenho superior ao CoT
    • No-CoT (gera resposta direta sem raciocínio): desempenho superior em todos os datasets
    • Em termos de eficiência, gera menos tokens do que CoT
  • Comparação com i-CoT:
    • Maior acurácia em matemática
    • Desempenho semelhante em planejamento e raciocínio lógico
  • Efeito do curriculum learning:
    • O modelo "w/o curriculum" teve desempenho significativamente inferior

Capacidade de raciocínio semelhante a BFS

  • No dataset ProsQA, o COCONUT apresentou excelente desempenho na resolução de problemas orientados a planejamento
  • Exemplo de busca em grafos:
    • CoT: "alucina" relações inexistentes e chega a respostas erradas
    • Coconut: consegue encontrar o caminho correto usando múltiplos tokens de pensamento latente
  • Como o Coconut consegue explorar vários caminhos possíveis, ele mostra melhor desempenho em tarefas intensivas em planejamento

Conclusão e direções para pesquisas futuras

  • Conclusão:
    • A abordagem COCONUT melhora significativamente a capacidade de raciocínio dos LLMs
    • O raciocínio no espaço latente oferece desempenho superior em tarefas orientadas a planejamento por meio de padrões semelhantes a BFS
  • Direções para pesquisas futuras:
    • Integrar o pensamento contínuo desde a fase de pré-treinamento
    • Aumentar a eficiência para lidar com múltiplos raciocínios sequenciais
    • Explorar a possibilidade de combinar CoT com pensamento latente

1 comentários

 
GN⁺ 2025-01-01
Comentário no Hacker News
  • A ênfase em BFS é o oposto do que tentei. Humanos dividem o trabalho em etapas curtas guiadas por instinto e intuição, e etapas longas para resumir/armazenar a próxima etapa. Em caso de falha, resumem a árvore da falha para excluí-la de escolhas futuras.

    • O efeito do instinto diminui rapidamente com a distância. Usar BFS reduz o valor do instinto e favorece a computação. A abordagem muda conforme o tipo de problema.
    • Se quiser criar um protótipo junto, entre em contato.
  • O próximo passo é criar representações sem linguagem humana. Se LLMs conseguirem se comunicar apenas por embeddings, sem entrada de texto humano, isso abrirá um novo capítulo da IA.

  • A Meta começa com um modelo de linguagem pré-treinado e faz fine-tuning com exemplos de raciocínio passo a passo. Introduz novos tokens para fazer o modelo mudar para um modo de pensamento em espaço latente.

    • A camada oculta final é copiada repetidamente para a camada de entrada para obter mais insights.
    • O treinamento substitui gradualmente etapas de raciocínio em linguagem por etapas autorregressivas no espaço latente. O modelo aprende a ativar e encerrar por conta própria o modo de pensamento em espaço latente.
  • Fico me perguntando se pular as etapas de embedding/unembedding para o pensamento interno é a grande melhoria, ou se o principal é o método de treinamento que ensina a alternar entre CoT, "pensamento latente" e saída em texto.

    • É interessante que uma quantidade fixa de "pensamento latente" tenha o mesmo desempenho de um classificador binário.
  • Pode ser o momento do "isso" para IA/LLMs. Humanos não pensam em "tokens". Ao permanecer no espaço latente, o modelo pode expressar ideias com resolução maior do que a linguagem.

    • O espaço latente tem baixo custo de execução. Dá para pensar sem as etapas de codificação/decodificação da linguagem. Também permite raciocinar com diferentes tipos de dados como entrada.
  • Os concorrentes estão alcançando rapidamente. Espero ver vários SkyNets competindo.

  • Fico curioso se a base de usuários dos personagens gerados por IA do Facebook poderá ter interações melhores.

  • O site diz que simplifica o artigo, mas tem muitos anúncios e não consigo encontrar "Coconut" na página oficial da Meta FAIR. Fico em dúvida se este site é realmente a melhor opção para linkar.

  • É uma postagem duplicada de 20 dias atrás.