2 pontos por GN⁺ 2024-03-24 | 1 comentários | Compartilhar no WhatsApp

Como o raciocínio em cadeia de pensamento ajuda no cálculo dos transformadores

  • Quando grandes modelos de linguagem mostram seu processo de trabalho ao resolver problemas, o desempenho melhora.
  • Pesquisadores estão começando a entender por que essa técnica funciona.

Treinamento de transformadores

  • Grandes modelos de linguagem se baseiam em estruturas matemáticas chamadas redes neurais artificiais.
  • Os “neurônios” dentro da rede neural realizam operações matemáticas simples sobre longas sequências de números que representam palavras individuais.
  • Os transformadores usam uma estrutura matemática especial chamada cabeças de atenção para varrer o texto rapidamente e identificar conexões relevantes entre palavras.

A complexidade dos transformadores

  • Os estudos teóricos sobre transformadores os analisam como se fossem certos tipos de computadores, sem considerar o que acontece durante o treinamento.
  • Pesquisadores demonstraram que transformadores podem ser tão poderosos quanto máquinas de Turing.

Experimento mental

  • Os pesquisadores levantam a questão de quanto mais poderosos os transformadores se tornam quando reutilizam suas saídas.
  • O raciocínio em cadeia de pensamento pode oferecer uma forma de contornar as limitações dos transformadores.

De volta à realidade

  • A análise teórica revela muito sobre modelos de linguagem reais, mas não permite esperar resultados perfeitos.
  • A análise da teoria da complexidade é importante para reconhecer as limitações dos transformadores.

Opinião do GN⁺

  • Este estudo traz uma contribuição importante para entender os limites e o potencial dos modelos transformadores no campo da inteligência artificial. Em especial, oferece insights sobre como o raciocínio em cadeia de pensamento pode ajudar a resolver problemas complexos.
  • No entanto, como os resultados de pesquisas teóricas nem sempre coincidem com o desempenho de modelos reais, é preciso cautela ao aplicá-los em aplicações práticas. O desempenho em ambientes reais é influenciado por vários fatores, como dados de treinamento, arquitetura do modelo e ajuste de hiperparâmetros.
  • Este artigo fornece informações úteis para pesquisadores de IA ao reconhecer as limitações dos modelos de processamento de linguagem e sugerir direções de pesquisa para desenvolver modelos melhores.
  • Um projeto semelhante em funcionalidade é a série GPT da OpenAI, que é um bom exemplo para observar na prática o desempenho de grandes modelos de linguagem.
  • Ao adotar novas tecnologias ou modelos, é sempre necessário considerar compatibilidade com sistemas existentes, custo, desempenho e manutenção, e a pesquisa abordada neste artigo pode fornecer conhecimento de base para apoiar essas decisões.

1 comentários

 
GN⁺ 2024-03-24
Comentários do Hacker News
  • Opinião sobre a experiência de interagir com chain-of-thought:

    • Chain-of-thought não é como uma cadeia rigorosa de matemática ou lógica.
    • O que o modelo produz por meio de raciocínio passo a passo depende da força do contexto relevante, e isso é muito mais fraco do que a matemática/lógica realizada por humanos.
    • O modelo não raciocina logicamente como um humano; ele dá saltos por meio do contexto relevante.
    • Modelos de transformação só realizam computação ao gerar tokens, então usar chain-of-thought para gerar mais tokens aumenta o tempo que o modelo tem para "pensar".
  • Perguntas centrais relacionadas ao estudo formal da computação:

    • O estudo formal da computação remonta a Alan Turing, que imaginou a máquina de Turing em 1936.
    • Antes disso, na década de 1920, Moses Schönfinkel desenvolveu a lógica combinatória, e no início da década de 1930 Alonzo Church desenvolveu o cálculo lambda.
    • Esses modelos não são adequados como base para a teoria da complexidade computacional.
  • Duas perspectivas sobre grandes modelos de linguagem (LLMs):

    • As pessoas que afirmam que LLMs "têm consciência" ou "são apenas preditores do próximo token com um conjunto de dados impressionante" tendem a se dividir entre quem aprendeu fundamentos de ML antes de entrar em contato com LLMs e quem fez o caminho inverso.
    • Como os conceitos fundamentais podem limitar a visão do quadro geral, o debate é bem-vindo.
    • Os resultados do artigo original sobre chain-of-thought muitas vezes não são reproduzidos em tentativas posteriores.
  • O modelo não consegue pensar:

    • O modelo usa o contexto de entrada para prever a saída.
    • Em problemas que precisam ser resolvidos de forma iterativa, é necessário manter as etapas intermediárias no contexto.
  • Uma razão simples sobre complexidade computacional:

    • Se pensarmos em um LLM como um computador que faz uma única passagem direta em tempo constante sobre a entrada, então dar mais ciclos a ele permite realizar mais computação.
    • Isso é uma extensão do problema de um perceptron de camada única não conseguir calcular XOR.
  • Uma explicação simples para o milagre do chain-of-thought:

    • Cita um tweet sobre como os dados e o prompt funcionam de forma surpreendente.
    • Existem muitos sites que fornecem soluções passo a passo para problemas de matemática.
  • Opinião relacionada a chain-of-thought:

    • Chain-of-thought é semelhante a "squishing", algo entendido intuitivamente como a abordagem correta para aproximar a inteligência.
  • Caso de aplicação de chain-of-thought e experimento com consciência artificial:

    • Quando o chain-of-thought continua além da resposta à pergunta, surge uma forma de consciência artificial.
  • Caso de aplicação invertida de chain-of-thought:

    • O modelo é treinado para primeiro dar a resposta e depois inferir as etapas.
    • Pesquisadores da Mistral AI usaram esse método, e o modelo mostrou o comportamento de responder primeiro e raciocinar depois em perguntas complexas.