2 pontos por GN⁺ 2024-09-17 | 1 comentários | Compartilhar no WhatsApp
  • g1 é um protótipo inicial que usa estratégias de prompt para melhorar a capacidade de raciocínio de LLMs
  • Isso permite que LLMs resolvam problemas lógicos e enfrentem questões com as quais modelos existentes têm dificuldade
  • g1 foi disponibilizado como open source para inspirar a comunidade open source a desenvolver novas estratégias

Como funciona

  • g1 usa o Llama3.1-70b para gerar uma Chain of Thought dinâmica.
  • Em cada etapa, o LLM pode avançar para o próximo passo do raciocínio ou fornecer a resposta final.
  • O prompt de sistema inclui dicas para o LLM.
  • Por exemplo, há instruções como "incluir a exploração de respostas alternativas" e "usar pelo menos 3 métodos para chegar à resposta".
  • Esses métodos melhoram a capacidade de raciocínio do LLM.

Exemplos

  • g1 consegue resolver problemas lógicos simples com precisão de 60-80%.
  • Exemplo: para a pergunta "quantos Rs há em strawberry?", o g1 mostrou 70% de precisão.

Início rápido

  • Como usar a interface do Streamlit:

    python3 -m venv venv  
    source venv/bin/activate  
    pip3 install -r requirements.txt  
    export GROQ_API_KEY=gsk...  
    streamlit run app.py  
    
  • Como usar a interface do Gradio:

    cd gradio  
    pip3 install -r requirements.txt  
    python3 app.py  
    

Estratégias de prompt

  • Exemplo de prompt:

    {  
      "title": "Identifying Key Information",  
      "content": "To begin solving this problem, we need to carefully examine the given information and identify the crucial elements that will guide our solution process. This involves...",  
      "next_action": "continue"  
    }  
    
  • Estrutura do prompt:

    • Atribuir o papel de assistente de IA especialista
    • Fornecer título e conteúdo para cada etapa
    • Responder em formato JSON
    • Usar pelo menos 3 etapas de raciocínio
    • Reconhecer as limitações do LLM e incluir a exploração de respostas alternativas
    • Ao revisar, usar de fato uma abordagem diferente

Principais forks

  • Mult1: gera uma cadeia de raciocínio semelhante ao o1 usando vários provedores de IA (repositório no GitHub)

Créditos

  • Este app foi desenvolvido por Benjamin Klieger

Resumo do GN⁺

  • g1 é um protótipo inicial que usa estratégias de prompt para melhorar a capacidade de raciocínio de LLMs.
  • Foi disponibilizado como open source para inspirar a comunidade open source a desenvolver novas estratégias.
  • g1 mostra precisão mais alta do que modelos existentes na resolução de problemas lógicos simples.
  • Este artigo é útil para explorar diferentes métodos de melhorar a capacidade de raciocínio de LLMs.
  • Outro projeto com funcionalidade semelhante é o o1 da OpenAI.

1 comentários

 
GN⁺ 2024-09-17
Comentários do Hacker News
  • O método ChainOfThought é simples, e TreeOfThoughts é um método mais sofisticado
    • As pistas relacionadas à OpenAI têm a ver com busca em árvore
    • O importante é construir o CoT como uma árvore e encontrar a solução ideal
  • É engraçado destacar instruções em MAIÚSCULAS
    • A primeira pessoa a alcançar a AGI com sucesso encontrará uma forma de aumentar a confiabilidade dos LLMs
  • A inovação do o1 não é o Chain-of-Thought, mas sim ensinar o modelo a executar bem o CoT
    • Não é possível obter o desempenho do o1 apenas com prompt engineering simples
  • Um LLM pode resolver problemas “ampliando” a entrada de formas diferentes
    • É possível inserir o texto letra por letra ou convertê-lo em imagem para verificar os detalhes
  • Faz algo semelhante ao projeto optillm
    • É possível melhorar LLMs usando várias técnicas de otimização
  • Foi modificado para rodar 100% localmente usando ollama:8b
    • O Readme ainda não foi atualizado
  • É importante encontrar a definição de “raciocínio”
    • O problema de raciocínio dos LLMs pode ser resolvido combinando-o com algoritmos clássicos
    • É preciso dividir o processo de pensamento em duas partes e executá-lo no modelo adequado
  • Em um prompt que pergunta qual é maior, .9 ou .11, respondeu que .9 é maior
    • Isso é apenas um prompt de sistema simples
  • Por diversão, alguém fez um fork do projeto para rodar localmente o modelo Llama-3.1 7B
    • Ele não consegue resolver o problema do morango, mas descobre que 0.9 é maior