13 pontos por xguru 2023-07-13 | 1 comentários | Compartilhar no WhatsApp
  • A engenharia de prompts é parecida com alquimia: não existe um método claro para prever o que será mais eficaz
  • Para encontrar o prompt mais adequado, não há alternativa além de continuar experimentando
  • gpt-prompt-engineer é uma ferramenta que torna essa experimentação muito mais fácil
  • Se você descrever a tarefa e fornecer casos de teste simples, o sistema gera, testa e avalia vários prompts para encontrar o melhor prompt
  • Recursos oferecidos
    • Geração de prompts: gera diversos prompts usando GPT-4 e GPT-3.5-Turbo
    • Teste de prompts: testa cada prompt com base em casos de teste, mede o desempenho e os classifica com um sistema de pontuação ELO
    • Sistema de pontuação ELO: cada prompt começa com classificação ELO 1200 e, ao competir com os demais, varia de acordo com o desempenho. Isso permite ver qual prompt é o melhor
    • Versão de Classification: notebook projetado para tarefas de classificação. Avalia a precisão de cada caso de teste e mostra em tabela a pontuação de cada prompt
    • Logging com Weights & Biases: oferece suporte a registro de valores como temperatura, máximo de tokens, prompts de sistema/usuário, casos de teste e classificação ELO final

Conteúdo resumido pelo GN⁺

  • A engenharia de prompts é como alquimia, em que a experimentação é o ponto central.
  • gpt-prompt-engineer é uma ferramenta que leva a engenharia de prompts a um novo nível.
  • Usa GPT-4 e GPT-3.5-Turbo para gerar prompts com base em casos de uso e casos de teste.
  • O sistema testa e classifica os prompts usando um sistema de classificação ELO.
  • Com o sistema ELO, é fácil identificar os prompts mais eficazes.
  • gpt-prompt-engineer também tem uma versão para tarefas de classificação.
  • Ela avalia a precisão dos casos de teste e fornece uma pontuação para cada prompt.
  • O logging opcional com Weights & Biases permite acompanhar configurações e classificações.
  • Para usar gpt-prompt-engineer, é preciso abrir o notebook no Google Colab ou em um Jupyter Notebook local.
  • Adicione a chave da API da OpenAI e selecione a versão adequada do modelo.
  • Defina os casos de uso e os casos de teste.
  • Escolha o número de prompts a serem gerados.
  • Chame as funções apropriadas para gerar e testar os prompts.
  • A classificação ELO final ou a pontuação será exibida em uma tabela.
  • Contribuições para o projeto são bem-vindas.
  • Este projeto usa a licença MIT.
  • Para mais informações, entre em contato com Matt Shumer.

1 comentários

 
GN⁺ 2023-07-13
Comentários do Hacker News
  • Em vez de fazer benchmarking com base nas respostas reais do modelo, ele classifica os prompts de acordo com a capacidade do GPT-4 de imaginar o desempenho deles.
  • A popularidade desta ferramenta entre desenvolvedores de IA pode vir do apelo de usar LLMs para avaliar LLMs, mas não há atalho para avaliar o desempenho em aplicações reais.
  • Engenharia de prompts não é considerada uma ciência exata como as áreas tradicionais da engenharia.
  • Há preocupações sobre o custo e a dificuldade de usar o GPT-4 e esta ferramenta, e se vale a pena mudar o prompt depois de encontrar o prompt ideal.
  • Gerar prompts para engenharia de prompts pode ser visto como uma forma de metaengenharia.
  • Há preocupações sobre a coleta de dados de usuários pelo GPT-Engineer e sobre suas motivações.
  • Alguns sugerem usar o GPT para gerar prompts a fim de reduzir ainda mais a intervenção humana.
  • O artigo não explica como os prompts são classificados.