Projeto open source que busca nota máxima em Língua Coreana no CSAT com engenharia de prompts
(github.com/NomaDamas)- A nota de Língua Coreana no CSAT do GPT-4, que antes era equivalente ao nível 3 (86 pontos, top 22%), foi melhorada para o nível 2 (94 pontos, top 5%) com engenharia de prompts baseada em CoT.
- Usando prompts especializados para tipos específicos de questões gramaticais, chegou a alcançar até o nível 1 (96 pontos, top 4%).
- O texto completo dos prompts, o código-fonte e o conjunto de dados de Língua Coreana do CSAT utilizado foram disponibilizados como open source no GitHub.
- Um caso que mostra que, embora ainda se diga que o desempenho de LLMs em coreano seja insuficiente, o GPT-4 já atingiu um nível de capacidade linguística entre os mais altos.
Olá. Eu mesmo usei prompts CoT para fazer o GPT-4 resolver a prova de Língua Coreana do CSAT extremamente bem.
Ainda não encontrei um prompt que chegue ao top 5% de forma consistente ou aos 100 pontos, e por causa do custo da API só consegui testar a prova de 2023. Por isso, estou disponibilizando tudo como open source para pedir a ajuda de mais pessoas. Espero que muitos possam usar livremente o código-fonte publicado para testar novos prompts e, quem sabe, encontrar técnicas de prompting ainda mais avançadas!
7 comentários
Projeto interessante~
Que tal abordar isso não como uma questão de escolher entre 5 alternativas, mas como um problema de classificação em que cada alternativa é tratada como True / False?
Se você fizer com que, via CoT, cada alternativa seja julgada de forma independente como verdadeira ou falsa e depois montar Agents que tomem a decisão final olhando para os fundamentos de raciocínio dessas 5 análises, dá para obter resultados de qualidade mais alta mesmo com modelos de nível inferior.
No método que você montou agora, a avaliação começa pela alternativa 1, então, ao avaliar as alternativas seguintes, acaba se adicionando um viés prévio em relação à alternativa anterior. Um dos motivos pelos quais o GPT-4 é impressionante é que, como o modelo ficou grande o suficiente, esse tipo de viés tende a influenciar menos; mas acho que também vi em um artigo que esse efeito perde força à medida que o texto-base fica mais longo.
(Embora fosse um paper no arXiv sem revisão por pares... ainda assim, o conteúdo parecia bastante plausível.)
Claro, o custo de API vai ficar 6 vezes maior, mas, pessoalmente, acho que, com um bom prompting, algo como a prova de língua coreana do CSAT já seria totalmente viável até com o GPT-3.5.
Como você mencionou, se avaliarmos as cinco opções de forma independente, acaba acontecendo também o fenômeno de haver duas ou mais respostas corretas, ou então nenhuma. Aí seria preciso adicionar mais um prompt para julgar novamente olhando cada resposta correta e explicação.
Ou então também daria para tentar o prompt várias vezes para cada uma das cinco alternativas e considerar como correta a alternativa mais escolhida como resposta, mas, como você disse, o custo da API iria virar uma bola de neve cada vez maior ;; mesmo já com o prompt atual, uma única tentativa do CSAT já está custando entre 4 e 5 dólares T_T
Bem-vindo ao mundo da engenharia, onde também é preciso pensar em redução de custos kkk
O nome é "Slayer da Comissão de Avaliação" mesmo kkkkkkk
Uau, que interessante.
Dá para sentir que, desde o
Step by step, a engenharia de prompts está avançando muito.(E também fico pensando se será que vai surgir um LLM open source com capacidade em coreano no nível do GPT-4....)
Os LLMs coreanos de código aberto ainda estão bem aquém até do GPT-3.5 T_T Espero muito que os LLMs de código aberto cheguem ao nível do GPT-4.