29 pontos por vkehfdl1 2023-08-08 | 7 comentários | Compartilhar no WhatsApp
  • A nota de Língua Coreana no CSAT do GPT-4, que antes era equivalente ao nível 3 (86 pontos, top 22%), foi melhorada para o nível 2 (94 pontos, top 5%) com engenharia de prompts baseada em CoT.
  • Usando prompts especializados para tipos específicos de questões gramaticais, chegou a alcançar até o nível 1 (96 pontos, top 4%).
  • O texto completo dos prompts, o código-fonte e o conjunto de dados de Língua Coreana do CSAT utilizado foram disponibilizados como open source no GitHub.
  • Um caso que mostra que, embora ainda se diga que o desempenho de LLMs em coreano seja insuficiente, o GPT-4 já atingiu um nível de capacidade linguística entre os mais altos.

Olá. Eu mesmo usei prompts CoT para fazer o GPT-4 resolver a prova de Língua Coreana do CSAT extremamente bem.

Ainda não encontrei um prompt que chegue ao top 5% de forma consistente ou aos 100 pontos, e por causa do custo da API só consegui testar a prova de 2023. Por isso, estou disponibilizando tudo como open source para pedir a ajuda de mais pessoas. Espero que muitos possam usar livremente o código-fonte publicado para testar novos prompts e, quem sabe, encontrar técnicas de prompting ainda mais avançadas!

7 comentários

 
wedding 2023-08-09

Projeto interessante~

 
kuber 2023-08-08

Que tal abordar isso não como uma questão de escolher entre 5 alternativas, mas como um problema de classificação em que cada alternativa é tratada como True / False?

Se você fizer com que, via CoT, cada alternativa seja julgada de forma independente como verdadeira ou falsa e depois montar Agents que tomem a decisão final olhando para os fundamentos de raciocínio dessas 5 análises, dá para obter resultados de qualidade mais alta mesmo com modelos de nível inferior.

No método que você montou agora, a avaliação começa pela alternativa 1, então, ao avaliar as alternativas seguintes, acaba se adicionando um viés prévio em relação à alternativa anterior. Um dos motivos pelos quais o GPT-4 é impressionante é que, como o modelo ficou grande o suficiente, esse tipo de viés tende a influenciar menos; mas acho que também vi em um artigo que esse efeito perde força à medida que o texto-base fica mais longo.
(Embora fosse um paper no arXiv sem revisão por pares... ainda assim, o conteúdo parecia bastante plausível.)

Claro, o custo de API vai ficar 6 vezes maior, mas, pessoalmente, acho que, com um bom prompting, algo como a prova de língua coreana do CSAT já seria totalmente viável até com o GPT-3.5.

 
vkehfdl1 2023-08-09

Como você mencionou, se avaliarmos as cinco opções de forma independente, acaba acontecendo também o fenômeno de haver duas ou mais respostas corretas, ou então nenhuma. Aí seria preciso adicionar mais um prompt para julgar novamente olhando cada resposta correta e explicação.
Ou então também daria para tentar o prompt várias vezes para cada uma das cinco alternativas e considerar como correta a alternativa mais escolhida como resposta, mas, como você disse, o custo da API iria virar uma bola de neve cada vez maior ;; mesmo já com o prompt atual, uma única tentativa do CSAT já está custando entre 4 e 5 dólares T_T

 
kuber 2023-08-09

Bem-vindo ao mundo da engenharia, onde também é preciso pensar em redução de custos kkk

 
dohyun682 2023-08-08

O nome é "Slayer da Comissão de Avaliação" mesmo kkkkkkk

 
kuroneko 2023-08-08

Uau, que interessante.

Dá para sentir que, desde o Step by step, a engenharia de prompts está avançando muito.
(E também fico pensando se será que vai surgir um LLM open source com capacidade em coreano no nível do GPT-4....)

 
vkehfdl1 2023-08-09

Os LLMs coreanos de código aberto ainda estão bem aquém até do GPT-3.5 T_T Espero muito que os LLMs de código aberto cheguem ao nível do GPT-4.