Guia do desenvolvedor para aplicações com LLM em nível de produção (tradução)

ninebow · 2023-11-24T13:10:09+09:00

Este texto, escrito por Tal Peretz, desenvolvedor de produtos de IA da Zapier, foi traduzido com autorização. O texto original pode ser consultado aqui, e os principais pontos são os seguintes. Engenharia de prompts - etapa inicial O papel da avaliação: a Estrela do Norte (referência para a navegação) Abordagem sistemática para avaliações de IA / Systematic Approach to AI Evaluations Uso de datasets para testes aprofundados / Dataset Utilization for In-depth Testing Refinando avaliações com avaliações de IA / Refining Evaluations with AI Assessments Métricas para avaliar / Metrics to evaluate Avaliação humana como padrão-ouro / Human Evaluation as the Gold Standard RAG: informações aprofundadas e contextuais quando necessário Técnicas para experimentar / Techniques to Experiment With Fine-tuning: a arte da especialização Dados de treinamento insuficientes: o equilíbrio entre quantidade e qualidade / Insufficient Training Data: The Quantity-Quality Equilibrium Conjuntos de treinamento desbalanceados: o dilema do viés / Unbalanced Training Sets: The Bias Dilemma Reutilização de dados públicos: a necessidade de um novo sinal / Reusing Public Data: The New Signal Imperative Engenharia de prompts deficiente: o mandamento da clareza / Poor Prompt Engineering: The Clarity Commandment Não avaliar de forma incremental: a negligência contínua / Not Evaluating Incrementally: The Continuous Oversight Quando tudo é necessário Concluindo

(discuss.pytorch.kr)

32 pontos por ninebow 2023-11-24 | 3 comentários | Compartilhar no WhatsApp

Este texto, escrito por Tal Peretz, desenvolvedor de produtos de IA da Zapier, foi traduzido com autorização.
O texto original pode ser consultado aqui, e os principais pontos são os seguintes.

Engenharia de prompts - etapa inicial
O papel da avaliação: a Estrela do Norte (referência para a navegação)
- Abordagem sistemática para avaliações de IA / Systematic Approach to AI Evaluations
- Uso de datasets para testes aprofundados / Dataset Utilization for In-depth Testing
- Refinando avaliações com avaliações de IA / Refining Evaluations with AI Assessments
- Métricas para avaliar / Metrics to evaluate
- Avaliação humana como padrão-ouro / Human Evaluation as the Gold Standard
RAG: informações aprofundadas e contextuais quando necessário
- Técnicas para experimentar / Techniques to Experiment With
Fine-tuning: a arte da especialização
- Dados de treinamento insuficientes: o equilíbrio entre quantidade e qualidade / Insufficient Training Data: The Quantity-Quality Equilibrium
- Conjuntos de treinamento desbalanceados: o dilema do viés / Unbalanced Training Sets: The Bias Dilemma
- Reutilização de dados públicos: a necessidade de um novo sinal / Reusing Public Data: The New Signal Imperative
- Engenharia de prompts deficiente: o mandamento da clareza / Poor Prompt Engineering: The Clarity Commandment
- Não avaliar de forma incremental: a negligência contínua / Not Evaluating Incrementally: The Continuous Oversight
Quando tudo é necessário
Concluindo

3 comentários

cosine20 2023-11-27

Obrigado por compartilhar.

apkas 2023-11-24

Parece ser quase o mesmo conteúdo de A Survey of Techniques for Maximizing LLM Performance, publicado pela OpenAI, não é?

ninebow 2023-11-25

Eu não tinha assistido ao vídeo do OpenAI DevDay e só agora descobri que havia a sessão que você mencionou. :)
Obrigado por avisar!

(+ Para outras pessoas, compartilho o link do YouTube que encontrei!)
https://www.youtube.com/watch?v=ahnGLM-RC1Y

Guia do desenvolvedor para aplicações com LLM em nível de produção (tradução)

Leituras relacionadas

3 comentários