3 pontos por xguru 2024-08-21 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O Prompt Caching otimiza o uso da API, permitindo retomar tarefas a partir de um prefixo específico do prompt
    • Reutiliza prompts grandes em várias chamadas de API sem reprocessá-los, reduzindo significativamente tempo de processamento e custos em tarefas repetitivas
  • Como funciona
    • Cache de prefixo de prompt: o sistema verifica se o prefixo do prompt foi armazenado em cache em uma consulta recente. Se encontrado, usa a versão em cache para reduzir tempo de processamento e custos. Caso contrário, processa o prompt completo e armazena o prefixo em cache.
    • Casos de uso: útil para prompts com muitos exemplos, grande volume de contexto ou informações de fundo, tarefas repetitivas com instruções consistentes e conversas longas com múltiplos turnos
    • Vida útil do cache: o cache permanece válido por 5 minutos e é renovado sempre que o conteúdo em cache é usado
  • Conteúdo do prompt que é armazenado em cache
    • Considera o prompt completo, incluindo tools, system e messages (nessa ordem). Inclui até o bloco especificado com cache_control
  • Preços
    • Claude 3.5 Sonnet: token de entrada base $3 / MTok, gravação em cache $3.75 / MTok, leitura de cache $0.30 / MTok, token de saída $15 / MTok
    • Claude 3 Haiku: token de entrada base $0.25 / MTok, gravação em cache $0.30 / MTok, leitura de cache $0.03 / MTok, token de saída $1.25 / MTok
    • Claude 3 Opus (lançamento futuro): token de entrada base $15 / MTok, gravação em cache $18.75 / MTok, leitura de cache $1.50 / MTok, token de saída $75 / MTok
  • Pontos principais
    • Tokens de gravação em cache são 25% mais caros do que tokens de entrada base
    • Tokens de leitura de cache são 90% mais baratos do que tokens de entrada base
  • Limitações do cache
    • Comprimento mínimo de prompt para uso de cache:
      • Claude 3.5 Sonnet e Claude 3 Opus: 1024 tokens
      • Claude 3 Haiku: 2048 tokens
    • Há um TTL de cache de 5 minutos, e atualmente ephemeral é o único tipo de cache compatível com essa duração de 5 minutos
  • Vários casos de uso
    • Agentes conversacionais: pode reduzir custo e latência em conversas com instruções longas ou documentos enviados
    • Assistentes de programação: melhora o desempenho de autocompletar e perguntas e respostas sobre o codebase ao manter no prompt seções relevantes ou uma versão resumida do codebase
    • Processamento de documentos grandes: permite incluir materiais longos com imagens no prompt sem aumentar a latência da resposta
    • Conjuntos detalhados de instruções: ajusta com mais precisão as respostas do Claude incluindo mais de 20 exemplos variados de respostas de alta qualidade
    • Uso de ferramentas por agentes: pode melhorar o desempenho em cenários com várias chamadas de ferramentas e mudanças repetitivas de código
    • Conversas sobre livros, artigos, documentos, transcrições de podcasts e outros conteúdos longos: permite incluir o(s) documento(s) completo(s) no prompt para que o usuário possa fazer perguntas

Ainda não há comentários.

Ainda não há comentários.