- O Prompt Caching otimiza o uso da API, permitindo retomar tarefas a partir de um prefixo específico do prompt
- Reutiliza prompts grandes em várias chamadas de API sem reprocessá-los, reduzindo significativamente tempo de processamento e custos em tarefas repetitivas
- Como funciona
- Cache de prefixo de prompt: o sistema verifica se o prefixo do prompt foi armazenado em cache em uma consulta recente. Se encontrado, usa a versão em cache para reduzir tempo de processamento e custos. Caso contrário, processa o prompt completo e armazena o prefixo em cache.
- Casos de uso: útil para prompts com muitos exemplos, grande volume de contexto ou informações de fundo, tarefas repetitivas com instruções consistentes e conversas longas com múltiplos turnos
- Vida útil do cache: o cache permanece válido por 5 minutos e é renovado sempre que o conteúdo em cache é usado
- Conteúdo do prompt que é armazenado em cache
- Considera o prompt completo, incluindo tools, system e messages (nessa ordem). Inclui até o bloco especificado com
cache_control
- Preços
- Claude 3.5 Sonnet: token de entrada base $3 / MTok, gravação em cache $3.75 / MTok, leitura de cache $0.30 / MTok, token de saída $15 / MTok
- Claude 3 Haiku: token de entrada base $0.25 / MTok, gravação em cache $0.30 / MTok, leitura de cache $0.03 / MTok, token de saída $1.25 / MTok
- Claude 3 Opus (lançamento futuro): token de entrada base $15 / MTok, gravação em cache $18.75 / MTok, leitura de cache $1.50 / MTok, token de saída $75 / MTok
- Pontos principais
- Tokens de gravação em cache são 25% mais caros do que tokens de entrada base
- Tokens de leitura de cache são 90% mais baratos do que tokens de entrada base
- Limitações do cache
- Comprimento mínimo de prompt para uso de cache:
- Claude 3.5 Sonnet e Claude 3 Opus: 1024 tokens
- Claude 3 Haiku: 2048 tokens
- Há um TTL de cache de 5 minutos, e atualmente
ephemeral é o único tipo de cache compatível com essa duração de 5 minutos
- Vários casos de uso
- Agentes conversacionais: pode reduzir custo e latência em conversas com instruções longas ou documentos enviados
- Assistentes de programação: melhora o desempenho de autocompletar e perguntas e respostas sobre o codebase ao manter no prompt seções relevantes ou uma versão resumida do codebase
- Processamento de documentos grandes: permite incluir materiais longos com imagens no prompt sem aumentar a latência da resposta
- Conjuntos detalhados de instruções: ajusta com mais precisão as respostas do Claude incluindo mais de 20 exemplos variados de respostas de alta qualidade
- Uso de ferramentas por agentes: pode melhorar o desempenho em cenários com várias chamadas de ferramentas e mudanças repetitivas de código
- Conversas sobre livros, artigos, documentos, transcrições de podcasts e outros conteúdos longos: permite incluir o(s) documento(s) completo(s) no prompt para que o usuário possa fazer perguntas
Ainda não há comentários.