Anthropic adiciona o recurso Prompt Caching (beta) ao Claude

xguru · 2024-08-21T09:31:01+09:00

O Prompt Caching otimiza o uso da API, permitindo retomar tarefas a partir de um prefixo específico do prompt Reutiliza prompts grandes em várias chamadas de API sem reprocessá-los, reduzindo significativamente tempo de processamento e custos em tarefas repetitivas Como funciona Cache de prefixo de prompt: o sistema verifica se o prefixo do prompt foi armazenado em cache em uma consulta recente. Se encontrado, usa a versão em cache para reduzir tempo de processamento e custos. Caso contrário, processa o prompt completo e armazena o prefixo em cache. Casos de uso: útil para prompts com muitos exemplos, grande volume de contexto ou informações de fundo, tarefas repetitivas com instruções consistentes e conversas longas com múltiplos turnos Vida útil do cache: o cache permanece válido por 5 minutos e é renovado sempre que o conteúdo em cache é usado Conteúdo do prompt que é armazenado em cache Considera o prompt completo, incluindo tools, system e messages (nessa ordem). Inclui até o bloco especificado com cache_control Preços Claude 3.5 Sonnet: token de entrada base $3 / MTok, gravação em cache $3.75 / MTok, leitura de cache $0.30 / MTok, token de saída $15 / MTok Claude 3 Haiku: token de entrada base $0.25 / MTok, gravação em cache $0.30 / MTok, leitura de cache $0.03 / MTok, token de saída $1.25 / MTok Claude 3 Opus (lançamento futuro): token de entrada base $15 / MTok, gravação em cache $18.75 / MTok, leitura de cache $1.50 / MTok, token de saída $75 / MTok Pontos principais Tokens de gravação em cache são 25% mais caros do que tokens de entrada base Tokens de leitura de cache são 90% mais baratos do que tokens de entrada base Limitações do cache Comprimento mínimo de prompt para uso de cache: Claude 3.5 Sonnet e Claude 3 Opus: 1024 tokens Claude 3 Haiku: 2048 tokens Há um TTL de cache de 5 minutos, e atualmente ephemeral é o único tipo de cache compatível com essa duração de 5 minutos Vários casos de uso Agentes conversacionais: pode reduzir custo e latência em conversas com instruções longas ou documentos enviados Assistentes de programação: melhora o desempenho de autocompletar e perguntas e respostas sobre o codebase ao manter no prompt seções relevantes ou uma versão resumida do codebase Processamento de documentos grandes: permite incluir materiais longos com imagens no prompt sem aumentar a latência da resposta Conjuntos detalhados de instruções: ajusta com mais precisão as respostas do Claude incluindo mais de 20 exemplos variados de respostas de alta qualidade Uso de ferramentas por agentes: pode melhorar o desempenho em cenários com várias chamadas de ferramentas e mudanças repetitivas de código Conversas sobre livros, artigos, documentos, transcrições de podcasts e outros conteúdos longos: permite incluir o(s) documento(s) completo(s) no prompt para que o usuário possa fazer perguntas

(docs.anthropic.com)

3 pontos por xguru 2024-08-21 | Ainda não há comentários. | Compartilhar no WhatsApp

O Prompt Caching otimiza o uso da API, permitindo retomar tarefas a partir de um prefixo específico do prompt
- Reutiliza prompts grandes em várias chamadas de API sem reprocessá-los, reduzindo significativamente tempo de processamento e custos em tarefas repetitivas
Como funciona
- Cache de prefixo de prompt: o sistema verifica se o prefixo do prompt foi armazenado em cache em uma consulta recente. Se encontrado, usa a versão em cache para reduzir tempo de processamento e custos. Caso contrário, processa o prompt completo e armazena o prefixo em cache.
- Casos de uso: útil para prompts com muitos exemplos, grande volume de contexto ou informações de fundo, tarefas repetitivas com instruções consistentes e conversas longas com múltiplos turnos
- Vida útil do cache: o cache permanece válido por 5 minutos e é renovado sempre que o conteúdo em cache é usado
Conteúdo do prompt que é armazenado em cache
- Considera o prompt completo, incluindo tools, system e messages (nessa ordem). Inclui até o bloco especificado com cache_control
Preços
- Claude 3.5 Sonnet: token de entrada base $3 / MTok, gravação em cache $3.75 / MTok, leitura de cache $0.30 / MTok, token de saída $15 / MTok
- Claude 3 Haiku: token de entrada base $0.25 / MTok, gravação em cache $0.30 / MTok, leitura de cache $0.03 / MTok, token de saída $1.25 / MTok
- Claude 3 Opus (lançamento futuro): token de entrada base $15 / MTok, gravação em cache $18.75 / MTok, leitura de cache $1.50 / MTok, token de saída $75 / MTok
Pontos principais
- Tokens de gravação em cache são 25% mais caros do que tokens de entrada base
- Tokens de leitura de cache são 90% mais baratos do que tokens de entrada base
Limitações do cache
- Comprimento mínimo de prompt para uso de cache:
  - Claude 3.5 Sonnet e Claude 3 Opus: 1024 tokens
  - Claude 3 Haiku: 2048 tokens
- Há um TTL de cache de 5 minutos, e atualmente ephemeral é o único tipo de cache compatível com essa duração de 5 minutos
Vários casos de uso
- Agentes conversacionais: pode reduzir custo e latência em conversas com instruções longas ou documentos enviados
- Assistentes de programação: melhora o desempenho de autocompletar e perguntas e respostas sobre o codebase ao manter no prompt seções relevantes ou uma versão resumida do codebase
- Processamento de documentos grandes: permite incluir materiais longos com imagens no prompt sem aumentar a latência da resposta
- Conjuntos detalhados de instruções: ajusta com mais precisão as respostas do Claude incluindo mais de 20 exemplos variados de respostas de alta qualidade
- Uso de ferramentas por agentes: pode melhorar o desempenho em cenários com várias chamadas de ferramentas e mudanças repetitivas de código
- Conversas sobre livros, artigos, documentos, transcrições de podcasts e outros conteúdos longos: permite incluir o(s) documento(s) completo(s) no prompt para que o usuário possa fazer perguntas

Anthropic adiciona o recurso Prompt Caching (beta) ao Claude

Leituras relacionadas

Ainda não há comentários.