Benchmark de latência do Vertex AI Context Caching + Priority PayGo (400 vezes, Gemini 3 Flash)
(cloudturing.com)Com base em um prompt de sistema (entrada) de ~7.500 tokens e uma resposta (saída) de ~100 tokens usados em serviços de chatbot de IA, foi feito um benchmark do efeito de melhoria de latência do Context Caching do Vertex AI e do novo Priority PayGo lançado recentemente
- 4 cenários (Standard/Priority × com cache/sem cache), 100 vezes cada, total de 400 requisições
- Modelo:
gemini-3-flash-preview - Método de requisição: staggered start com intervalo de 1 segundo
Principais resultados:
- Context Caching: tempo médio de resposta quase idêntico com ou sem cache (~3 segundos)
- Priority PayGo: em horários sem congestionamento, foi de 3% a 7% mais lento
- Confirmado que o Vertex AI também realiza Implicit Caching internamente mesmo no cenário sem cache
- A diferença de latência conforme o Thinking Level foi esmagadora: DEFAULT 7,4 s → LOW 3 s → MINIMAL 2,6 s
Conclusão: mais do que cache ou configuração de prioridade, mudar a própria estrutura da requisição é mais eficaz para otimizar a latência
Ainda não há comentários.