Benchmark de latência do Vertex AI Context Caching + Priority PayGo (400 vezes, Gemini 3 Flash)

(cloudturing.com)

1 pontos por calmlake79 2026-02-12 | Ainda não há comentários. | Compartilhar no WhatsApp

Com base em um prompt de sistema (entrada) de ~7.500 tokens e uma resposta (saída) de ~100 tokens usados em serviços de chatbot de IA, foi feito um benchmark do efeito de melhoria de latência do Context Caching do Vertex AI e do novo Priority PayGo lançado recentemente

4 cenários (Standard/Priority × com cache/sem cache), 100 vezes cada, total de 400 requisições
Modelo: gemini-3-flash-preview
Método de requisição: staggered start com intervalo de 1 segundo

Principais resultados:

Context Caching: tempo médio de resposta quase idêntico com ou sem cache (~3 segundos)
Priority PayGo: em horários sem congestionamento, foi de 3% a 7% mais lento
Confirmado que o Vertex AI também realiza Implicit Caching internamente mesmo no cenário sem cache
A diferença de latência conforme o Thinking Level foi esmagadora: DEFAULT 7,4 s → LOW 3 s → MINIMAL 2,6 s

Conclusão: mais do que cache ou configuração de prioridade, mudar a própria estrutura da requisição é mais eficaz para otimizar a latência

Benchmark de latência do Vertex AI Context Caching + Priority PayGo (400 vezes, Gemini 3 Flash)

Leituras relacionadas

Ainda não há comentários.