1 pontos por calmlake79 2026-02-12 | Ainda não há comentários. | Compartilhar no WhatsApp

Com base em um prompt de sistema (entrada) de ~7.500 tokens e uma resposta (saída) de ~100 tokens usados em serviços de chatbot de IA, foi feito um benchmark do efeito de melhoria de latência do Context Caching do Vertex AI e do novo Priority PayGo lançado recentemente

  • 4 cenários (Standard/Priority × com cache/sem cache), 100 vezes cada, total de 400 requisições
  • Modelo: gemini-3-flash-preview
  • Método de requisição: staggered start com intervalo de 1 segundo

Principais resultados:

  • Context Caching: tempo médio de resposta quase idêntico com ou sem cache (~3 segundos)
  • Priority PayGo: em horários sem congestionamento, foi de 3% a 7% mais lento
  • Confirmado que o Vertex AI também realiza Implicit Caching internamente mesmo no cenário sem cache
  • A diferença de latência conforme o Thinking Level foi esmagadora: DEFAULT 7,4 s → LOW 3 s → MINIMAL 2,6 s

Conclusão: mais do que cache ou configuração de prioridade, mudar a própria estrutura da requisição é mais eficaz para otimizar a latência

Ainda não há comentários.

Ainda não há comentários.