Gemini Flash
(deepmind.google)- Gemini Flash se destaca por ser leve, rápido e econômico, oferecendo raciocínio multimodal e uma longa janela de contexto de até um milhão de tokens.
Desempenho
Projetado para velocidade
- Velocidade: na maioria dos casos de uso de desenvolvedores e empresas, a latência até o primeiro token fica abaixo de um segundo.
- Eficiência de custo: na maioria das tarefas comuns, o 1.5 Flash oferece qualidade semelhante à de modelos maiores, com custo muito menor.
- Compreensão de contexto longo: consegue processar horas de vídeo e áudio, além de centenas de milhares de palavras ou linhas de código.
Contexto mais longo
- Janela de contexto: oferece por padrão uma janela de contexto de um milhão de tokens, permitindo processar 1 hora de vídeo, 11 horas de áudio, mais de 30.000 linhas de codebase ou mais de 700.000 palavras.
Inovação constante
- Equipe de pesquisa: explora novas ideias na fronteira da IA e desenvolve produtos inovadores que mostram progresso consistente em diversos benchmarks.
- Modelo mais recente: Gemini 1.5 Flash.
Comparação de desempenho
-
Geral: perguntas de 57 disciplinas (ciências, humanidades etc.) no benchmark MMLU.
- Gemini 1.0 Pro: 71.8%
- Gemini 1.0 Ultra: 83.7%
- Gemini 1.5 Pro (fevereiro de 2024): 81.9%
- Gemini 1.5 Flash: 78.9%
-
Código: geração de código Python, usando um dataset semelhante ao HumanEval.
- Gemini 1.0 Pro: 69.6%
- Gemini 1.0 Ultra: 74.9%
- Gemini 1.5 Pro (fevereiro de 2024): 77.7%
- Gemini 1.5 Flash: 77.2%
-
Matemática: problemas matemáticos desafiadores (álgebra, geometria, cálculo etc.).
- Gemini 1.0 Pro: 32.6%
- Gemini 1.0 Ultra: 53.2%
- Gemini 1.5 Pro (fevereiro de 2024): 58.5%
- Gemini 1.5 Flash: 54.9%
-
Raciocínio: dataset de perguntas elaboradas por especialistas em biologia, física e química.
- Gemini 1.0 Pro: 27.9%
- Gemini 1.0 Ultra: 35.7%
- Gemini 1.5 Pro (fevereiro de 2024): 41.5%
- Gemini 1.5 Flash: 39.5%
-
Multilíngue: tradução de idiomas no WMT23.
- Gemini 1.0 Pro: 71.7
- Gemini 1.0 Ultra: 74.4
- Gemini 1.5 Pro (fevereiro de 2024): 75.2
- Gemini 1.5 Flash: 74.1
-
Imagem: problemas de raciocínio multidisciplinar em nível universitário.
- Gemini 1.0 Pro: 47.9%
- Gemini 1.0 Ultra: 59.4%
- Gemini 1.5 Pro (fevereiro de 2024): 58.5%
- Gemini 1.5 Flash: 56.1%
-
Áudio: reconhecimento automático de fala em 55 idiomas (com base na taxa de erro por palavra; quanto menor, melhor).
- Gemini 1.0 Pro: 6.4
- Gemini 1.0 Ultra: 6.0
- Gemini 1.5 Pro (fevereiro de 2024): 6.6
- Gemini 1.5 Flash: 9.8
-
Vídeo: resposta a perguntas sobre vídeo.
- Gemini 1.0 Pro: 55.7%
- Gemini 1.0 Ultra: 61.5%
- Gemini 1.5 Pro (fevereiro de 2024): 63.2%
- Gemini 1.5 Flash: 63.5%
Guia para desenvolvedores
Criando com Gemini
- Google AI Studio: uma maneira simples de desenvolver prompts de modelo e criar rapidamente usando a Gemini API.
- Vertex AI: ferramentas específicas para cientistas de dados e engenheiros de machine learning.
Opinião do GN⁺
- Janela de contexto longa: a janela de contexto de um milhão de tokens do Gemini Flash é extremamente útil para processamento de grandes volumes de dados. Isso é especialmente valioso em projetos que lidam com vídeo, áudio e grandes codebases.
- Eficiência de custo: o Gemini Flash oferece qualidade semelhante à de modelos maiores, com custo menor. Isso é muito vantajoso para projetos com orçamento limitado ou startups.
- Diversos benchmarks: é possível verificar o desempenho do Gemini Flash em vários benchmarks. Isso mostra a versatilidade do modelo.
- Amigável para desenvolvedores: pode ser integrado facilmente por meio do Google AI Studio e do Vertex AI, o que é muito conveniente para desenvolvedores.
- Produtos concorrentes: ao compará-lo com outros modelos, como o GPT-4 da OpenAI, o Gemini Flash é competitivo em velocidade e custo.
Ainda não há comentários.