Gemini 3.5 Flash
(deepmind.google)- O Gemini 3.5 Flash, da Google DeepMind, é um modelo Preview que oferece raciocínio avançado para tarefas de agentes e programação, mantendo a baixa latência e a escalabilidade da família Flash
- Suas principais capacidades são a compreensão multimodal, lidando em conjunto com texto, áudio, imagens, código e vídeo, além de fluxos de trabalho longos e programação iterativa
- Os exemplos públicos incluem desde a geração rápida de UIs até a criação de jogos baseados em artigos acadêmicos e o projeto de cidades virtuais, destacando a amplitude de uso em tarefas agentivas
- Em benchmarks, registrou as maiores pontuações nas tabelas em vários itens, como MCP Atlas 83,6%, Toolathlon 56,5%, Finance Agent v2 57,9% e MMMU-Pro 83,6%
- A entrada aceita texto, imagens, vídeo, áudio e PDF, a saída é texto, e o modelo oferece 1M de tokens de entrada, 64k tokens de saída, chamadas de função, saída estruturada, ferramenta de busca e execução de código
O posicionamento do Gemini 3.5 Flash
- O Gemini 3.5 Flash é um modelo que oferece raciocínio avançado com “latência e escalabilidade de nível Flash”
- Suas áreas de aplicação são agentes, programação, tarefas cotidianas, raciocínio avançado, compreensão multimodal e compreensão de contexto longo
- O status do modelo é Preview
Tarefas visadas com latência Flash
- A direção central é oferecer alta velocidade e inteligência ao mesmo tempo
- Busca se posicionar como um modelo que mantém velocidade e escalabilidade sem sacrificar a inteligência
- Lida com raciocínio de longo alcance e tarefas de programação iterativas
- Oferece compreensão multimodal abrangendo texto, áudio, imagens, código e vídeo
Exemplos de uso com agentes
- Foram apresentados vários casos de tarefas que mostram capacidades rápidas de agentes
- Gerar 6 opções de UI de pagamento em menos de 60 segundos
- Gerar 64 variações fractais em alta velocidade
- Receber o artigo do AlphaGo como entrada e construir autonomamente um jogo inteligente
- Orquestrar vários workflows para criar e melhorar a marca de um evento de arrecadação com entrada mínima
- Converter uma descrição em texto em um componente HTML interativo completo
- Fazer vários agentes criarem uma música usando a biblioteca musical Strudel
- Orquestrar uma equipe de agentes especializados para projetar e construir uma cidade virtual
- Renomear e estruturar automaticamente um dataset desorganizado
- Implantar agentes para continuar melhorando um jogo em tempo real
Casos de clientes e melhorias de desempenho
- A Armadin afirmou que o modelo Flash mais recente do Gemini foi 42% melhor que o Flash 3 em um benchmark cibernético mult Turn de longa distância, com eficiência de tokens 68% superior
- No conjunto de avaliação de tarefas empresariais da Box, o Gemini 3.5 Flash foi 19,6% melhor que o Gemini 3 Flash
- A precisão de extração de dados e cálculos para clientes de Life Sciences aumentou 96,4%
- A precisão na geração de relatórios financeiros baseados em dados estruturados para Financial Services aumentou 46,7%
- A Junie, da JetBrains, avaliou que o Gemini 3.5 Flash oferece qualidade de programação e raciocínio próxima à do Gemini Pro, mantendo as características de velocidade e custo do Flash
- O desempenho de programação em níveis baixos de raciocínio melhorou 10–20% em relação à geração Flash anterior
Resultados de benchmark
- O Gemini 3.5 Flash se destaca fortemente como modelo para workflows agentivos
- Benchmarks de programação
- Terminal-bench 2.1 Agentic terminal coding: 76,2%
- SWE-Bench Pro Public: 55,1%
- Benchmarks de agentes e uso de ferramentas
- MCP Atlas: 83,6%, a maior pontuação na tabela
- Toolathlon: 56,5%, a maior pontuação na tabela
- Controle de UI e tarefas especializadas
- OSWorld-Verified: 78,4%
- Finance Agent v2: 57,9%, a maior pontuação na tabela
- GDPval-AA Elo: 1656
- Benchmarks multimodais
- CharXiv Reasoning: 84,2%, a maior pontuação na tabela
- MMMU-Pro: 83,6%, a maior pontuação na tabela
- Blueprint-Bench 2: 33,6%
- Contexto longo e raciocínio
- Média do MRCR v2 128k: 77,3%
- MRCR v2 1M pointwise: 26,6%, acima do Gemini 3 Flash e do Gemini 3.1 Pro comparáveis
- Humanity’s Last Exam: 40,2%
- ARC-AGI-2: 72,1%
- Detalhes sobre o método de avaliação estão em Gemini 3.5 Flash evals methodology
Informações do modelo e ambientes disponíveis
- A entrada aceita texto, imagens, vídeo, áudio e PDF
- A saída é texto
- Contexto e base de conhecimento
- Tokens de entrada: 1M
- Tokens de saída: 64k
- Corte de conhecimento: janeiro de 2025
- Recursos de uso de ferramentas
- Chamada de funções
- Saída estruturada
- Uso de busca como ferramenta
- Execução de código
- Os ambientes disponíveis são Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity e Android Studio
- A documentação para desenvolvedores está disponível em Gemini API models documentation
- O cartão do modelo está disponível em Gemini 3.5 Flash model card
1 comentários
Opiniões no Hacker News
pipx install llm # or brew install llmllm install llm-gemini --upgradellm keys set gemini# paste API key herellm -m gemini-1.5-flash-latest 'a short poem about otters'https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Comparado a montar algo por conta própria, não é ruim, mas o principal diferencial do Gemini entre os modelos de ponta era a multimodalidade nativa. Agora que o GPT-4o saiu, não sei bem por que uma organização que não esteja presa ao GCP escolheria o Gemini. Se você não estiver processando livros ou filmes inteiros de uma vez, o contexto de 128k do GPT-4o também é suficiente; fico curioso se há alguém fazendo em escala real trabalhos que não funcionam ao reduzir de 1 milhão para 100 mil
O ponto forte do Gemini não é a capacidade de resolver quebra-cabeças lógicos, e sim o tamanho do contexto. Se você estiver estudando para uma prova, pode colocar o livro inteiro no chat; se precisar usar uma linguagem morta para um sistema de testes antigo sobre o qual não há informações na internet, pode inserir um manual de referência de 1.300 páginas e perguntar
Tentei encaixar o Gemini 1.5 Pro em vários fluxos de trabalho, mas foi muito ruim. Especialmente ao inserir vídeo ou áudio, as alucinações eram inacreditavelmente numerosas. Não sei se modelos multimodais pequenos e cheios de alucinações têm casos de uso práticos na maioria das empresas; se não forem confiáveis, são só brinquedos
Mesmo comparando com o GPT-4o, o modelo multimodal mais barato da OpenAI, o GPT-3.5-Turbo custa 1/10 do GPT-4o, com US$ 0,5 por 1 milhão de tokens de entrada, US$ 1,50 por 1 milhão de tokens de saída e uma janela de contexto de 16K. O Gemini 1.5 Flash custa US$ 0,35 por 1 milhão de tokens de entrada e US$ 0,53 por 1 milhão de tokens de saída para prompts de até 128K. Em tarefas multimodais que não precisam de inteligência no nível do GPT-4, especialmente processamento de documentos, o Gemini Flash parece quase uma redução de custo de 95%
Você não precisa pensar duas vezes ao inserir contexto e também não precisa criar gambiarras para lidar com estouro de contexto. Se a maioria dos casos de uso lida com texto mais do que com multimodalidade, a vantagem parece bem clara
Tentei umas cinco ou seis vezes e desisti; espero que esta versão seja mais rápida e estável
Intuitivamente, quanto mais longo o contexto fica, mais ele parece esbarrar no limite de quanta compreensão pode caber em um único ponto do espaço vetorial, e acho que serão necessárias arquiteturas melhores para escolher as partes relevantes do contexto
Não sei se isso é informação pública, mas o tamanho da dimensão de embedding é uma escolha de arquitetura. Vejo isso mais como uma questão de projeto e restrições de recursos do que como um limite fundamental
Se houver algum texto relacionado ou material para ler mais, seria bom receber recomendações
O número de heads ou o tamanho dos vetores de chave pode ser aumentado a qualquer momento
Mas só aparecem alguns personagens, as anotações são fracas e o custo ficou em torno de US$ 20. Se você tentar 10 vezes, é bom o bastante para te enganar algumas vezes
Mas não devemos deixar que isso vire o futuro
No Google, se você listar os modelos pela própria API, parece haver cerca de 10 modelos disponíveis por meio de um caminho que no console do Google Cloud é chamado de Generative Language API e na documentação é chamado de Gemini API. Há mais de 10 nomes de modelos, mas alguns deles têm vários aliases.
Desses, apenas 3 têm informações de preço na página de documentação de preços da Gemini API, e 2 deles estão em preview, então os preços se aplicam no futuro. No Generative Language API do console, só aparece preço para 1 modelo, o mesmo modelo não-preview entre os 3 da página de documentação. Na lista de SKUs do Cloud não há Generative Language API, e há Gemini API, mas novamente só para esse mesmo 1 modelo. Na Cloud Price list, para a qual a página do console aponta como “preços mais recentes”, não há nem Generative Language API nem Gemini API. Não entendo por que há tantos itens diferentes
Também estou muito curioso para ver como LLMs baseados em caracteres se comparariam. Com um contexto de 2 milhões, o gargalo computacional fica menos evidente. Mas não sei muito bem qual papel o tamanho do vocabulário desempenha. Como os embeddings já carregam uma grande parte do conhecimento, um vocabulário grande pode ser importante. Por outro lado, usar um vocabulário baseado em caracteres parece que poderia resolver vários problemas, como tokens com glitch, aritmética e rimas. Implementar e treinar corretamente um tokenizador de subpalavras também parece bem complexo; no nível de caracteres, deveria ser muito simples.
Em servidores de inferência, uma parte considerável da memória vai para o cache KV e, para acumular embeddings via atenção, é preciso relacionar muito mais tokens entre si, enquanto cada token tem menos “significado”. Talvez um dia cheguemos a esse ponto. No fim das contas, vamos precisar de LLMs multimodais que entendam imagens e sons até o nível de pixels e frequências, e provavelmente vamos querer que o texto também acabe sendo tratado assim.
Pelo menos acho que normalmente é assim. Parece que essa abordagem produziria qualidade maior do que o alfabeto romano. Fico curioso se seria possível testar isso apenas comparando como LLMs lidam com inglês e chinês.
Segundo, de forma muito aproximada, esses modelos transformam tokens em “significados médios” na camada de embedding, as camadas de atenção combinam significados e as camadas feedforward ajustam a combinação semântica atual a algo como arquétipos ou protótipos aprendidos. Ao descer de pedaços de palavras para caracteres, tudo isso fica mais confuso. Por exemplo, já é ambíguo qual seria o significado médio de “a”, então acho que ainda não temos técnicas suficientes para treinar bem modelos baseados em caracteres.
É um palpite meio sem base, mas talvez seja porque transformers não sejam reconhecedores universais de padrões, e sim consigam captar padrões apenas em um determinado nível de granularidade.
“ChatGPT” é um nome bastante desajeitado e complicado, e a OpenAI parece uma organização sem rosto. Claro que isso ainda pode mudar, mas a esta altura parece tarde demais. Eles certamente tinham dinheiro suficiente para serem mais criativos quando foram ao mercado.
“GPT4o”, sério? Até “GPT4 Omni” seria mais fácil em conversa, e é isso que o “o” significa. Eles subestimam seriamente quantos usuários comuns têm.
GPT-4 turbo(gpt-4-0125-preview) 31,0, GPT-4o 30,7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29,7, GPT-4 turbo(gpt-4-1106-preview) 28,8, Claude 3 Opus 27,3, GPT-4(0613) 26,1, Llama 3 Instruct 70B 24,0, Gemini Pro 1.5 19,9, Mistral Large 17,7, Gemini 1.5 Flash 15,3, Mistral Medium 15,0, Gemini Pro 1.0 14,2, Llama 3 Instruct 8B 12,3, Mixtral-8x22B Instruct 12,2
Segundo https://ai.google.dev/pricing, parece ter preço um pouco menor que o gpt3.5-turbo, mas não dá para saber como eles se comparam na prática.
Usei o Gemini Pro e o ChatGPT 4 lado a lado por alguns meses em codificação prática, arquitetura de sistemas e algumas perguntas gerais, e o ChatGPT foi pelo menos 80% mais útil. O Gemini errava ou divagava longamente até chegar a uma resposta útil, a ponto de não valer a pena usar. O que eu precisava não era mais velocidade. Talvez agora ele esteja mais “inteligente”, isto é, mais útil.