Gemini 3.5 Flash

(deepmind.google)

2 pontos por GN⁺ 2024-05-15 | 1 comentários | Compartilhar no WhatsApp

O Gemini 3.5 Flash, da Google DeepMind, é um modelo Preview que oferece raciocínio avançado para tarefas de agentes e programação, mantendo a baixa latência e a escalabilidade da família Flash
Suas principais capacidades são a compreensão multimodal, lidando em conjunto com texto, áudio, imagens, código e vídeo, além de fluxos de trabalho longos e programação iterativa
Os exemplos públicos incluem desde a geração rápida de UIs até a criação de jogos baseados em artigos acadêmicos e o projeto de cidades virtuais, destacando a amplitude de uso em tarefas agentivas
Em benchmarks, registrou as maiores pontuações nas tabelas em vários itens, como MCP Atlas 83,6%, Toolathlon 56,5%, Finance Agent v2 57,9% e MMMU-Pro 83,6%
A entrada aceita texto, imagens, vídeo, áudio e PDF, a saída é texto, e o modelo oferece 1M de tokens de entrada, 64k tokens de saída, chamadas de função, saída estruturada, ferramenta de busca e execução de código

O posicionamento do Gemini 3.5 Flash

O Gemini 3.5 Flash é um modelo que oferece raciocínio avançado com “latência e escalabilidade de nível Flash”
Suas áreas de aplicação são agentes, programação, tarefas cotidianas, raciocínio avançado, compreensão multimodal e compreensão de contexto longo
O status do modelo é Preview

Tarefas visadas com latência Flash

A direção central é oferecer alta velocidade e inteligência ao mesmo tempo
- Busca se posicionar como um modelo que mantém velocidade e escalabilidade sem sacrificar a inteligência
Lida com raciocínio de longo alcance e tarefas de programação iterativas
Oferece compreensão multimodal abrangendo texto, áudio, imagens, código e vídeo

Exemplos de uso com agentes

Foram apresentados vários casos de tarefas que mostram capacidades rápidas de agentes
- Gerar 6 opções de UI de pagamento em menos de 60 segundos
- Gerar 64 variações fractais em alta velocidade
- Receber o artigo do AlphaGo como entrada e construir autonomamente um jogo inteligente
- Orquestrar vários workflows para criar e melhorar a marca de um evento de arrecadação com entrada mínima
- Converter uma descrição em texto em um componente HTML interativo completo
- Fazer vários agentes criarem uma música usando a biblioteca musical Strudel
- Orquestrar uma equipe de agentes especializados para projetar e construir uma cidade virtual
- Renomear e estruturar automaticamente um dataset desorganizado
- Implantar agentes para continuar melhorando um jogo em tempo real

Casos de clientes e melhorias de desempenho

A Armadin afirmou que o modelo Flash mais recente do Gemini foi 42% melhor que o Flash 3 em um benchmark cibernético mult Turn de longa distância, com eficiência de tokens 68% superior
No conjunto de avaliação de tarefas empresariais da Box, o Gemini 3.5 Flash foi 19,6% melhor que o Gemini 3 Flash
- A precisão de extração de dados e cálculos para clientes de Life Sciences aumentou 96,4%
- A precisão na geração de relatórios financeiros baseados em dados estruturados para Financial Services aumentou 46,7%
A Junie, da JetBrains, avaliou que o Gemini 3.5 Flash oferece qualidade de programação e raciocínio próxima à do Gemini Pro, mantendo as características de velocidade e custo do Flash
- O desempenho de programação em níveis baixos de raciocínio melhorou 10–20% em relação à geração Flash anterior

Resultados de benchmark

O Gemini 3.5 Flash se destaca fortemente como modelo para workflows agentivos
Benchmarks de programação
- Terminal-bench 2.1 Agentic terminal coding: 76,2%
- SWE-Bench Pro Public: 55,1%
Benchmarks de agentes e uso de ferramentas
- MCP Atlas: 83,6%, a maior pontuação na tabela
- Toolathlon: 56,5%, a maior pontuação na tabela
Controle de UI e tarefas especializadas
- OSWorld-Verified: 78,4%
- Finance Agent v2: 57,9%, a maior pontuação na tabela
- GDPval-AA Elo: 1656
Benchmarks multimodais
- CharXiv Reasoning: 84,2%, a maior pontuação na tabela
- MMMU-Pro: 83,6%, a maior pontuação na tabela
- Blueprint-Bench 2: 33,6%
Contexto longo e raciocínio
- Média do MRCR v2 128k: 77,3%
- MRCR v2 1M pointwise: 26,6%, acima do Gemini 3 Flash e do Gemini 3.1 Pro comparáveis
- Humanity’s Last Exam: 40,2%
- ARC-AGI-2: 72,1%
Detalhes sobre o método de avaliação estão em Gemini 3.5 Flash evals methodology

Informações do modelo e ambientes disponíveis

A entrada aceita texto, imagens, vídeo, áudio e PDF
A saída é texto
Contexto e base de conhecimento
- Tokens de entrada: 1M
- Tokens de saída: 64k
- Corte de conhecimento: janeiro de 2025
Recursos de uso de ferramentas
- Chamada de funções
- Saída estruturada
- Uso de busca como ferramenta
- Execução de código
Os ambientes disponíveis são Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity e Android Studio
A documentação para desenvolvedores está disponível em Gemini API models documentation
O cartão do modelo está disponível em Gemini 3.5 Flash model card

1 comentários

GN⁺ 2024-05-15

Opiniões no Hacker News

Atualizei o plugin llm-gemini para oferecer acesso ao Gemini Flash via CLI
pipx install llm # or brew install llm
llm install llm-gemini --upgrade
llm keys set gemini
# paste API key here
llm -m gemini-1.5-flash-latest 'a short poem about otters'
https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Olhando benchmarks como o MMLU, isso parece significar que é basicamente um modelo com qualidade no nível do Llama 3 70B, latência do primeiro token abaixo de 1 segundo e, embora não esteja no nível do GPT-4/Opus, tem multimodalidade nativa e 1 milhão de contexto
Comparado a montar algo por conta própria, não é ruim, mas o principal diferencial do Gemini entre os modelos de ponta era a multimodalidade nativa. Agora que o GPT-4o saiu, não sei bem por que uma organização que não esteja presa ao GCP escolheria o Gemini. Se você não estiver processando livros ou filmes inteiros de uma vez, o contexto de 128k do GPT-4o também é suficiente; fico curioso se há alguém fazendo em escala real trabalhos que não funcionam ao reduzir de 1 milhão para 100 mil
- Com 1 milhão de tokens, dá para colocar 2.000 páginas de documentos na janela de contexto antes de iniciar o chat
  O ponto forte do Gemini não é a capacidade de resolver quebra-cabeças lógicos, e sim o tamanho do contexto. Se você estiver estudando para uma prova, pode colocar o livro inteiro no chat; se precisar usar uma linguagem morta para um sistema de testes antigo sobre o qual não há informações na internet, pode inserir um manual de referência de 1.300 páginas e perguntar
- Não acho que isso possa ter qualidade de Llama 3 70B
  Tentei encaixar o Gemini 1.5 Pro em vários fluxos de trabalho, mas foi muito ruim. Especialmente ao inserir vídeo ou áudio, as alucinações eram inacreditavelmente numerosas. Não sei se modelos multimodais pequenos e cheios de alucinações têm casos de uso práticos na maioria das empresas; se não forem confiáveis, são só brinquedos
- O motivo para uma organização que não está presa ao GCP escolher o Gemini é o preço. Especialmente em tarefas multimodais que não exigem qualidade de GPT-4
  Mesmo comparando com o GPT-4o, o modelo multimodal mais barato da OpenAI, o GPT-3.5-Turbo custa 1/10 do GPT-4o, com US$ 0,5 por 1 milhão de tokens de entrada, US$ 1,50 por 1 milhão de tokens de saída e uma janela de contexto de 16K. O Gemini 1.5 Flash custa US$ 0,35 por 1 milhão de tokens de entrada e US$ 0,53 por 1 milhão de tokens de saída para prompts de até 128K. Em tarefas multimodais que não precisam de inteligência no nível do GPT-4, especialmente processamento de documentos, o Gemini Flash parece quase uma redução de custo de 95%
- É parecido com perguntar por que alguém precisaria de 1GB no Gmail quando uma conta do Yahoo de 50MB parecia suficiente
  Você não precisa pensar duas vezes ao inserir contexto e também não precisa criar gambiarras para lidar com estouro de contexto. Se a maioria dos casos de uso lida com texto mais do que com multimodalidade, a vantagem parece bem clara
- Alguns meses atrás tentei usar 1 milhão de tokens com o Gemini, mas ele travava ou respondia muito lentamente e acabava travando de vez
  Tentei umas cinco ou seis vezes e desisti; espero que esta versão seja mais rápida e estável
Vejo o contexto padrão de 1 milhão de tokens como o grande recurso aqui, mas precisamos de benchmarks melhores para medir o que isso realmente significa
Intuitivamente, quanto mais longo o contexto fica, mais ele parece esbarrar no limite de quanta compreensão pode caber em um único ponto do espaço vetorial, e acho que serão necessárias arquiteturas melhores para escolher as partes relevantes do contexto
- Se estamos falando de uso em produção, a multimodalidade de um modelo cujo custo por token é de 4% a 7% em relação ao modelo multimodal mais barato da OpenAI, e não uma demo economicamente insustentável, é um recurso importante
- Não sei em que dimensão de espaço vetorial haveria esse limite de um único ponto
  Não sei se isso é informação pública, mas o tamanho da dimensão de embedding é uma escolha de arquitetura. Vejo isso mais como uma questão de projeto e restrições de recursos do que como um limite fundamental
- Fico curioso se alguém conseguiria explicar, de um jeito que até quem conhece vetores e bancos de dados vetoriais por alto entenda, o que significa colocar compreensão em um único ponto do espaço vetorial
  Se houver algum texto relacionado ou material para ler mais, seria bom receber recomendações
- Estamos lidando com atenção multi-head, então há vários pontos para cada token
  O número de heads ou o tamanho dos vetores de chave pode ser aumentado a qualquer momento
- Na prática, não é tão bom assim. Dá para fazer uma demo convincente do tipo “coloquei 6,5 livros de Harry Potter e ele criou um mapa SVG conectando os personagens com anotações”
  Mas só aparecem alguns personagens, as anotações são fracas e o custo ficou em torno de US$ 20. Se você tentar 10 vezes, é bom o bastante para te enganar algumas vezes
É engraçado falar em modelo leve que só pode ser usado na nuvem. Essas gigantes de tecnologia realmente têm muita vontade de controlar até o uso de IA
Mas não devemos deixar que isso vire o futuro
Uma coisa em que a OpenAI é melhor que o Google é que ela de fato divulga os preços da API e usa nomes relativamente consistentes
No Google, se você listar os modelos pela própria API, parece haver cerca de 10 modelos disponíveis por meio de um caminho que no console do Google Cloud é chamado de Generative Language API e na documentação é chamado de Gemini API. Há mais de 10 nomes de modelos, mas alguns deles têm vários aliases.
Desses, apenas 3 têm informações de preço na página de documentação de preços da Gemini API, e 2 deles estão em preview, então os preços se aplicam no futuro. No Generative Language API do console, só aparece preço para 1 modelo, o mesmo modelo não-preview entre os 3 da página de documentação. Na lista de SKUs do Cloud não há Generative Language API, e há Gemini API, mas novamente só para esse mesmo 1 modelo. Na Cloud Price list, para a qual a página do console aponta como “preços mais recentes”, não há nem Generative Language API nem Gemini API. Não entendo por que há tantos itens diferentes
Como o tamanho de contexto parece ter ficado generoso para a maioria das tarefas, fico me perguntando por que ainda usamos tokens de subpalavras

Também estou muito curioso para ver como LLMs baseados em caracteres se comparariam. Com um contexto de 2 milhões, o gargalo computacional fica menos evidente. Mas não sei muito bem qual papel o tamanho do vocabulário desempenha. Como os embeddings já carregam uma grande parte do conhecimento, um vocabulário grande pode ser importante. Por outro lado, usar um vocabulário baseado em caracteres parece que poderia resolver vários problemas, como tokens com glitch, aritmética e rimas. Implementar e treinar corretamente um tokenizador de subpalavras também parece bem complexo; no nível de caracteres, deveria ser muito simples.

O mecanismo de atenção tem uma eficiência de aprendizado muito melhor quando consegue prestar atenção a tokens maiores e mais significativos
Em servidores de inferência, uma parte considerável da memória vai para o cache KV e, para acumular embeddings via atenção, é preciso relacionar muito mais tokens entre si, enquanto cada token tem menos “significado”. Talvez um dia cheguemos a esse ponto. No fim das contas, vamos precisar de LLMs multimodais que entendam imagens e sons até o nível de pixels e frequências, e provavelmente vamos querer que o texto também acabe sendo tratado assim.
Caracteres não são componentes semânticos das palavras; em geral, sílabas cumprem esse papel
Pelo menos acho que normalmente é assim. Parece que essa abordagem produziria qualidade maior do que o alfabeto romano. Fico curioso se seria possível testar isso apenas comparando como LLMs lidam com inglês e chinês.
Vejo dois grandes problemas. Primeiro, como é preciso gerar mais saída sequencialmente, a latência piora
Segundo, de forma muito aproximada, esses modelos transformam tokens em “significados médios” na camada de embedding, as camadas de atenção combinam significados e as camadas feedforward ajustam a combinação semântica atual a algo como arquétipos ou protótipos aprendidos. Ao descer de pedaços de palavras para caracteres, tudo isso fica mais confuso. Por exemplo, já é ambíguo qual seria o significado médio de “a”, então acho que ainda não temos técnicas suficientes para treinar bem modelos baseados em caracteres.
Na geração de música por IA, resultados muito melhores aparecem com tamanhos de vocabulário grandes, na escala de 10^6
É um palpite meio sem base, mas talvez seja porque transformers não sejam reconhecedores universais de padrões, e sim consigam captar padrões apenas em um determinado nível de granularidade.
O Google claramente parece ter uma equipe de branding melhor. Gosto de nomes como Gemini e Gems
“ChatGPT” é um nome bastante desajeitado e complicado, e a OpenAI parece uma organização sem rosto. Claro que isso ainda pode mudar, mas a esta altura parece tarde demais. Eles certamente tinham dinheiro suficiente para serem mais criativos quando foram ao mercado.
- “ChatGPT” é um nome como “Google”. Não acho que “Gemini” vá substituí-lo.
- A OpenAI precisa urgentemente de consultoria de marketing
  “GPT4o”, sério? Até “GPT4 Omni” seria mais fácil em conversa, e é isso que o “o” significa. Eles subestimam seriamente quantos usuários comuns têm.
No benchmark NYT Connections, o Gemini 1.5 Flash marca 15,3 pontos
GPT-4 turbo(gpt-4-0125-preview) 31,0, GPT-4o 30,7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29,7, GPT-4 turbo(gpt-4-1106-preview) 28,8, Claude 3 Opus 27,3, GPT-4(0613) 26,1, Llama 3 Instruct 70B 24,0, Gemini Pro 1.5 19,9, Mistral Large 17,7, Gemini 1.5 Flash 15,3, Mistral Medium 15,0, Gemini Pro 1.0 14,2, Llama 3 Instruct 8B 12,3, Mixtral-8x22B Instruct 12,2
- Naquela lista há muitos modelos da OpenAI com desempenho alto, mas nomes péssimos.
Há pouca informação. Está sendo vendido como uma opção rápida e barata, mas não há benchmark de velocidade de inferência nem comparação com modelos que não sejam Gemini
Segundo https://ai.google.dev/pricing, parece ter preço um pouco menor que o gpt3.5-turbo, mas não dá para saber como eles se comparam na prática.
Se o Gemini Flash for apenas um Gemini mais rápido, respostas ruins não ficam melhores só por chegarem mais rápido
Usei o Gemini Pro e o ChatGPT 4 lado a lado por alguns meses em codificação prática, arquitetura de sistemas e algumas perguntas gerais, e o ChatGPT foi pelo menos 80% mais útil. O Gemini errava ou divagava longamente até chegar a uma resposta útil, a ponto de não valer a pena usar. O que eu precisava não era mais velocidade. Talvez agora ele esteja mais “inteligente”, isto é, mais útil.
- Talvez, se definirmos inteligência como fazer mais coisas com menos recursos, isso possa ser visto como um sinal de que há algo no espaço latente com potencial para escalar.