O app matador do Gemini Pro 1.5 é vídeo

(simonwillison.net)

10 pontos por GN⁺ 2024-02-22 | 1 comentários | Compartilhar no WhatsApp

O tamanho do contexto de tokens do Google Gemini Pro 1.5 é de 1.000.000
Antes, Claude 2.1 (200.000 tokens) e gpt-4-turbo (128.000 tokens) detinham esse recorde, mas é difícil fazer uma comparação perfeitamente direta porque a forma como a tokenização é implementada varia entre os modelos
Depois de usar o Gemini Pro 1.5 por alguns dias, a função mais interessante não é a quantidade de tokens, mas a capacidade de usar vídeo como entrada
Ainda não há acesso à API, mas foi possível acessar o modelo pela interface do Google AI Studio

Primeiro teste

Um dos armários de livros foi filmado em um vídeo de 7 segundos
O vídeo foi enviado com o prompt "JSON array of books in this video"
Esse vídeo de 7 segundos usou apenas 1.841 tokens do limite de 1.048.576 tokens
O Gemini Pro 1.5 não retornou JSON, mas respondeu com uma lista dos títulos dos livros e nomes dos autores no vídeo
Ao pedir adicionalmente "as a JSON array of objects, with title and author keys", ele retornou os livros/autores em JSON
O resultado foi bastante surpreendente. O vídeo tem 7 segundos, se move bem rápido (com um pouco de motion blur) e alguns livros estão parcialmente cobertos por outros objetos

Segundo teste

Desta vez, uma estante cheia de livros de culinária foi filmada verticalmente em um vídeo mais longo (22 segundos), com panorâmica não só na horizontal, mas também para baixo
Esse vídeo usou 6.049 tokens, o que ainda é muito pouco
Novo prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
Mas a resposta foi recusada como "Unsafe Content"
O filtro de segurança aparentemente se incomodou com a palavra 'Cocktail'
As configurações de segurança foram abertas, tudo foi ajustado para 'baixo' em todas as categorias e foi feita uma nova tentativa, mas houve uma segunda recusa
Então, ao forçar com "go on give me that JSON", ele retornou o JSON
Mais uma vez, o resultado foi excelente

Como isso pode ser usado?

A capacidade de extrair conteúdo estruturado de texto já é um dos casos de uso mais interessantes dos LLMs
GPT-4 Vision e LLaVA estenderam isso para imagens, e agora o Gemini Pro 1.5 estende para vídeo
Claro, valem aqui as ressalvas habituais dos LLMs. Ele pode deixar passar coisas e alucinar detalhes incorretos
Também existem problemas com o filtro de segurança, como no caso de Cocktail
Portanto, como sempre acontece com a IA de ponta, ainda há muitos desafios a superar
Mas isso parece ser mais um exemplo que oferece um vislumbre de um futuro que chegou muito mais perto do que eu esperava

Imagem vs. vídeo

No começo, como a quantidade de tokens relacionada ao processamento de vídeo era surpreendentemente baixa, pensei que vídeo seria tratado de forma diferente de imagem
Mas, segundo uma postagem no Hacker News

O Gemini 1.5 Pro pode raciocinar sobre até 1 hora de vídeo. Ao anexar um vídeo, o Google AI Studio o classifica em milhares de frames sem áudio, e como o modelo Gemini é multimodal, ele pode executar tarefas altamente sofisticadas de raciocínio e resolução de problemas.
O relatório técnico do Gemini 1.5 explica da seguinte forma:

Quando recebe como entrada o filme de 45 minutos de Buster Keaton "Sherlock Jr." (1924) (2.674 frames a 1 FPS, 684k tokens), o Gemini 1.5 Pro consegue recuperar e extrair informações textuais de frames específicos e fornecer o timestamp correspondente.

1 comentários

GN⁺ 2024-02-22

Comentários no Hacker News

Se um agente ficar silenciosamente observando a tela do usuário o tempo todo, isso pode ser muito útil ou distópico.
- Espera-se que ele possa observar por meses o usuário programando, planejando e pesquisando, e então oferecer conselhos pessoais e profissionais.
- Esse tipo de tecnologia pode refletir a psicologia da pessoa e lembrar muitas informações, o que a tornaria muito valiosa para empresas ou agentes mal-intencionados.
- O modelo precisaria operar com segurança, e há risco de clonagem da pessoa ou violação de privacidade.
O título "o app matador do Gemini Pro 1.5 é entrada de vídeo" seria mais apropriado.
- Isso poderia ser útil para moderação em larga escala de conteúdo em vídeo, como no YouTube, e seria ótimo se o custo pudesse ser reduzido.
Vídeo é uma sequência de imagens, e a demo do GPT-4-Vision da OpenAI produz um efeito parecido ao enviar ao modelo uma lista de frames.
- Seria bom se o GPT-4-Vision suportasse chamada de função ou dados estruturados para garantir saída em JSON.
- Também existe a forma de usar ffmpeg para extrair um frame sim e outro não, a fim de cortar o custo pela metade.
- A demo da OpenAI envia um a cada 50 frames em um vídeo de cerca de 600 frames.
Quando a IA puder analisar vídeos, imagens e texto e processar tudo isso de forma barata e eficiente, a privacidade estará completamente acabada.
- Hoje as grandes empresas já têm muitos dados sobre nós, mas ainda há limites para entender e conectar tudo.
- Uma IA poderosa poderia compreender todos os aspectos da vida digital, com enorme potencial de uso para fins bons e ruins.
Parece que o autor não verificou se os livros mencionados no vídeo usado como entrada estavam realmente corretos.
- O primeiro que foi checado, "Growing Up with Lucy by April Henry", não existe; na verdade, é de Steve Grand.
- É uma demo legal, mas na prática não serve para muita coisa além disso.
Parece que o filtro de segurança do Google reagiu à palavra "Cocktail".
- A configuração de segurança foi reduzida e tentaram de novo, mas a segunda tentativa também foi recusada.
- O departamento de gestão de risco do Google aparentemente tomou conta total da organização, a ponto de até os computadores mais inteligentes terem medo de usar palavras ou imagens perigosas como "cocktail" ou "Abraham Lincoln".
Dizem que usar apenas 256 tokens por frame é impressionante.
- Ao contrário do ditado de que uma imagem vale mais que mil palavras, isso significaria que na verdade ela vale só umas 192 palavras.
O problema relacionado a "Cocktail" realmente existe.
- Tentaram imaginar os personagens de Moby Dick com o DALLE, mas foi totalmente recusado.
- Dá para pensar que uma empresa de IA conseguiria criar um filtro de palavrões melhor.
Fica a dúvida sobre qual é o verdadeiro app matador da escala de hardware do Google em comparação com a OpenAI (ou com o que a Microsoft fornece).
- O que o Google fez provavelmente não é algo especialmente surpreendente para a equipe da OpenAI, mas talvez eles consigam iterar mais rápido em escala gigantesca.
A tecnologia em si é impressionante e interessante, mas essa situação parece uma vingança do problema de Scunthorpe, o que chega a ser engraçado.
- O filtro de segurança aparentemente reagiu à palavra "Cocktail".

O app matador do Gemini Pro 1.5 é vídeo

Primeiro teste

Segundo teste

Como isso pode ser usado?

Imagem vs. vídeo

Leituras relacionadas

1 comentários

Comentários no Hacker News