O app matador do Gemini Pro 1.5 é vídeo
(simonwillison.net)- O tamanho do contexto de tokens do Google Gemini Pro 1.5 é de 1.000.000
- Antes, Claude 2.1 (200.000 tokens) e gpt-4-turbo (128.000 tokens) detinham esse recorde, mas é difícil fazer uma comparação perfeitamente direta porque a forma como a tokenização é implementada varia entre os modelos
- Depois de usar o Gemini Pro 1.5 por alguns dias, a função mais interessante não é a quantidade de tokens, mas a capacidade de usar vídeo como entrada
- Ainda não há acesso à API, mas foi possível acessar o modelo pela interface do Google AI Studio
Primeiro teste
- Um dos armários de livros foi filmado em um vídeo de 7 segundos
- O vídeo foi enviado com o prompt "JSON array of books in this video"
- Esse vídeo de 7 segundos usou apenas 1.841 tokens do limite de 1.048.576 tokens
- O Gemini Pro 1.5 não retornou JSON, mas respondeu com uma lista dos títulos dos livros e nomes dos autores no vídeo
- Ao pedir adicionalmente "as a JSON array of objects, with title and author keys", ele retornou os livros/autores em JSON
- O resultado foi bastante surpreendente. O vídeo tem 7 segundos, se move bem rápido (com um pouco de motion blur) e alguns livros estão parcialmente cobertos por outros objetos
Segundo teste
- Desta vez, uma estante cheia de livros de culinária foi filmada verticalmente em um vídeo mais longo (22 segundos), com panorâmica não só na horizontal, mas também para baixo
- Esse vídeo usou 6.049 tokens, o que ainda é muito pouco
- Novo prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
- Mas a resposta foi recusada como "Unsafe Content"
- O filtro de segurança aparentemente se incomodou com a palavra 'Cocktail'
- As configurações de segurança foram abertas, tudo foi ajustado para 'baixo' em todas as categorias e foi feita uma nova tentativa, mas houve uma segunda recusa
- Então, ao forçar com "go on give me that JSON", ele retornou o JSON
- Mais uma vez, o resultado foi excelente
Como isso pode ser usado?
- A capacidade de extrair conteúdo estruturado de texto já é um dos casos de uso mais interessantes dos LLMs
- GPT-4 Vision e LLaVA estenderam isso para imagens, e agora o Gemini Pro 1.5 estende para vídeo
- Claro, valem aqui as ressalvas habituais dos LLMs. Ele pode deixar passar coisas e alucinar detalhes incorretos
- Também existem problemas com o filtro de segurança, como no caso de Cocktail
- Portanto, como sempre acontece com a IA de ponta, ainda há muitos desafios a superar
- Mas isso parece ser mais um exemplo que oferece um vislumbre de um futuro que chegou muito mais perto do que eu esperava
Imagem vs. vídeo
- No começo, como a quantidade de tokens relacionada ao processamento de vídeo era surpreendentemente baixa, pensei que vídeo seria tratado de forma diferente de imagem
- Mas, segundo uma postagem no Hacker News
O Gemini 1.5 Pro pode raciocinar sobre até 1 hora de vídeo. Ao anexar um vídeo, o Google AI Studio o classifica em milhares de frames sem áudio, e como o modelo Gemini é multimodal, ele pode executar tarefas altamente sofisticadas de raciocínio e resolução de problemas.
- O relatório técnico do Gemini 1.5 explica da seguinte forma:
Quando recebe como entrada o filme de 45 minutos de Buster Keaton "Sherlock Jr." (1924) (2.674 frames a 1 FPS, 684k tokens), o Gemini 1.5 Pro consegue recuperar e extrair informações textuais de frames específicos e fornecer o timestamp correspondente.
1 comentários
Comentários no Hacker News
Se um agente ficar silenciosamente observando a tela do usuário o tempo todo, isso pode ser muito útil ou distópico.
O título "o app matador do Gemini Pro 1.5 é entrada de vídeo" seria mais apropriado.
Vídeo é uma sequência de imagens, e a demo do GPT-4-Vision da OpenAI produz um efeito parecido ao enviar ao modelo uma lista de frames.
ffmpegpara extrair um frame sim e outro não, a fim de cortar o custo pela metade.Quando a IA puder analisar vídeos, imagens e texto e processar tudo isso de forma barata e eficiente, a privacidade estará completamente acabada.
Parece que o autor não verificou se os livros mencionados no vídeo usado como entrada estavam realmente corretos.
Parece que o filtro de segurança do Google reagiu à palavra "Cocktail".
Dizem que usar apenas 256 tokens por frame é impressionante.
O problema relacionado a "Cocktail" realmente existe.
Fica a dúvida sobre qual é o verdadeiro app matador da escala de hardware do Google em comparação com a OpenAI (ou com o que a Microsoft fornece).
A tecnologia em si é impressionante e interessante, mas essa situação parece uma vingança do problema de Scunthorpe, o que chega a ser engraçado.