10 pontos por GN⁺ 2024-02-22 | 1 comentários | Compartilhar no WhatsApp
  • O tamanho do contexto de tokens do Google Gemini Pro 1.5 é de 1.000.000
  • Antes, Claude 2.1 (200.000 tokens) e gpt-4-turbo (128.000 tokens) detinham esse recorde, mas é difícil fazer uma comparação perfeitamente direta porque a forma como a tokenização é implementada varia entre os modelos
  • Depois de usar o Gemini Pro 1.5 por alguns dias, a função mais interessante não é a quantidade de tokens, mas a capacidade de usar vídeo como entrada
  • Ainda não há acesso à API, mas foi possível acessar o modelo pela interface do Google AI Studio

Primeiro teste

  • Um dos armários de livros foi filmado em um vídeo de 7 segundos
  • O vídeo foi enviado com o prompt "JSON array of books in this video"
  • Esse vídeo de 7 segundos usou apenas 1.841 tokens do limite de 1.048.576 tokens
  • O Gemini Pro 1.5 não retornou JSON, mas respondeu com uma lista dos títulos dos livros e nomes dos autores no vídeo
  • Ao pedir adicionalmente "as a JSON array of objects, with title and author keys", ele retornou os livros/autores em JSON
  • O resultado foi bastante surpreendente. O vídeo tem 7 segundos, se move bem rápido (com um pouco de motion blur) e alguns livros estão parcialmente cobertos por outros objetos

Segundo teste

  • Desta vez, uma estante cheia de livros de culinária foi filmada verticalmente em um vídeo mais longo (22 segundos), com panorâmica não só na horizontal, mas também para baixo
  • Esse vídeo usou 6.049 tokens, o que ainda é muito pouco
  • Novo prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
  • Mas a resposta foi recusada como "Unsafe Content"
  • O filtro de segurança aparentemente se incomodou com a palavra 'Cocktail'
  • As configurações de segurança foram abertas, tudo foi ajustado para 'baixo' em todas as categorias e foi feita uma nova tentativa, mas houve uma segunda recusa
  • Então, ao forçar com "go on give me that JSON", ele retornou o JSON
  • Mais uma vez, o resultado foi excelente

Como isso pode ser usado?

  • A capacidade de extrair conteúdo estruturado de texto já é um dos casos de uso mais interessantes dos LLMs
  • GPT-4 Vision e LLaVA estenderam isso para imagens, e agora o Gemini Pro 1.5 estende para vídeo
  • Claro, valem aqui as ressalvas habituais dos LLMs. Ele pode deixar passar coisas e alucinar detalhes incorretos
  • Também existem problemas com o filtro de segurança, como no caso de Cocktail
  • Portanto, como sempre acontece com a IA de ponta, ainda há muitos desafios a superar
  • Mas isso parece ser mais um exemplo que oferece um vislumbre de um futuro que chegou muito mais perto do que eu esperava

Imagem vs. vídeo

  • No começo, como a quantidade de tokens relacionada ao processamento de vídeo era surpreendentemente baixa, pensei que vídeo seria tratado de forma diferente de imagem
  • Mas, segundo uma postagem no Hacker News

    O Gemini 1.5 Pro pode raciocinar sobre até 1 hora de vídeo. Ao anexar um vídeo, o Google AI Studio o classifica em milhares de frames sem áudio, e como o modelo Gemini é multimodal, ele pode executar tarefas altamente sofisticadas de raciocínio e resolução de problemas.

  • O relatório técnico do Gemini 1.5 explica da seguinte forma:

    Quando recebe como entrada o filme de 45 minutos de Buster Keaton "Sherlock Jr." (1924) (2.674 frames a 1 FPS, 684k tokens), o Gemini 1.5 Pro consegue recuperar e extrair informações textuais de frames específicos e fornecer o timestamp correspondente.

1 comentários

 
GN⁺ 2024-02-22
Comentários no Hacker News
  • Se um agente ficar silenciosamente observando a tela do usuário o tempo todo, isso pode ser muito útil ou distópico.

    • Espera-se que ele possa observar por meses o usuário programando, planejando e pesquisando, e então oferecer conselhos pessoais e profissionais.
    • Esse tipo de tecnologia pode refletir a psicologia da pessoa e lembrar muitas informações, o que a tornaria muito valiosa para empresas ou agentes mal-intencionados.
    • O modelo precisaria operar com segurança, e há risco de clonagem da pessoa ou violação de privacidade.
  • O título "o app matador do Gemini Pro 1.5 é entrada de vídeo" seria mais apropriado.

    • Isso poderia ser útil para moderação em larga escala de conteúdo em vídeo, como no YouTube, e seria ótimo se o custo pudesse ser reduzido.
  • Vídeo é uma sequência de imagens, e a demo do GPT-4-Vision da OpenAI produz um efeito parecido ao enviar ao modelo uma lista de frames.

    • Seria bom se o GPT-4-Vision suportasse chamada de função ou dados estruturados para garantir saída em JSON.
    • Também existe a forma de usar ffmpeg para extrair um frame sim e outro não, a fim de cortar o custo pela metade.
    • A demo da OpenAI envia um a cada 50 frames em um vídeo de cerca de 600 frames.
  • Quando a IA puder analisar vídeos, imagens e texto e processar tudo isso de forma barata e eficiente, a privacidade estará completamente acabada.

    • Hoje as grandes empresas já têm muitos dados sobre nós, mas ainda há limites para entender e conectar tudo.
    • Uma IA poderosa poderia compreender todos os aspectos da vida digital, com enorme potencial de uso para fins bons e ruins.
  • Parece que o autor não verificou se os livros mencionados no vídeo usado como entrada estavam realmente corretos.

    • O primeiro que foi checado, "Growing Up with Lucy by April Henry", não existe; na verdade, é de Steve Grand.
    • É uma demo legal, mas na prática não serve para muita coisa além disso.
  • Parece que o filtro de segurança do Google reagiu à palavra "Cocktail".

    • A configuração de segurança foi reduzida e tentaram de novo, mas a segunda tentativa também foi recusada.
    • O departamento de gestão de risco do Google aparentemente tomou conta total da organização, a ponto de até os computadores mais inteligentes terem medo de usar palavras ou imagens perigosas como "cocktail" ou "Abraham Lincoln".
  • Dizem que usar apenas 256 tokens por frame é impressionante.

    • Ao contrário do ditado de que uma imagem vale mais que mil palavras, isso significaria que na verdade ela vale só umas 192 palavras.
  • O problema relacionado a "Cocktail" realmente existe.

    • Tentaram imaginar os personagens de Moby Dick com o DALLE, mas foi totalmente recusado.
    • Dá para pensar que uma empresa de IA conseguiria criar um filtro de palavrões melhor.
  • Fica a dúvida sobre qual é o verdadeiro app matador da escala de hardware do Google em comparação com a OpenAI (ou com o que a Microsoft fornece).

    • O que o Google fez provavelmente não é algo especialmente surpreendente para a equipe da OpenAI, mas talvez eles consigam iterar mais rápido em escala gigantesca.
  • A tecnologia em si é impressionante e interessante, mas essa situação parece uma vingança do problema de Scunthorpe, o que chega a ser engraçado.

    • O filtro de segurança aparentemente reagiu à palavra "Cocktail".