8 pontos por ysc7064 2023-08-07 | 3 comentários | Compartilhar no WhatsApp

Olá
Sou um desenvolvedor que já desenvolveu e operou um app de registro de exercícios chamado Fleek, e atualmente tenho grande interesse na interseção entre LLM, multimodal, Langchain, especialmente agentes de LLM, e vídeo.

O projeto que gostaria de apresentar é um mecanismo de busca que permite pesquisar, por texto ou imagem, a cena ou clipe de vídeo desejado dentro de vídeos enviados.

Hoje, a maior parte do trabalho com vídeos ainda é feita por pessoas, mas comecei este projeto pensando: se existisse uma API para lidar com vídeos, será que um agente de IA poderia editar ou extrair vídeos diretamente?

Para que vocês possam testar, deixei alguns vídeos aleatórios do YouTube enviados no Playground.
Ficarei muito grato por qualquer feedback sobre o uso.

P.S. Se quiser enviar seus próprios vídeos ou precisar dos resultados em formato de API, entre em contato a qualquer momento.

3 comentários

 
kuroneko 2023-08-08

Antigamente já existiam alguns programas para gerenciar vídeos caseiros que extraíam várias cenas do vídeo e usavam uma CNN tradicional(?) para classificar as cenas e permitir buscas por elas...

Mas isso aqui parece funcionar em outro nível, a ponto de nem dar para comparar com esse tipo de método.

Depois de testar algumas buscas, acho que uns 70~80% dos resultados eram mesmo as cenas que eu estava procurando. Por exemplo, ao pesquisar por "A scene where something explodes", ele encontrou muito bem cenas em que algo brilhava ou explodia, principalmente em filmes do Homem-Aranha.

Claro, também identifica como explosão cenas que mudam muito rápido... mas mesmo assim é impressionante. Quando enviei uma imagem com o logo da Netflix, ele encontrou tudo que tivesse algum tipo de logotipo de empresa, incluindo a própria Netflix.

(Ainda assim, é um pouco decepcionante que não funcione em coreano.)

 
kuroneko 2023-08-08

Parece que esse recurso também funcionaria muito bem com imagens; isso me faz pensar que o dia em que cada pessoa poderá pesquisar com IA todo o seu próprio álbum, incluindo vídeos, não está longe.

Ou então, ao editar transmissões ao vivo ou vídeos muito longos, daria para encontrar e extrair destaques ou exatamente as partes necessárias com IA, sem precisar assistir ao vídeo inteiro...

Pensando no lado das empresas, talvez o YouTube também possa ganhar um recurso de busca por linguagem natural + cena.

De qualquer forma, obrigado por compartilhar um projeto tão legal.
Parece um pouco diferente da direção que vocês estão seguindo agora, mas seria ótimo se, algum dia, um projeto assim fosse lançado como open source e permitisse self-hosting.

 
ysc7064 2023-08-08

Olá, kuroneko, muito obrigado por ter se divertido explorando o projeto.

  1. 'O dia em que cada pessoa poderá pesquisar com IA todo o seu próprio álbum, incluindo vídeos'
    -> Isso imediatamente me fez lembrar de mim mesmo vasculhando o álbum para encontrar uma foto...

  2. 'Editar vídeos muito longos e, com IA, encontrar e trazer os destaques ou as partes necessárias'
    -> Exatamente. Tenho interesse em reduzir o custo marginal da produção de vídeo usando IA.

Muito obrigado mais uma vez por compartilhar um feedback de uso tão detalhado.
Vou ler tudo com atenção, extrair os pontos que possam trazer inspiração para o projeto e continuar aplicando-os.