LLaVaVision - webapp estilo "Be My Eyes" criada com llama.cpp/llava
(github.com/lxe)- Implementa com IA, de forma semelhante, o serviço "Be My Eyes", que conecta voluntários a pessoas com deficiência visual para ler a tela
- Um webapp que, por meio de um backend multimodal, observa o vídeo e descreve em tempo real o que é
- Executa o modelo multimodal open source BakLLaVA-1, da SkunkworksAI, com llama.cpp, e reproduz a voz com a Web Speech API
4 comentários
Uau, quando vejo algo assim, sinto orgulho de ser engenheiro. Parece que vai ajudar muito as pessoas com deficiência visual.
Também existe um app chamado 'Sullivan Plus' que o youtuber One Shot Hansol usou.
Parece que ele não só reconhece texto, como também identifica as características dos objetos.
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/
Be My Eyes - dê visão a pessoas com deficiência visual
A IA de legendagem de imagens da MS começou a descrever fotos como uma pessoa
Fico muito feliz com uma notícia assim haha. É que minha filha tem deficiência visual.