- Repositório oficial de "FastVLM: Efficient Vision Encoding for Vision Language Models", apresentado pela Apple na CVPR 2025
- O FastViTHD demonstra redução no número de tokens e menor tempo de codificação de imagens em alta resolução
- O menor modelo alcança resultados 85 vezes mais rápidos que o LLaVA-OneVision-0.5B e um encoder 3,4 vezes menor
- O modelo grande mostra desempenho superior e velocidade 7,9 vezes maior que o Cambrian-1-8B
- Há um app de demonstração que roda em dispositivos móveis, como o iPhone
Importância e vantagens do projeto FastVLM
- O FastVLM é uma implementação oficial open source para modelos de linguagem visual (Vision Language Model, VLM)
- Oferece vantagens destacadas em velocidade e eficiência em relação aos encoders visuais existentes
- Tem alta utilidade em vários tipos de hardware, especialmente em Apple Silicon e ambientes móveis
- Permite escolher e usar diretamente modelos pré-treinados de vários tamanhos e níveis de desempenho
- Em comparação com outros projetos, garante respostas em tempo real otimizadas e baixo uso de recursos de hardware graças ao tamanho reduzido dos modelos
Principais características
- O FastViTHD é um encoder visual inovador de arquitetura híbrida que reduz a quantidade de tokens de saída e encurta significativamente o tempo de codificação de imagens em alta resolução
- O menor modelo, FastVLM-0.5B, tem TTFT (tempo até o primeiro token) 85 vezes mais rápido que o LLaVA-OneVision-0.5B e um encoder 3,4 vezes menor
- O modelo grande FastVLM-7B, combinado com o LLM Qwen2-7B, apresenta TTFT 7,9 vezes mais rápido e desempenho superior com um único encoder de imagem quando comparado a SOTAs recentes como o Cambrian-1-8B
- Também é fornecido um app de demonstração que funciona em ambiente móvel real (iOS), permitindo verificar imediatamente a aplicabilidade da tecnologia
Informações dos modelos (Model Zoo)
- Modelos FastVLM de vários tamanhos (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) são oferecidos nas versões de estágio 2 e estágio 3
- Arquivos de checkpoint do PyTorch são fornecidos oficialmente para cada modelo
- Os usuários podem usar os comandos oficiais para baixar em lote vários modelos para o diretório
checkpoints
Exemplo de uso (Usage Example)
- É possível testar inferência de forma fácil e rápida com checkpoints do PyTorch já treinados usando o script predict.py
- Com os comandos de exemplo, basta inserir uma imagem e um prompt (pergunta) para obter uma descrição da imagem ou a resposta à pergunta
Suporte a Apple Silicon e dispositivos móveis
- É fornecido um guia explicando o processo separado de exportação do modelo e quantização para inferência em Apple Silicon
- Arquivos de checkpoint de uma versão diretamente otimizada para Apple Silicon são distribuídos oficialmente
- O guia de desenvolvimento de app e o código-fonte prontos para uso em iPhone, iPad e Mac estão indicados na pasta
/app
Informações adicionais e orientações sobre open source
- São fornecidos o link oficial do arXiv do artigo do FastVLM e o formato de citação do paper da CVPR 2025
- A base de código se apoia em vários projetos open source, e as contribuições e informações de licença são apresentadas separadamente
- Antes de usar os modelos e o código, é necessário verificar a licença (arquivo de licença e licença dos modelos)
1 comentários
Comentários do Hacker News