- Uma versão menor do modelo multimodal (imagem + texto) que eles usam em seus produtos
- A arquitetura e o processo de treinamento são muito simples (sem codificador de imagem)
- Projetado para agentes digitais, suporta resolução arbitrária de imagem e consegue responder sobre gráficos e diagramas, além de perguntas baseadas em UI
- É rápido o suficiente para gerar respostas em menos de 100 ms mesmo para imagens grandes
- Apesar de ser otimizado para seus casos de uso, também apresenta excelente desempenho em benchmarks padrão de compreensão de imagens
- Disponibilizado sob licença CC-BY-NC
Ainda não há comentários.