9 pontos por xguru 2023-10-23 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Uma versão menor do modelo multimodal (imagem + texto) que eles usam em seus produtos
  • A arquitetura e o processo de treinamento são muito simples (sem codificador de imagem)
  • Projetado para agentes digitais, suporta resolução arbitrária de imagem e consegue responder sobre gráficos e diagramas, além de perguntas baseadas em UI
  • É rápido o suficiente para gerar respostas em menos de 100 ms mesmo para imagens grandes
  • Apesar de ser otimizado para seus casos de uso, também apresenta excelente desempenho em benchmarks padrão de compreensão de imagens
  • Disponibilizado sob licença CC-BY-NC

Ainda não há comentários.

Ainda não há comentários.