Fuyu-8B - o LLM multimodal open source lançado pela Adept

xguru · 2023-10-23T10:37:02+09:00

Uma versão menor do modelo multimodal (imagem + texto) que eles usam em seus produtos A arquitetura e o processo de treinamento são muito simples (sem codificador de imagem) Projetado para agentes digitais, suporta resolução arbitrária de imagem e consegue responder sobre gráficos e diagramas, além de perguntas baseadas em UI É rápido o suficiente para gerar respostas em menos de 100 ms mesmo para imagens grandes Apesar de ser otimizado para seus casos de uso, também apresenta excelente desempenho em benchmarks padrão de compreensão de imagens Disponibilizado sob licença CC-BY-NC

(adept.ai)

9 pontos por xguru 2023-10-23 | Ainda não há comentários. | Compartilhar no WhatsApp

Uma versão menor do modelo multimodal (imagem + texto) que eles usam em seus produtos
A arquitetura e o processo de treinamento são muito simples (sem codificador de imagem)
Projetado para agentes digitais, suporta resolução arbitrária de imagem e consegue responder sobre gráficos e diagramas, além de perguntas baseadas em UI
É rápido o suficiente para gerar respostas em menos de 100 ms mesmo para imagens grandes
Apesar de ser otimizado para seus casos de uso, também apresenta excelente desempenho em benchmarks padrão de compreensão de imagens
Disponibilizado sob licença CC-BY-NC

Fuyu-8B - o LLM multimodal open source lançado pela Adept

Leituras relacionadas

Ainda não há comentários.