Ferret - o LLM multimodal da Apple

xguru · 2023-12-28T11:21:02+09:00

MLLM (Multimodal Large Language Model) Compreende todas as formas e referências espaciais detalhadas dentro de imagens Principais contribuições Modelo Ferret: representação híbrida de regiões + amostrador visual com consciência espacial Dataset GRIT: dataset de ajuste por instruções em larga escala, hierárquico e robusto. Inclui 1,1 milhão de amostras e 950 mil dados hard negative Ferret Bench: benchmark de avaliação multimodal (exige de forma combinada Referring/Grounding + Semantics + Knowledge + Reasoning)

(github.com/apple)

13 pontos por xguru 2023-12-28 | Ainda não há comentários. | Compartilhar no WhatsApp

MLLM (Multimodal Large Language Model)
- Compreende todas as formas e referências espaciais detalhadas dentro de imagens
Principais contribuições
- Modelo Ferret: representação híbrida de regiões + amostrador visual com consciência espacial
- Dataset GRIT: dataset de ajuste por instruções em larga escala, hierárquico e robusto. Inclui 1,1 milhão de amostras e 950 mil dados hard negative
- Ferret Bench: benchmark de avaliação multimodal (exige de forma combinada Referring/Grounding + Semantics + Knowledge + Reasoning)

Ferret - o LLM multimodal da Apple

Leituras relacionadas

Ainda não há comentários.