- MLLM (Multimodal Large Language Model)
- Compreende todas as formas e referências espaciais detalhadas dentro de imagens
- Principais contribuições
- Modelo Ferret: representação híbrida de regiões + amostrador visual com consciência espacial
- Dataset GRIT: dataset de ajuste por instruções em larga escala, hierárquico e robusto. Inclui 1,1 milhão de amostras e 950 mil dados hard negative
- Ferret Bench: benchmark de avaliação multimodal (exige de forma combinada Referring/Grounding + Semantics + Knowledge + Reasoning)
Ainda não há comentários.