13 pontos por xguru 2023-12-28 | Ainda não há comentários. | Compartilhar no WhatsApp
  • MLLM (Multimodal Large Language Model)
    • Compreende todas as formas e referências espaciais detalhadas dentro de imagens
  • Principais contribuições
    • Modelo Ferret: representação híbrida de regiões + amostrador visual com consciência espacial
    • Dataset GRIT: dataset de ajuste por instruções em larga escala, hierárquico e robusto. Inclui 1,1 milhão de amostras e 950 mil dados hard negative
    • Ferret Bench: benchmark de avaliação multimodal (exige de forma combinada Referring/Grounding + Semantics + Knowledge + Reasoning)

Ainda não há comentários.

Ainda não há comentários.