• O Grok-1.5V, um modelo multimodal de primeira geração, agora pode processar uma ampla variedade de informações visuais, incluindo documentos, diagramas, gráficos, capturas de tela e fotos, além de seus poderosos recursos de texto.
• O Grok-1.5V supera modelos multimodais existentes em diversas áreas, como raciocínio multidisciplinar, compreensão de documentos, diagramas científicos, gráficos, capturas de tela e fotos, demonstrando excelente capacidade de compreender o mundo físico.
• É apresentado o RealWorldQA, um novo benchmark para avaliar a capacidade fundamental de compreensão espacial do mundo real em modelos multimodais, composto por mais de 700 imagens com perguntas e respostas facilmente verificáveis.
• O Grok-1.5V estará disponível em breve para testadores iniciais e usuários atuais do Grok, e seus recursos multimodais estão sendo ativamente expandidos para abranger diversos formatos, como imagens, áudio e vídeo.
Ainda não há comentários.