Preview do Grok-1.5 Vision: apresentação do primeiro modelo multimodal com recursos avançados de processamento visual

(x.ai)

5 pontos por brainer 2024-04-14 | Ainda não há comentários. | Compartilhar no WhatsApp

• O Grok-1.5V, um modelo multimodal de primeira geração, agora pode processar uma ampla variedade de informações visuais, incluindo documentos, diagramas, gráficos, capturas de tela e fotos, além de seus poderosos recursos de texto.

• O Grok-1.5V supera modelos multimodais existentes em diversas áreas, como raciocínio multidisciplinar, compreensão de documentos, diagramas científicos, gráficos, capturas de tela e fotos, demonstrando excelente capacidade de compreender o mundo físico.

• É apresentado o RealWorldQA, um novo benchmark para avaliar a capacidade fundamental de compreensão espacial do mundo real em modelos multimodais, composto por mais de 700 imagens com perguntas e respostas facilmente verificáveis.

• O Grok-1.5V estará disponível em breve para testadores iniciais e usuários atuais do Grok, e seus recursos multimodais estão sendo ativamente expandidos para abranger diversos formatos, como imagens, áudio e vídeo.

Preview do Grok-1.5 Vision: apresentação do primeiro modelo multimodal com recursos avançados de processamento visual

Leituras relacionadas

Ainda não há comentários.