HyperCLOVA X Vision: abrindo os olhos

(clova.ai)

5 pontos por GN⁺ 2024-08-21 | Ainda não há comentários. | Compartilhar no WhatsApp

O HCX Vision evolui o modelo de linguagem de grande porte (LLM) existente ao adicionar capacidade de compreensão de imagens, transformando-o em um modelo multimodal de visão e linguagem de grande porte (LVLM)
Com treinamento adicional em diversos dados visuais e linguísticos, ele passa a compreender imagens e texto ao mesmo tempo
Coletando dados ajustados a vários cenários, consegue realizar tarefas de compreensão visual e linguística em diferentes situações, como reconhecimento de documentos e entendimento de texto dentro de imagens
Com base na experiência da Naver em tecnologia OCR, fortalece o processamento de documentos e o reconhecimento de caracteres para oferecer serviços precisos e confiáveis
Baseado no HCX, possui conhecimento sobre a língua coreana e a cultura coreana, apresentando excelente desempenho na compreensão de documentos em coreano e de texto dentro de imagens

Indicadores quantitativos do HyperCLOVA X Vision

Em benchmarks públicos, alcança desempenho médio de 71,59%, chegando a 99,94% do nível do GPT-4V
Em questões anteriores do exame de equivalência do ensino fundamental e médio da Coreia, apresentou taxa de acerto de 83,8%, acima dos 77,8% do GPT-4o

Detailed Image Captioning: reconhece e descreve com precisão até os detalhes mais finos da imagem
Reasoning: com base em uma compreensão detalhada da imagem, infere a situação e prevê o próximo passo
Entity Recognition: entende apenas pela imagem unidades significativas como pessoas, lugares e produtos
Chart Understanding: compreende dados numéricos abstratos em formato de gráfico
Table Understanding: reconhece dados tabulares em capturas de tela e entende correlações espaciais
Document Understanding: compreende documentos em vários idiomas, como caracteres chineses e japonês
Culture and Humor (Meme Understanding): compreende memes compostos por pares de imagem e texto
Equation Understanding: reconhece equações renderizadas e as converte para sintaxe TeX
Code Generation: gera código para criar formas, gráficos e diagramas específicos
Math Problem Solving: compreende problemas de matemática com figuras e fornece a resolução
Creative Writing (with Image Grounding): possibilita escrita criativa com base nos elementos presentes na imagem

Com o uso de contextos de milhões de unidades, a expectativa é viabilizar compreensão de filmes longos e processamento de vídeo em tempo real
Quando combinado com tecnologia de processamento em tempo real, a IA poderá responder com flexibilidade às situações como uma entidade independente
A soberania também se tornará importante para LVLMs conforme a região e o contexto cultural
A Naver está em uma posição vantajosa para garantir de forma eficaz os dados necessários como principal plataforma da Coreia do Sul

A tecnologia LVLM da Naver está evoluindo para uma forma de comunicação mais próxima
A empresa está se esforçando para que o HCX Vision se torne uma IA benéfica para pessoas de diferentes origens
A expectativa é que, no futuro, o HCX Vision passe a fazer parte do dia a dia das pessoas

Espera-se que o HCX Vision possibilite uma comunicação mais natural com humanos por meio da compreensão de imagens. Em especial, deve ter alta utilidade em áreas onde a informação visual desempenha papel importante
Assim como mostrou alto desempenho na resolução de questões do exame de equivalência, o HCX Vision pode ser usado como ferramenta de apoio à aprendizagem na área educacional. Ainda assim, há preocupação com a possível redução da capacidade de estudo autodirigido dos alunos
A obtenção de dados e de soberania será um fator importante no desenvolvimento de LVLMs. Espera-se que a Naver consiga desenvolver um LVLM competitivo aproveitando seus dados em larga escala e sua plataforma
Se evoluir do nível atual de compreensão de imagem única para entendimento de filmes e vídeos em tempo real, poderá ser aplicado em várias áreas, como entretenimento, segurança e direção autônoma. Também será necessário se preparar para desafios técnicos e éticos
Embora apresente desempenho semelhante ao GPT-4 da OpenAI, o HCX Vision parece ter vantagem em compreensão do coreano e da cultura coreana. Para garantir competitividade global, será necessário melhorar a capacidade de processamento multilíngue