- O HCX Vision evolui o modelo de linguagem de grande porte (LLM) existente ao adicionar capacidade de compreensão de imagens, transformando-o em um modelo multimodal de visão e linguagem de grande porte (LVLM)
- Com treinamento adicional em diversos dados visuais e linguísticos, ele passa a compreender imagens e texto ao mesmo tempo
- Coletando dados ajustados a vários cenários, consegue realizar tarefas de compreensão visual e linguística em diferentes situações, como reconhecimento de documentos e entendimento de texto dentro de imagens
- Com base na experiência da Naver em tecnologia OCR, fortalece o processamento de documentos e o reconhecimento de caracteres para oferecer serviços precisos e confiáveis
- Baseado no HCX, possui conhecimento sobre a língua coreana e a cultura coreana, apresentando excelente desempenho na compreensão de documentos em coreano e de texto dentro de imagens
Indicadores quantitativos do HyperCLOVA X Vision
- Em benchmarks públicos, alcança desempenho médio de 71,59%, chegando a 99,94% do nível do GPT-4V
- Em questões anteriores do exame de equivalência do ensino fundamental e médio da Coreia, apresentou taxa de acerto de 83,8%, acima dos 77,8% do GPT-4o
Recursos do HyperCLOVA X Vision com base em exemplos
- Detailed Image Captioning: reconhece e descreve com precisão até os detalhes mais finos da imagem
- Reasoning: com base em uma compreensão detalhada da imagem, infere a situação e prevê o próximo passo
- Entity Recognition: entende apenas pela imagem unidades significativas como pessoas, lugares e produtos
- Chart Understanding: compreende dados numéricos abstratos em formato de gráfico
- Table Understanding: reconhece dados tabulares em capturas de tela e entende correlações espaciais
- Document Understanding: compreende documentos em vários idiomas, como caracteres chineses e japonês
- Culture and Humor (Meme Understanding): compreende memes compostos por pares de imagem e texto
- Equation Understanding: reconhece equações renderizadas e as converte para sintaxe TeX
- Code Generation: gera código para criar formas, gráficos e diagramas específicos
- Math Problem Solving: compreende problemas de matemática com figuras e fornece a resolução
- Creative Writing (with Image Grounding): possibilita escrita criativa com base nos elementos presentes na imagem
Perspectivas futuras do HyperCLOVA X Vision e Sovereign AI
- Com o uso de contextos de milhões de unidades, a expectativa é viabilizar compreensão de filmes longos e processamento de vídeo em tempo real
- Quando combinado com tecnologia de processamento em tempo real, a IA poderá responder com flexibilidade às situações como uma entidade independente
- A soberania também se tornará importante para LVLMs conforme a região e o contexto cultural
- A Naver está em uma posição vantajosa para garantir de forma eficaz os dados necessários como principal plataforma da Coreia do Sul
Encerrando
- A tecnologia LVLM da Naver está evoluindo para uma forma de comunicação mais próxima
- A empresa está se esforçando para que o HCX Vision se torne uma IA benéfica para pessoas de diferentes origens
- A expectativa é que, no futuro, o HCX Vision passe a fazer parte do dia a dia das pessoas
Opinião do GN⁺
- Espera-se que o HCX Vision possibilite uma comunicação mais natural com humanos por meio da compreensão de imagens. Em especial, deve ter alta utilidade em áreas onde a informação visual desempenha papel importante
- Assim como mostrou alto desempenho na resolução de questões do exame de equivalência, o HCX Vision pode ser usado como ferramenta de apoio à aprendizagem na área educacional. Ainda assim, há preocupação com a possível redução da capacidade de estudo autodirigido dos alunos
- A obtenção de dados e de soberania será um fator importante no desenvolvimento de LVLMs. Espera-se que a Naver consiga desenvolver um LVLM competitivo aproveitando seus dados em larga escala e sua plataforma
- Se evoluir do nível atual de compreensão de imagem única para entendimento de filmes e vídeos em tempo real, poderá ser aplicado em várias áreas, como entretenimento, segurança e direção autônoma. Também será necessário se preparar para desafios técnicos e éticos
- Embora apresente desempenho semelhante ao GPT-4 da OpenAI, o HCX Vision parece ter vantagem em compreensão do coreano e da cultura coreana. Para garantir competitividade global, será necessário melhorar a capacidade de processamento multilíngue
Ainda não há comentários.