Divulgados 3 benchmarks de VLM para avaliar proficiência em coreano (KO-VQA, KO-VDC, KO-OCRAG)

(github.com/Marker-Inc-Korea)

8 pontos por kyujin 2026-02-02 | Ainda não há comentários. | Compartilhar no WhatsApp

Com o aumento recente do interesse em VLMs, foram divulgados benchmarks que permitem verificar a capacidade em coreano de VLMs em diferentes áreas.

Este projeto apresenta ao todo 3 benchmarks.

KO-VQA: avalia a capacidade de compreensão de documentos em coreano em vários domínios e a capacidade de inferir respostas com base em documentos
KO-VDC: avalia a capacidade de compreender materiais visuais esquemáticos em coreano e de gerar/compreender textos explicativos com base em diagramas
KO-OCRAG: avalia a capacidade de OCR em documentos coreanos com estruturas complexas e a capacidade de parsing de contexto visual presente nos documentos

A avaliação de todos os datasets não depende de LLM-as-a-Judge e é realizada em um formato totalmente objetivo de múltipla escolha.
Foi feita uma comparação entre vários VLMs open source que podem rodar em uma única A100 de 40GB ou 80GB e o modelo closed-source gemini.

gemini apresentou desempenho esmagador em todos os benchmarks.
Entre os modelos open source, Qwen3 mostrou desempenho de destaque.
O modelo VARCO-VISION-2.0 da NCSoft também apresentou um desempenho razoável.
Em resumo, foi possível confirmar que a diferença de desempenho em coreano entre VLMs closed-source e open-source ainda é bastante grande.
Além disso, foi surpreendente ver o gemini alcançar uma pontuação quase perfeita ;;

Para descrições detalhadas de cada dataset, consulte os respectivos readmes.
KO-VQA README
KO-VDC README
KO-OCRAG README

⭐⭐Github star⭐⭐, interesse e divulgação ajudam muito na criação de projetos open source!!
Este projeto foi realizado com apoio da markrAI.

Divulgados 3 benchmarks de VLM para avaliar proficiência em coreano (KO-VQA, KO-VDC, KO-OCRAG)

Com o aumento recente do interesse em VLMs, foram divulgados benchmarks que permitem verificar a capacidade em coreano de VLMs em diferentes áreas.

Leituras relacionadas

Ainda não há comentários.