Divulgados 3 benchmarks de VLM para avaliar proficiência em coreano (KO-VQA, KO-VDC, KO-OCRAG)
(github.com/Marker-Inc-Korea)Com o aumento recente do interesse em VLMs, foram divulgados benchmarks que permitem verificar a capacidade em coreano de VLMs em diferentes áreas.
Este projeto apresenta ao todo 3 benchmarks.
- KO-VQA: avalia a capacidade de compreensão de documentos em coreano em vários domínios e a capacidade de inferir respostas com base em documentos
- KO-VDC: avalia a capacidade de compreender materiais visuais esquemáticos em coreano e de gerar/compreender textos explicativos com base em diagramas
- KO-OCRAG: avalia a capacidade de OCR em documentos coreanos com estruturas complexas e a capacidade de parsing de contexto visual presente nos documentos
A avaliação de todos os datasets não depende de LLM-as-a-Judge e é realizada em um formato totalmente objetivo de múltipla escolha.
Foi feita uma comparação entre vários VLMs open source que podem rodar em uma única A100 de 40GB ou 80GB e o modelo closed-source gemini.
- gemini apresentou desempenho esmagador em todos os benchmarks.
- Entre os modelos open source, Qwen3 mostrou desempenho de destaque.
- O modelo VARCO-VISION-2.0 da NCSoft também apresentou um desempenho razoável.
- Em resumo, foi possível confirmar que a diferença de desempenho em coreano entre VLMs closed-source e open-source ainda é bastante grande.
- Além disso, foi surpreendente ver o gemini alcançar uma pontuação quase perfeita ;;
Para descrições detalhadas de cada dataset, consulte os respectivos readmes.
KO-VQA README
KO-VDC README
KO-OCRAG README
⭐⭐Github star⭐⭐, interesse e divulgação ajudam muito na criação de projetos open source!!
Este projeto foi realizado com apoio da markrAI.
Ainda não há comentários.