8 pontos por kyujin 2026-02-02 | Ainda não há comentários. | Compartilhar no WhatsApp

Com o aumento recente do interesse em VLMs, foram divulgados benchmarks que permitem verificar a capacidade em coreano de VLMs em diferentes áreas.

Este projeto apresenta ao todo 3 benchmarks.

  • KO-VQA: avalia a capacidade de compreensão de documentos em coreano em vários domínios e a capacidade de inferir respostas com base em documentos
  • KO-VDC: avalia a capacidade de compreender materiais visuais esquemáticos em coreano e de gerar/compreender textos explicativos com base em diagramas
  • KO-OCRAG: avalia a capacidade de OCR em documentos coreanos com estruturas complexas e a capacidade de parsing de contexto visual presente nos documentos

A avaliação de todos os datasets não depende de LLM-as-a-Judge e é realizada em um formato totalmente objetivo de múltipla escolha.
Foi feita uma comparação entre vários VLMs open source que podem rodar em uma única A100 de 40GB ou 80GB e o modelo closed-source gemini.

  • gemini apresentou desempenho esmagador em todos os benchmarks.
  • Entre os modelos open source, Qwen3 mostrou desempenho de destaque.
  • O modelo VARCO-VISION-2.0 da NCSoft também apresentou um desempenho razoável.
  • Em resumo, foi possível confirmar que a diferença de desempenho em coreano entre VLMs closed-source e open-source ainda é bastante grande.
  • Além disso, foi surpreendente ver o gemini alcançar uma pontuação quase perfeita ;;

Para descrições detalhadas de cada dataset, consulte os respectivos readmes.
KO-VQA README
KO-VDC README
KO-OCRAG README

⭐⭐Github star⭐⭐, interesse e divulgação ajudam muito na criação de projetos open source!!
Este projeto foi realizado com apoio da markrAI.

Ainda não há comentários.

Ainda não há comentários.