Quão bem os VLMs leem documentos de órgãos públicos coreanos? Benchmark KOLongDoc é lançado

(github.com/Marker-Inc-Korea)

5 pontos por kyujin 2026-06-04 | 1 comentários | Compartilhar no WhatsApp

🔥 Lançamos o KOLongDoc, um benchmark coreano de VLM para documentos longos!

Recentemente, IAs multimodais como ChatGPT, Claude e Gemini começaram a ser usadas também em tarefas públicas e administrativas, mas quase não existiam benchmarks para avaliar "o quão bem elas entendem documentos longos em coreano?"

Os benchmarks coreanos de VLM existentes focavam em OCR, VQA, compreensão de gráficos e compreensão de imagens, mas

❌ documentos de alta resolução com dezenas de páginas
❌ raciocínio multi-hop conectando informações entre várias páginas
❌ compreensão de documentos com contexto longo

acabavam tendo limitações para avaliar isso de forma abrangente.

Por isso, criamos o benchmark KOLongDoc 📄 e o disponibilizamos como open source!

✅ baseado em documentos de órgãos públicos da Coreia
✅ QA multi-page / multi-hop
✅ avaliação de compreensão de long documents em alta resolução
✅ total de 200 questões de avaliação

O KOLongDoc é um benchmark para avaliar com que precisão VLMs nacionais e internacionais conseguem compreender e raciocinar sobre documentos públicos coreanos reais.

Se quiser saber mais detalhes e como utilizá-lo, visite o Hugging Face e o GitHub!

🤗 Dataset:
https://huggingface.co/datasets/Markr-AI/KOLongDoc

📝 Apresentação no GitHub:
https://github.com/Marker-Inc-Korea/KOLongDoc

Agradecemos feedback e casos de uso do benchmark!

1 comentários

cosine20 2026-06-05

Há emojis demais no README, então fica meio poluído... mas acho que essa é a tendência hoje em dia.

Quão bem os VLMs leem documentos de órgãos públicos coreanos? Benchmark KOLongDoc é lançado

Leituras relacionadas

1 comentários