Quão bem os VLMs leem documentos de órgãos públicos coreanos? Benchmark KOLongDoc é lançado
(github.com/Marker-Inc-Korea)🔥 Lançamos o KOLongDoc, um benchmark coreano de VLM para documentos longos!
Recentemente, IAs multimodais como ChatGPT, Claude e Gemini começaram a ser usadas também em tarefas públicas e administrativas, mas quase não existiam benchmarks para avaliar "o quão bem elas entendem documentos longos em coreano?"
Os benchmarks coreanos de VLM existentes focavam em OCR, VQA, compreensão de gráficos e compreensão de imagens, mas
❌ documentos de alta resolução com dezenas de páginas
❌ raciocínio multi-hop conectando informações entre várias páginas
❌ compreensão de documentos com contexto longo
acabavam tendo limitações para avaliar isso de forma abrangente.
Por isso, criamos o benchmark KOLongDoc 📄 e o disponibilizamos como open source!
✅ baseado em documentos de órgãos públicos da Coreia
✅ QA multi-page / multi-hop
✅ avaliação de compreensão de long documents em alta resolução
✅ total de 200 questões de avaliação
O KOLongDoc é um benchmark para avaliar com que precisão VLMs nacionais e internacionais conseguem compreender e raciocinar sobre documentos públicos coreanos reais.
Se quiser saber mais detalhes e como utilizá-lo, visite o Hugging Face e o GitHub!
🤗 Dataset:
https://huggingface.co/datasets/Markr-AI/KOLongDoc
📝 Apresentação no GitHub:
https://github.com/Marker-Inc-Korea/KOLongDoc
Agradecemos feedback e casos de uso do benchmark!
Ainda não há comentários.