2 pontos por kyujin 3 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

🔥 Lançamos o KOLongDoc, um benchmark coreano de VLM para documentos longos!

Recentemente, IAs multimodais como ChatGPT, Claude e Gemini começaram a ser usadas também em tarefas públicas e administrativas, mas quase não existiam benchmarks para avaliar "o quão bem elas entendem documentos longos em coreano?"

Os benchmarks coreanos de VLM existentes focavam em OCR, VQA, compreensão de gráficos e compreensão de imagens, mas

❌ documentos de alta resolução com dezenas de páginas
❌ raciocínio multi-hop conectando informações entre várias páginas
❌ compreensão de documentos com contexto longo

acabavam tendo limitações para avaliar isso de forma abrangente.

Por isso, criamos o benchmark KOLongDoc 📄 e o disponibilizamos como open source!

✅ baseado em documentos de órgãos públicos da Coreia
✅ QA multi-page / multi-hop
✅ avaliação de compreensão de long documents em alta resolução
✅ total de 200 questões de avaliação

O KOLongDoc é um benchmark para avaliar com que precisão VLMs nacionais e internacionais conseguem compreender e raciocinar sobre documentos públicos coreanos reais.

Se quiser saber mais detalhes e como utilizá-lo, visite o Hugging Face e o GitHub!

🤗 Dataset:
https://huggingface.co/datasets/Markr-AI/KOLongDoc

📝 Apresentação no GitHub:
https://github.com/Marker-Inc-Korea/KOLongDoc

Agradecemos feedback e casos de uso do benchmark!

Ainda não há comentários.

Ainda não há comentários.