- Modelo visão-linguagem (VLM) ultracompacto otimizado para parsing de documentos, com suporte a 109 idiomas, incluindo coreano, reconhecendo com precisão elementos complexos como fórmulas, tabelas, gráficos e escrita à mão
- O modelo principal PaddleOCR-VL-0.9B combina um encoder visual de resolução dinâmica baseado em NaViT com o modelo de linguagem ERNIE-4.5-0.3B, alcançando ao mesmo tempo reconhecimento de alta precisão e velocidade rápida de inferência
- Com uma arquitetura VLM pequena, mas poderosa, garante desempenho de reconhecimento no nível de modelos grandes, mantendo a eficiência computacional
- Registrou SOTA (estado da arte) em benchmarks como o OmniDocBench, superando modelos anteriores baseados em pipeline
- Suporta não só coreano, chinês, inglês e japonês, mas também diversos sistemas de escrita, como russo, árabe, hindi e tailandês, podendo ser usado na automação de processamento de documentos no mundo todo
- Sua estrutura leve exige poucos recursos de GPU e permite implantação e integração fáceis por meio de Docker, CLI e Python API
- Supera, em alguns itens, modelos multimodais da classe 72B, sendo uma solução multilíngue de processamento de documentos pronta para aplicação imediata em ambientes reais
6 comentários
Se for o PaddleOCR, acho que deve ter lugares que usam isso comercialmente, né??
Uau, meu Deus 😳😳😳 com isso vai dar para reconhecer na hora até documentos com tabelas complexas, né
Pelo que se comenta, ele é muito superior até mesmo a alguns mecanismos comerciais de OCR.
Pelo visto o deepseek ocr também saiu desta vez, então fiquei curioso para ver uma comparação de desempenho.
Se for multilíngue ao mesmo tempo, é o ideal,,
Um comentário prevendo que, se uma empresa privada chinesa consegue lançar um modelo desse nível, talvez a NSA tenha um modelo de OCR ainda mais avançado (ou insano) para coleta de informações.