PaddleOCR-VL - OCR multilíngue com modelo visão-linguagem ultracompacto de 0,9B lançado pela Baidu

(huggingface.co)

43 pontos por xguru 2025-10-21 | 6 comentários | Compartilhar no WhatsApp

Modelo visão-linguagem (VLM) ultracompacto otimizado para parsing de documentos, com suporte a 109 idiomas, incluindo coreano, reconhecendo com precisão elementos complexos como fórmulas, tabelas, gráficos e escrita à mão
O modelo principal PaddleOCR-VL-0.9B combina um encoder visual de resolução dinâmica baseado em NaViT com o modelo de linguagem ERNIE-4.5-0.3B, alcançando ao mesmo tempo reconhecimento de alta precisão e velocidade rápida de inferência
Com uma arquitetura VLM pequena, mas poderosa, garante desempenho de reconhecimento no nível de modelos grandes, mantendo a eficiência computacional
Registrou SOTA (estado da arte) em benchmarks como o OmniDocBench, superando modelos anteriores baseados em pipeline
Suporta não só coreano, chinês, inglês e japonês, mas também diversos sistemas de escrita, como russo, árabe, hindi e tailandês, podendo ser usado na automação de processamento de documentos no mundo todo
Sua estrutura leve exige poucos recursos de GPU e permite implantação e integração fáceis por meio de Docker, CLI e Python API
Supera, em alguns itens, modelos multimodais da classe 72B, sendo uma solução multilíngue de processamento de documentos pronta para aplicação imediata em ambientes reais

6 comentários

helio 2025-10-21

Se for o PaddleOCR, acho que deve ter lugares que usam isso comercialmente, né??

tsboard 2025-10-21

Uau, meu Deus 😳😳😳 com isso vai dar para reconhecer na hora até documentos com tabelas complexas, né

xguru 2025-10-21

Pelo que se comenta, ele é muito superior até mesmo a alguns mecanismos comerciais de OCR.

yeorinhieut 2025-10-21

Pelo visto o deepseek ocr também saiu desta vez, então fiquei curioso para ver uma comparação de desempenho.

yangeok 2025-10-21

Se for multilíngue ao mesmo tempo, é o ideal,,

forgotdonkey456 2025-10-21

Um comentário prevendo que, se uma empresa privada chinesa consegue lançar um modelo desse nível, talvez a NSA tenha um modelo de OCR ainda mais avançado (ou insano) para coleta de informações.

PaddleOCR-VL - OCR multilíngue com modelo visão-linguagem ultracompacto de 0,9B lançado pela Baidu

Leituras relacionadas

6 comentários