43 pontos por xguru 2025-10-21 | 6 comentários | Compartilhar no WhatsApp
  • Modelo visão-linguagem (VLM) ultracompacto otimizado para parsing de documentos, com suporte a 109 idiomas, incluindo coreano, reconhecendo com precisão elementos complexos como fórmulas, tabelas, gráficos e escrita à mão
  • O modelo principal PaddleOCR-VL-0.9B combina um encoder visual de resolução dinâmica baseado em NaViT com o modelo de linguagem ERNIE-4.5-0.3B, alcançando ao mesmo tempo reconhecimento de alta precisão e velocidade rápida de inferência
  • Com uma arquitetura VLM pequena, mas poderosa, garante desempenho de reconhecimento no nível de modelos grandes, mantendo a eficiência computacional
  • Registrou SOTA (estado da arte) em benchmarks como o OmniDocBench, superando modelos anteriores baseados em pipeline
  • Suporta não só coreano, chinês, inglês e japonês, mas também diversos sistemas de escrita, como russo, árabe, hindi e tailandês, podendo ser usado na automação de processamento de documentos no mundo todo
  • Sua estrutura leve exige poucos recursos de GPU e permite implantação e integração fáceis por meio de Docker, CLI e Python API
  • Supera, em alguns itens, modelos multimodais da classe 72B, sendo uma solução multilíngue de processamento de documentos pronta para aplicação imediata em ambientes reais

6 comentários

 
helio 2025-10-21

Se for o PaddleOCR, acho que deve ter lugares que usam isso comercialmente, né??

 
tsboard 2025-10-21

Uau, meu Deus 😳😳😳 com isso vai dar para reconhecer na hora até documentos com tabelas complexas, né

 
xguru 2025-10-21

Pelo que se comenta, ele é muito superior até mesmo a alguns mecanismos comerciais de OCR.

 
yeorinhieut 2025-10-21

Pelo visto o deepseek ocr também saiu desta vez, então fiquei curioso para ver uma comparação de desempenho.

 
yangeok 2025-10-21

Se for multilíngue ao mesmo tempo, é o ideal,,

 
forgotdonkey456 2025-10-21

Um comentário prevendo que, se uma empresa privada chinesa consegue lançar um modelo desse nível, talvez a NSA tenha um modelo de OCR ainda mais avançado (ou insano) para coleta de informações.