- O Mistral OCR é a melhor API de compreensão de documentos do mundo, oferecendo capacidade de entender e analisar documentos com mais precisão do que modelos existentes
- Extrai texto, mídia, fórmulas e tabelas de PDFs e imagens e converte isso em uma saída estruturada
- A API está disponível atualmente por 1000 páginas/US$ 1 (com processamento em lote, o custo por página cai pela metade)
Principais características do Mistral OCR
- Capacidade de compreensão de documentos complexos: interpreta com precisão tabelas, imagens, fórmulas e até formatação LaTeX
- Suporte multilíngue e multimodal: compatível com vários idiomas, fontes e scripts
- Desempenho de nível líder do setor: registra precisão superior à de outros modelos de OCR
- Velocidade máxima: pode processar 2000 páginas por minuto em um único nó
- Documentos podem ser usados como prompt: oferece suporte a saídas estruturadas, como JSON
- Opção on-premises (self-host): ideal para empresas que precisam processar documentos confidenciais
Compreensão de documentos complexos
- O Mistral OCR pode analisar em profundidade documentos que incluem artigos científicos, gráficos, fórmulas, tabelas e imagens
- É possível verificar, por meio de um notebook de exemplo, como o OCR extrai texto e imagens de PDFs (exemplo)
Comparação de desempenho (benchmark)
O Mistral OCR registrou a pontuação mais alta em desempenho geral quando comparado com outros principais modelos de OCR
- Desempenho geral (Overall): 94.89 (pontuação superior à dos outros modelos)
- Desempenho em análise de fórmulas (Math): 94.29 (mais de 7 pontos acima do GPT-4o)
- Desempenho em reconhecimento multilíngue: 89.55
- Desempenho com documentos digitalizados (Scanned): 98.96
- Desempenho em reconhecimento de tabelas (Table): 96.12 (o melhor entre os modelos comparados)
Suporte multilíngue
O Mistral OCR consegue processar diversos idiomas e sistemas de escrita do mundo todo. Em comparação com os principais modelos, registrou o melhor desempenho de OCR em todos os idiomas
- Russo (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
- Francês (fr): 99.20 (Azure 97.50, Google 96.36)
- Chinês (zh): 97.11 (Azure 91.40, Google 90.89)
- Alemão (de): 99.51 (Azure 98.39, Google 97.09)
Alta velocidade de processamento
- O Mistral OCR é mais leve que os modelos de OCR existentes e pode processar até 2000 páginas/minuto em um único nó
- Dá suporte a aprendizado contínuo e melhorias em ambientes que exigem processamento de grandes volumes de documentos
Uso de documentos como prompt (Doc-as-prompt)
- É possível extrair informações específicas de documentos e gerar saídas estruturadas, como JSON
- Os dados extraídos podem ser conectados a processos de IA posteriores para automação
- Exemplo: extrair cláusulas específicas de documentos jurídicos e depois gerar respostas de chatbot com IA
Opção on-premises (self-host)
- É possível fazer hospedagem própria quando for necessário processar documentos confidenciais dentro da empresa
- Ideal para instituições e empresas em que privacidade e segurança dos dados são importantes
Principais casos de uso
- Digitalização de pesquisa científica: converter artigos e periódicos em formatos que a IA possa processar para acelerar a colaboração em pesquisa
- Preservação de história e patrimônio cultural: museus e organizações sem fins lucrativos podem digitalizar documentos históricos para preservação e compartilhamento
- Melhoria do atendimento ao cliente: indexar manuais e documentos para aumentar a velocidade no atendimento
- Uso de IA em documentos de design, educação e jurídicos: indexar desenhos de engenharia, materiais de aula, documentos regulatórios etc. para permitir busca de informações com IA
Experimente o Mistral OCR
- O Mistral OCR pode ser testado gratuitamente no Le Chat (Le Chat)
- A API pode ser usada na la Plateforme (usar a API)
- Também são oferecidos implantação on-premises e soluções corporativas personalizadas (contato)
2 comentários
Não há conteúdo sobre o desempenho em coreano, mas, pelo que testei, não parece ruim.
Comentários no Hacker News
Há quem ache que “não é ruim”. No entanto, ainda ocorrem alucinações
Foi executada parcialmente uma comparação de benchmark entre o Mistral e o Marker
Há expectativa de que, com o avanço da tecnologia de OCR, ficará mais fácil ler artigos e livros didáticos
A tecnologia de OCR está se aproximando de um estado em que quase pode ser considerada resolvida
Há a opinião de que, ao converter livros didáticos de medicina de PDF para MD, os resultados do MinerU/PDF-Extract-Kit são melhores
Há quem diga que finalmente chegou o dia em que é possível editar PDFs graças ao avanço da tecnologia
Há a opinião de que é muito rápido e mais preciso do que Google, Claude e outros
Ao usar um VLM geral em vez de um modelo específico, há a desvantagem de ser mais difícil ajustá-lo para casos específicos
Busca-se uma explicação simples para o motivo de o OCR com VLM gerar alucinações