Mistral OCR é lançado — a melhor API de compreensão de documentos

(mistral.ai)

13 pontos por GN⁺ 2025-03-07 | 2 comentários | Compartilhar no WhatsApp

O Mistral OCR é a melhor API de compreensão de documentos do mundo, oferecendo capacidade de entender e analisar documentos com mais precisão do que modelos existentes
Extrai texto, mídia, fórmulas e tabelas de PDFs e imagens e converte isso em uma saída estruturada
A API está disponível atualmente por 1000 páginas/US$ 1 (com processamento em lote, o custo por página cai pela metade)

Principais características do Mistral OCR

Capacidade de compreensão de documentos complexos: interpreta com precisão tabelas, imagens, fórmulas e até formatação LaTeX
Suporte multilíngue e multimodal: compatível com vários idiomas, fontes e scripts
Desempenho de nível líder do setor: registra precisão superior à de outros modelos de OCR
Velocidade máxima: pode processar 2000 páginas por minuto em um único nó
Documentos podem ser usados como prompt: oferece suporte a saídas estruturadas, como JSON
Opção on-premises (self-host): ideal para empresas que precisam processar documentos confidenciais

Compreensão de documentos complexos

O Mistral OCR pode analisar em profundidade documentos que incluem artigos científicos, gráficos, fórmulas, tabelas e imagens
É possível verificar, por meio de um notebook de exemplo, como o OCR extrai texto e imagens de PDFs (exemplo)

Comparação de desempenho (benchmark)

O Mistral OCR registrou a pontuação mais alta em desempenho geral quando comparado com outros principais modelos de OCR

Desempenho geral (Overall): 94.89 (pontuação superior à dos outros modelos)
Desempenho em análise de fórmulas (Math): 94.29 (mais de 7 pontos acima do GPT-4o)
Desempenho em reconhecimento multilíngue: 89.55
Desempenho com documentos digitalizados (Scanned): 98.96
Desempenho em reconhecimento de tabelas (Table): 96.12 (o melhor entre os modelos comparados)

Suporte multilíngue

O Mistral OCR consegue processar diversos idiomas e sistemas de escrita do mundo todo. Em comparação com os principais modelos, registrou o melhor desempenho de OCR em todos os idiomas

Russo (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
Francês (fr): 99.20 (Azure 97.50, Google 96.36)
Chinês (zh): 97.11 (Azure 91.40, Google 90.89)
Alemão (de): 99.51 (Azure 98.39, Google 97.09)

Alta velocidade de processamento

O Mistral OCR é mais leve que os modelos de OCR existentes e pode processar até 2000 páginas/minuto em um único nó
Dá suporte a aprendizado contínuo e melhorias em ambientes que exigem processamento de grandes volumes de documentos

Uso de documentos como prompt (Doc-as-prompt)

É possível extrair informações específicas de documentos e gerar saídas estruturadas, como JSON
Os dados extraídos podem ser conectados a processos de IA posteriores para automação
Exemplo: extrair cláusulas específicas de documentos jurídicos e depois gerar respostas de chatbot com IA

Opção on-premises (self-host)

É possível fazer hospedagem própria quando for necessário processar documentos confidenciais dentro da empresa
Ideal para instituições e empresas em que privacidade e segurança dos dados são importantes

Principais casos de uso

Digitalização de pesquisa científica: converter artigos e periódicos em formatos que a IA possa processar para acelerar a colaboração em pesquisa
Preservação de história e patrimônio cultural: museus e organizações sem fins lucrativos podem digitalizar documentos históricos para preservação e compartilhamento
Melhoria do atendimento ao cliente: indexar manuais e documentos para aumentar a velocidade no atendimento
Uso de IA em documentos de design, educação e jurídicos: indexar desenhos de engenharia, materiais de aula, documentos regulatórios etc. para permitir busca de informações com IA

Experimente o Mistral OCR

O Mistral OCR pode ser testado gratuitamente no Le Chat (Le Chat)
A API pode ser usada na la Plateforme (usar a API)
Também são oferecidos implantação on-premises e soluções corporativas personalizadas (contato)

2 comentários

taeha 2025-03-13

Não há conteúdo sobre o desempenho em coreano, mas, pelo que testei, não parece ruim.

GN⁺ 2025-03-07

Comentários no Hacker News

Há quem ache que “não é ruim”. No entanto, ainda ocorrem alucinações
- Na imagem fornecida como exemplo, o texto do bloco central foi reproduzido com precisão
- Porém, no bloco seguinte, parte do texto do bloco anterior foi repetida, parte do bloco seguinte foi incluída incorretamente e palavras inexistentes foram geradas
- O texto correto é "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
Foi executada parcialmente uma comparação de benchmark entre o Mistral e o Marker
- Em 375 amostras, segundo avaliação feita por LLM, o Mistral obteve 4,32 pontos e o Marker, 4,41
- O Marker consegue fazer inferência de 20 a 120 páginas por segundo em um H100
- As amostras e o código do benchmark podem ser consultados no Hugging Face e no GitHub, respectivamente
- O Mistral OCR é um modelo impressionante, mas o problema de OCR ainda é difícil
Há expectativa de que, com o avanço da tecnologia de OCR, ficará mais fácil ler artigos e livros didáticos
- Será possível vincular referências a figuras às figuras reais sem interromper o fluxo da leitura
- Uma conversão limpa para HTML permitirá clicar em definições ou adicionar perguntas para verificar a compreensão
- Também pode haver a possibilidade de integrar automaticamente o Orbit SRS de Andy Matuschak a PDFs
A tecnologia de OCR está se aproximando de um estado em que quase pode ser considerada resolvida
- Porém, nos negócios, ainda existe uma grande lacuna entre a saída bruta de OCR e o processamento de documentos
- LLMs e VLMs não são mágicos, e esperar automação 100% é irrealista
- É necessário construir datasets, ajustar pipelines, detectar incertezas e corrigir com intervenção humana
Há a opinião de que, ao converter livros didáticos de medicina de PDF para MD, os resultados do MinerU/PDF-Extract-Kit são melhores
- O link do Colab presente no artigo não funciona, mas foi encontrado um link funcional na documentação
Há quem diga que finalmente chegou o dia em que é possível editar PDFs graças ao avanço da tecnologia
- No entanto, o problema de OCR em arquivos de PDF com dados pessoais ainda não foi resolvido
Há a opinião de que é muito rápido e mais preciso do que Google, Claude e outros
- O preço é de US$ 1 por 1.000 páginas, e no modo batch a cobrança é feita por 2.000 páginas
- Há quem diga que é excelente para converter PDF em Markdown
Ao usar um VLM geral em vez de um modelo específico, há a desvantagem de ser mais difícil ajustá-lo para casos específicos
- Por exemplo, usa-se o Gemini para adicionar texto alternativo muito específico ao Markdown extraído
- Custa de 2 a 3 vezes mais do que o Gemini Flash, mas o ganho de desempenho é importante
Busca-se uma explicação simples para o motivo de o OCR com VLM gerar alucinações