- Modelo de OCR de próxima geração que melhora ao mesmo tempo a precisão e a eficiência no processamento de documentos, oferecendo alto desempenho de reconhecimento em diversos tipos de documentos
- Em comparação com a versão anterior, registrou uma melhoria geral de 74% no desempenho, alcançando excelentes resultados em escrita à mão, formulários, tabelas complexas e documentos digitalizados
- Com reconstrução de tabelas baseada em HTML e suporte à saída em Markdown, também é possível preservar as informações estruturais do documento
- US$ 2 por 1.000 páginas, com 50% de desconto em processamento em lote, garantindo eficiência de custo
- Tecnologia de OCR que pode ser amplamente usada desde pipelines corporativos de grande escala até workflows interativos de documentos, emergindo como infraestrutura central para o uso de dados com base em IA generativa
Principais desempenho e características
- O Mistral OCR 3 realiza extração de texto e imagens incorporadas com alta precisão em diversos documentos
- Suporta saída em formato Markdown e reconstrução de tabelas em HTML, permitindo reconhecer não apenas o conteúdo, mas também a estrutura do documento
- Como o modelo é pequeno, ele é oferecido com custo menor do que soluções concorrentes, custando US$ 2 por 1.000 páginas e US$ 1 ao usar a Batch API
- É possível integrar o modelo mistral-ocr-2512 via API ou converter PDFs e imagens em texto ou JSON estruturado pela interface Document AI Playground
Melhorias de desempenho e benchmark
- Em benchmarks internos, registrou uma taxa de vitória de 74% em relação ao Mistral OCR 2
- Os testes foram realizados com base em casos reais de negócios de clientes, e a precisão foi avaliada com a métrica fuzzy-match metric
- Alcançou precisão superior tanto a soluções corporativas de processamento de documentos quanto a OCR baseado em IA
Principais áreas de upgrade
- Reconhecimento de escrita à mão: interpreta com precisão escrita cursiva, anotações mistas e textos manuscritos sobre formulários impressos
- Processamento de formulários: melhora o reconhecimento de caixas, rótulos, entradas manuscritas e layouts complexos
- Documentos digitalizados e complexos: garante forte resistência a danos por compressão, distorções, baixa resolução e ruído de fundo
- Estruturas complexas de tabelas: reproduz completamente tabelas com cabeçalhos, células mescladas e hierarquias de múltiplas linhas e colunas com tags HTML (
colspan/rowspan)
- Melhoria geral de desempenho em relação ao Mistral OCR 2 em todos os idiomas e formatos de documento
Casos de uso e áreas de aplicação
- Adequado tanto para pipelines corporativos de documentos em grande escala quanto para workflows interativos de documentos
- Oferece suporte a conversão para Markdown após extração de texto e imagem, parsing automático de formulários e faturas, construção de pipelines de compreensão de documentos e digitalização de manuscritos e documentos históricos
- Os primeiros clientes já o utilizam para converter faturas em campos estruturados, digitalizar arquivos corporativos, extrair texto de relatórios técnicos e científicos e melhorar a busca corporativa
- Tim Law, da IDC, afirmou: “OCR é uma tecnologia fundamental para IA generativa e IA agêntica, e a capacidade de extração de texto com alta precisão e baixo custo determina a competitividade no uso de dados”
Abordagem de acesso e compatibilidade
- Disponível para uso imediato por meio da API ou da interface Document AI Playground
- Totalmente compatível com o Mistral OCR 2, permitindo upgrade fácil em sistemas existentes
- Mais detalhes estão disponíveis em mistral.ai/docs
1 comentários
Comentários do Hacker News
Depois de ver este vídeo no Twitter, fiquei me perguntando por que a Mistral não compara com os modelos SoTA mais recentes
Seria bom comparar com modelos como Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR e PaddleOCR
A Mistral está comparando com serviços comuns de visão computacional, não com modelos baseados em VLM
Os primeiros têm melhor compreensão de documentos, enquanto os segundos fornecem bounding boxes precisos
Os padrões de falha também são diferentes — VLMs podem ler uma frase inteira de forma errada, enquanto modelos de visão erram mais no nível de typos dentro de palavras
Nos últimos 3 meses saíram muitos modelos OCR open source
Especialmente modelos com menos de 1B de parâmetros, que rodam bem até em dispositivos de borda
Gostaria que comparassem com paddleOCR-VL, olmOCR-2, chandra e dots.ocr
É uma pena que quase não existam leaderboards ou arenas para OCR ou CV
Funciona como o llmarena, com confrontos entre modelos, mas a Mistral ainda não foi atualizada lá
No momento, o Gemini está entre os primeiros colocados
Outros OCRs usam cobrança por token, então é difícil calcular o custo real
Por exemplo, o Gemini 3.0 flash parece ter preço parecido à primeira vista, mas no custo real por token acaba ficando umas 3 vezes mais caro
Dei acesso root para o Claude instalar por mim, e parece que ele se divertiu bem mais do que eu
Tive uma experiência parecida ao instalar o open web UI, e no fim implementei só o que precisava eu mesmo em 100 linhas de HTML
Seria ótimo se desse para fazer OCR de forma simples assim também
Dizem que o Mistral OCR 3 é adequado para pipelines empresariais em grande escala, mas com 79% de precisão é difícil confiar
Para quem trabalha com periódicos científicos, erros de reconhecimento como 2.9+0.5 virar 29+0.5 são fatais
No fim, validação humana continua sendo necessária em todas as etapas
Estou trabalhando em um projeto para converter um dicionário Shipibo (língua indígena do Peru)-espanhol em um dicionário Shipibo-inglês
A qualidade do scan em PDF não é boa, e o layout em duas colunas com cabeçalhos/rodapés faz o OCR falhar com frequência
Também é complicado porque preciso separar os exemplos em Shipibo das definições em espanhol e traduzir só para o inglês
Toda vez que sai alguma novidade de OCR/LLM eu tento, e toda vez me decepciono
Na cultura Shipibo, não eram pessoas comuns, mas maestras que tomavam Ayahuasca para diagnosticar doenças
Para cada planta havia uma dieta (regime de abstinência), com restrições como uso de sabão, relações sexuais e consumo de sal
Tradicionalmente isso podia durar mais de um ano, embora hoje em dia muitas vezes seja reduzido a algumas semanas
Achei impressionante como eles estudam medicina vegetal com tanta profundidade
Estou tentando converter um livro didático de matemática para markdown com fórmulas em LaTeX, mas ainda não encontrei um modelo OCR satisfatório
Pretendo testar diretamente no OCR playground da Mistral
As fórmulas também foram convertidas perfeitamente para LaTeX
Estou procurando tradução dentro da imagem (in-place translation)
O Mistral OCR3 é mais focado em extração de dados, então não serve para o meu caso
Quero traduzir o texto de artbooks estrangeiros e exibi-lo diretamente sobre a ilustração, mas os serviços pagos existentes falham por causa de layouts de texto não padronizados
No momento estou usando o Google Lens apontando para a tela, mas é inconveniente
O Lens embutido no Chrome também exige seleção manual, então não é totalmente automático
Alguém sabe de alguma novidade sobre o avanço desse tipo de recurso?
A Mistral ultimamente parece estar correndo atrás só da periferia dos recursos de IA
Parece ficar atrás de OAI, Google e Anthropic, e dá a impressão de faltar investimento em nível de UE
Tem muito mais valor do que gerar memes
Como ainda não existe um modelo de receita consolidado, faz sentido a Mistral focar na qualidade do modelo principal
O objetivo realista é manter talentos na UE e construir modelos decentes
Vi avaliações dizendo que a Mistral tem desempenho inferior ao de vários OCRs open source, como Paddle, MinerU e MonkeyOCR
Veja codesota.com/ocr
Estou testando a Mistral como substituta do MathPix
Este script em Python é um protótipo para Windows que captura a imagem da área de transferência, envia para a Mistral e cola automaticamente o resultado em Markdown
O maior problema da Mistral é não responder às consultas de clientes
Ficar se escondendo atrás de “fale com vendas” torna tudo inútil, mesmo que seja melhor que o SoTA
Prefiro escolher um serviço mais caro e pior, desde que não exija passar por esse processo