Lançado o Mistral OCR 3

(mistral.ai)

2 pontos por GN⁺ 2025-12-20 | 1 comentários | Compartilhar no WhatsApp

Modelo de OCR de próxima geração que melhora ao mesmo tempo a precisão e a eficiência no processamento de documentos, oferecendo alto desempenho de reconhecimento em diversos tipos de documentos
Em comparação com a versão anterior, registrou uma melhoria geral de 74% no desempenho, alcançando excelentes resultados em escrita à mão, formulários, tabelas complexas e documentos digitalizados
Com reconstrução de tabelas baseada em HTML e suporte à saída em Markdown, também é possível preservar as informações estruturais do documento
US$ 2 por 1.000 páginas, com 50% de desconto em processamento em lote, garantindo eficiência de custo
Tecnologia de OCR que pode ser amplamente usada desde pipelines corporativos de grande escala até workflows interativos de documentos, emergindo como infraestrutura central para o uso de dados com base em IA generativa

Principais desempenho e características

O Mistral OCR 3 realiza extração de texto e imagens incorporadas com alta precisão em diversos documentos
- Suporta saída em formato Markdown e reconstrução de tabelas em HTML, permitindo reconhecer não apenas o conteúdo, mas também a estrutura do documento
- Como o modelo é pequeno, ele é oferecido com custo menor do que soluções concorrentes, custando US$ 2 por 1.000 páginas e US$ 1 ao usar a Batch API
É possível integrar o modelo mistral-ocr-2512 via API ou converter PDFs e imagens em texto ou JSON estruturado pela interface Document AI Playground

Melhorias de desempenho e benchmark

Em benchmarks internos, registrou uma taxa de vitória de 74% em relação ao Mistral OCR 2
- Os testes foram realizados com base em casos reais de negócios de clientes, e a precisão foi avaliada com a métrica fuzzy-match metric
Alcançou precisão superior tanto a soluções corporativas de processamento de documentos quanto a OCR baseado em IA

Principais áreas de upgrade

Reconhecimento de escrita à mão: interpreta com precisão escrita cursiva, anotações mistas e textos manuscritos sobre formulários impressos
Processamento de formulários: melhora o reconhecimento de caixas, rótulos, entradas manuscritas e layouts complexos
Documentos digitalizados e complexos: garante forte resistência a danos por compressão, distorções, baixa resolução e ruído de fundo
Estruturas complexas de tabelas: reproduz completamente tabelas com cabeçalhos, células mescladas e hierarquias de múltiplas linhas e colunas com tags HTML (colspan/rowspan)
Melhoria geral de desempenho em relação ao Mistral OCR 2 em todos os idiomas e formatos de documento

Casos de uso e áreas de aplicação

Adequado tanto para pipelines corporativos de documentos em grande escala quanto para workflows interativos de documentos
- Oferece suporte a conversão para Markdown após extração de texto e imagem, parsing automático de formulários e faturas, construção de pipelines de compreensão de documentos e digitalização de manuscritos e documentos históricos
Os primeiros clientes já o utilizam para converter faturas em campos estruturados, digitalizar arquivos corporativos, extrair texto de relatórios técnicos e científicos e melhorar a busca corporativa
Tim Law, da IDC, afirmou: “OCR é uma tecnologia fundamental para IA generativa e IA agêntica, e a capacidade de extração de texto com alta precisão e baixo custo determina a competitividade no uso de dados”

Abordagem de acesso e compatibilidade

Disponível para uso imediato por meio da API ou da interface Document AI Playground
Totalmente compatível com o Mistral OCR 2, permitindo upgrade fácil em sistemas existentes
Mais detalhes estão disponíveis em mistral.ai/docs

1 comentários

GN⁺ 2025-12-20

Comentários do Hacker News

Depois de ver este vídeo no Twitter, fiquei me perguntando por que a Mistral não compara com os modelos SoTA mais recentes
Seria bom comparar com modelos como Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR e PaddleOCR
- Como alguém que já trabalhou bastante com extração de documentos, o tom do tweet me incomoda um pouco, mas o conteúdo em si está correto
  A Mistral está comparando com serviços comuns de visão computacional, não com modelos baseados em VLM
  Os primeiros têm melhor compreensão de documentos, enquanto os segundos fornecem bounding boxes precisos
  Os padrões de falha também são diferentes — VLMs podem ler uma frase inteira de forma errada, enquanto modelos de visão erram mais no nível de typos dentro de palavras
- Cliquei no link, e tive a sensação de que o clima do Twitter ficou muito mais estranho do que antes
- Também gostaria de ver uma comparação com o Qwen 3 VL 235B-A22B. Na minha experiência, ele foi muito melhor que o MinerU
Nos últimos 3 meses saíram muitos modelos OCR open source
Especialmente modelos com menos de 1B de parâmetros, que rodam bem até em dispositivos de borda
Gostaria que comparassem com paddleOCR-VL, olmOCR-2, chandra e dots.ocr
É uma pena que quase não existam leaderboards ou arenas para OCR ou CV
- Cerca de um mês atrás apareceu um projeto chamado ocrarena.ai
  Funciona como o llmarena, com confrontos entre modelos, mas a Mistral ainda não foi atualizada lá
  No momento, o Gemini está entre os primeiros colocados
- A vantagem do MistralOCR é a política de preços simples — $1 por 1.000 páginas, com API hospedada no servidor
  Outros OCRs usam cobrança por token, então é difícil calcular o custo real
  Por exemplo, o Gemini 3.0 flash parece ter preço parecido à primeira vista, mas no custo real por token acaba ficando umas 3 vezes mais caro
- Tentei instalar o paddleOCR, mas desisti depois de tentar instalar 12 GB de dependências do PyTorch e bater em conflitos de versão
  Dei acesso root para o Claude instalar por mim, e parece que ele se divertiu bem mais do que eu
  Tive uma experiência parecida ao instalar o open web UI, e no fim implementei só o que precisava eu mesmo em 100 linhas de HTML
  Seria ótimo se desse para fazer OCR de forma simples assim também
- Também vale conferir codesota.com/ocr
Dizem que o Mistral OCR 3 é adequado para pipelines empresariais em grande escala, mas com 79% de precisão é difícil confiar
Para quem trabalha com periódicos científicos, erros de reconhecimento como 2.9+0.5 virar 29+0.5 são fatais
No fim, validação humana continua sendo necessária em todas as etapas
- Nesse caso, datalab.to foi bem razoável
- Esses 79% parecem ser taxa de vitória, não precisão
Estou trabalhando em um projeto para converter um dicionário Shipibo (língua indígena do Peru)-espanhol em um dicionário Shipibo-inglês
A qualidade do scan em PDF não é boa, e o layout em duas colunas com cabeçalhos/rodapés faz o OCR falhar com frequência
Também é complicado porque preciso separar os exemplos em Shipibo das definições em espanhol e traduzir só para o inglês
Toda vez que sai alguma novidade de OCR/LLM eu tento, e toda vez me decepciono
- Fiquei curioso se você tem interesse em pesquisar a tradição da Ayahuasca
  Na cultura Shipibo, não eram pessoas comuns, mas maestras que tomavam Ayahuasca para diagnosticar doenças
  Para cada planta havia uma dieta (regime de abstinência), com restrições como uso de sabão, relações sexuais e consumo de sal
  Tradicionalmente isso podia durar mais de um ano, embora hoje em dia muitas vezes seja reduzido a algumas semanas
  Achei impressionante como eles estudam medicina vegetal com tanta profundidade
Estou tentando converter um livro didático de matemática para markdown com fórmulas em LaTeX, mas ainda não encontrei um modelo OCR satisfatório
Pretendo testar diretamente no OCR playground da Mistral
- Processei milhares de documentos com o modelo Gemini Pro 3 vision, e ele foi disparado o mais preciso entre todos os OCRs que já usei
  As fórmulas também foram convertidas perfeitamente para LaTeX
- Queria muito que você compartilhasse como ficaram os resultados
Estou procurando tradução dentro da imagem (in-place translation)
O Mistral OCR3 é mais focado em extração de dados, então não serve para o meu caso
Quero traduzir o texto de artbooks estrangeiros e exibi-lo diretamente sobre a ilustração, mas os serviços pagos existentes falham por causa de layouts de texto não padronizados
No momento estou usando o Google Lens apontando para a tela, mas é inconveniente
O Lens embutido no Chrome também exige seleção manual, então não é totalmente automático
Alguém sabe de alguma novidade sobre o avanço desse tipo de recurso?
- Se você topar pagar, DEEPL ou a função de tradução de documentos do Word funcionam razoavelmente bem
A Mistral ultimamente parece estar correndo atrás só da periferia dos recursos de IA
Parece ficar atrás de OAI, Google e Anthropic, e dá a impressão de faltar investimento em nível de UE
- Funções práticas como processamento de formulários são justamente o tipo de coisa de que as pessoas realmente precisam
  Tem muito mais valor do que gerar memes
- Seguir exatamente o que as líderes fazem é arriscado
  Como ainda não existe um modelo de receita consolidado, faz sentido a Mistral focar na qualidade do modelo principal
  O objetivo realista é manter talentos na UE e construir modelos decentes
- A UE está realmente ‘investindo’ na Mistral — metade em tributação, a outra metade em discussões regulatórias
- As regulações da UE estão atrapalhando, então no fim há grande chance de ela acabar sendo adquirida por uma empresa americana
- Ainda assim, acho melhor do que simplesmente copiar o que os outros estão fazendo
Vi avaliações dizendo que a Mistral tem desempenho inferior ao de vários OCRs open source, como Paddle, MinerU e MonkeyOCR
Veja codesota.com/ocr
Estou testando a Mistral como substituta do MathPix
Este script em Python é um protótipo para Windows que captura a imagem da área de transferência, envia para a Mistral e cola automaticamente o resultado em Markdown
O maior problema da Mistral é não responder às consultas de clientes
Ficar se escondendo atrás de “fale com vendas” torna tudo inútil, mesmo que seja melhor que o SoTA
- Eu também detesto profundamente ter que falar com vendedores
  Prefiro escolher um serviço mais caro e pior, desde que não exija passar por esse processo

Lançado o Mistral OCR 3

Principais desempenho e características

Melhorias de desempenho e benchmark

Principais áreas de upgrade

Casos de uso e áreas de aplicação

Abordagem de acesso e compatibilidade

Leituras relacionadas

1 comentários

Comentários do Hacker News