2 pontos por GN⁺ 2025-12-20 | 1 comentários | Compartilhar no WhatsApp
  • Modelo de OCR de próxima geração que melhora ao mesmo tempo a precisão e a eficiência no processamento de documentos, oferecendo alto desempenho de reconhecimento em diversos tipos de documentos
  • Em comparação com a versão anterior, registrou uma melhoria geral de 74% no desempenho, alcançando excelentes resultados em escrita à mão, formulários, tabelas complexas e documentos digitalizados
  • Com reconstrução de tabelas baseada em HTML e suporte à saída em Markdown, também é possível preservar as informações estruturais do documento
  • US$ 2 por 1.000 páginas, com 50% de desconto em processamento em lote, garantindo eficiência de custo
  • Tecnologia de OCR que pode ser amplamente usada desde pipelines corporativos de grande escala até workflows interativos de documentos, emergindo como infraestrutura central para o uso de dados com base em IA generativa

Principais desempenho e características

  • O Mistral OCR 3 realiza extração de texto e imagens incorporadas com alta precisão em diversos documentos
    • Suporta saída em formato Markdown e reconstrução de tabelas em HTML, permitindo reconhecer não apenas o conteúdo, mas também a estrutura do documento
    • Como o modelo é pequeno, ele é oferecido com custo menor do que soluções concorrentes, custando US$ 2 por 1.000 páginas e US$ 1 ao usar a Batch API
  • É possível integrar o modelo mistral-ocr-2512 via API ou converter PDFs e imagens em texto ou JSON estruturado pela interface Document AI Playground

Melhorias de desempenho e benchmark

  • Em benchmarks internos, registrou uma taxa de vitória de 74% em relação ao Mistral OCR 2
    • Os testes foram realizados com base em casos reais de negócios de clientes, e a precisão foi avaliada com a métrica fuzzy-match metric
  • Alcançou precisão superior tanto a soluções corporativas de processamento de documentos quanto a OCR baseado em IA

Principais áreas de upgrade

  • Reconhecimento de escrita à mão: interpreta com precisão escrita cursiva, anotações mistas e textos manuscritos sobre formulários impressos
  • Processamento de formulários: melhora o reconhecimento de caixas, rótulos, entradas manuscritas e layouts complexos
  • Documentos digitalizados e complexos: garante forte resistência a danos por compressão, distorções, baixa resolução e ruído de fundo
  • Estruturas complexas de tabelas: reproduz completamente tabelas com cabeçalhos, células mescladas e hierarquias de múltiplas linhas e colunas com tags HTML (colspan/rowspan)
  • Melhoria geral de desempenho em relação ao Mistral OCR 2 em todos os idiomas e formatos de documento

Casos de uso e áreas de aplicação

  • Adequado tanto para pipelines corporativos de documentos em grande escala quanto para workflows interativos de documentos
    • Oferece suporte a conversão para Markdown após extração de texto e imagem, parsing automático de formulários e faturas, construção de pipelines de compreensão de documentos e digitalização de manuscritos e documentos históricos
  • Os primeiros clientes já o utilizam para converter faturas em campos estruturados, digitalizar arquivos corporativos, extrair texto de relatórios técnicos e científicos e melhorar a busca corporativa
  • Tim Law, da IDC, afirmou: “OCR é uma tecnologia fundamental para IA generativa e IA agêntica, e a capacidade de extração de texto com alta precisão e baixo custo determina a competitividade no uso de dados”

Abordagem de acesso e compatibilidade

  • Disponível para uso imediato por meio da API ou da interface Document AI Playground
  • Totalmente compatível com o Mistral OCR 2, permitindo upgrade fácil em sistemas existentes
  • Mais detalhes estão disponíveis em mistral.ai/docs

1 comentários

 
GN⁺ 2025-12-20
Comentários do Hacker News
  • Depois de ver este vídeo no Twitter, fiquei me perguntando por que a Mistral não compara com os modelos SoTA mais recentes
    Seria bom comparar com modelos como Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR e PaddleOCR

    • Como alguém que já trabalhou bastante com extração de documentos, o tom do tweet me incomoda um pouco, mas o conteúdo em si está correto
      A Mistral está comparando com serviços comuns de visão computacional, não com modelos baseados em VLM
      Os primeiros têm melhor compreensão de documentos, enquanto os segundos fornecem bounding boxes precisos
      Os padrões de falha também são diferentes — VLMs podem ler uma frase inteira de forma errada, enquanto modelos de visão erram mais no nível de typos dentro de palavras
    • Cliquei no link, e tive a sensação de que o clima do Twitter ficou muito mais estranho do que antes
    • Também gostaria de ver uma comparação com o Qwen 3 VL 235B-A22B. Na minha experiência, ele foi muito melhor que o MinerU
  • Nos últimos 3 meses saíram muitos modelos OCR open source
    Especialmente modelos com menos de 1B de parâmetros, que rodam bem até em dispositivos de borda
    Gostaria que comparassem com paddleOCR-VL, olmOCR-2, chandra e dots.ocr
    É uma pena que quase não existam leaderboards ou arenas para OCR ou CV

    • Cerca de um mês atrás apareceu um projeto chamado ocrarena.ai
      Funciona como o llmarena, com confrontos entre modelos, mas a Mistral ainda não foi atualizada lá
      No momento, o Gemini está entre os primeiros colocados
    • A vantagem do MistralOCR é a política de preços simples — $1 por 1.000 páginas, com API hospedada no servidor
      Outros OCRs usam cobrança por token, então é difícil calcular o custo real
      Por exemplo, o Gemini 3.0 flash parece ter preço parecido à primeira vista, mas no custo real por token acaba ficando umas 3 vezes mais caro
    • Tentei instalar o paddleOCR, mas desisti depois de tentar instalar 12 GB de dependências do PyTorch e bater em conflitos de versão
      Dei acesso root para o Claude instalar por mim, e parece que ele se divertiu bem mais do que eu
      Tive uma experiência parecida ao instalar o open web UI, e no fim implementei só o que precisava eu mesmo em 100 linhas de HTML
      Seria ótimo se desse para fazer OCR de forma simples assim também
    • Também vale conferir codesota.com/ocr
  • Dizem que o Mistral OCR 3 é adequado para pipelines empresariais em grande escala, mas com 79% de precisão é difícil confiar
    Para quem trabalha com periódicos científicos, erros de reconhecimento como 2.9+0.5 virar 29+0.5 são fatais
    No fim, validação humana continua sendo necessária em todas as etapas

    • Nesse caso, datalab.to foi bem razoável
    • Esses 79% parecem ser taxa de vitória, não precisão
  • Estou trabalhando em um projeto para converter um dicionário Shipibo (língua indígena do Peru)-espanhol em um dicionário Shipibo-inglês
    A qualidade do scan em PDF não é boa, e o layout em duas colunas com cabeçalhos/rodapés faz o OCR falhar com frequência
    Também é complicado porque preciso separar os exemplos em Shipibo das definições em espanhol e traduzir só para o inglês
    Toda vez que sai alguma novidade de OCR/LLM eu tento, e toda vez me decepciono

    • Fiquei curioso se você tem interesse em pesquisar a tradição da Ayahuasca
      Na cultura Shipibo, não eram pessoas comuns, mas maestras que tomavam Ayahuasca para diagnosticar doenças
      Para cada planta havia uma dieta (regime de abstinência), com restrições como uso de sabão, relações sexuais e consumo de sal
      Tradicionalmente isso podia durar mais de um ano, embora hoje em dia muitas vezes seja reduzido a algumas semanas
      Achei impressionante como eles estudam medicina vegetal com tanta profundidade
  • Estou tentando converter um livro didático de matemática para markdown com fórmulas em LaTeX, mas ainda não encontrei um modelo OCR satisfatório
    Pretendo testar diretamente no OCR playground da Mistral

    • Processei milhares de documentos com o modelo Gemini Pro 3 vision, e ele foi disparado o mais preciso entre todos os OCRs que já usei
      As fórmulas também foram convertidas perfeitamente para LaTeX
    • Queria muito que você compartilhasse como ficaram os resultados
  • Estou procurando tradução dentro da imagem (in-place translation)
    O Mistral OCR3 é mais focado em extração de dados, então não serve para o meu caso
    Quero traduzir o texto de artbooks estrangeiros e exibi-lo diretamente sobre a ilustração, mas os serviços pagos existentes falham por causa de layouts de texto não padronizados
    No momento estou usando o Google Lens apontando para a tela, mas é inconveniente
    O Lens embutido no Chrome também exige seleção manual, então não é totalmente automático
    Alguém sabe de alguma novidade sobre o avanço desse tipo de recurso?

    • Se você topar pagar, DEEPL ou a função de tradução de documentos do Word funcionam razoavelmente bem
  • A Mistral ultimamente parece estar correndo atrás só da periferia dos recursos de IA
    Parece ficar atrás de OAI, Google e Anthropic, e dá a impressão de faltar investimento em nível de UE

    • Funções práticas como processamento de formulários são justamente o tipo de coisa de que as pessoas realmente precisam
      Tem muito mais valor do que gerar memes
    • Seguir exatamente o que as líderes fazem é arriscado
      Como ainda não existe um modelo de receita consolidado, faz sentido a Mistral focar na qualidade do modelo principal
      O objetivo realista é manter talentos na UE e construir modelos decentes
    • A UE está realmente ‘investindo’ na Mistral — metade em tributação, a outra metade em discussões regulatórias
    • As regulações da UE estão atrapalhando, então no fim há grande chance de ela acabar sendo adquirida por uma empresa americana
    • Ainda assim, acho melhor do que simplesmente copiar o que os outros estão fazendo
  • Vi avaliações dizendo que a Mistral tem desempenho inferior ao de vários OCRs open source, como Paddle, MinerU e MonkeyOCR
    Veja codesota.com/ocr

  • Estou testando a Mistral como substituta do MathPix
    Este script em Python é um protótipo para Windows que captura a imagem da área de transferência, envia para a Mistral e cola automaticamente o resultado em Markdown

  • O maior problema da Mistral é não responder às consultas de clientes
    Ficar se escondendo atrás de “fale com vendas” torna tudo inútil, mesmo que seja melhor que o SoTA

    • Eu também detesto profundamente ter que falar com vendedores
      Prefiro escolher um serviço mais caro e pior, desde que não exija passar por esse processo