Mistral OCR 4 é lançado
(mistral.ai)- O Mistral OCR 4, lançado pela Mistral AI, é um modelo de compreensão de documentos que vai além do OCR que apenas extrai texto, retornando também caixas delimitadoras, classificação de blocos e pontuações de confiança inline
- Compatível com 170 idiomas em 10 grupos linguísticos e com auto-hospedagem em contêiner único, ele se encaixa em pipelines de ingestão de documentos de organizações em que soberania de dados e compliance são importantes
- Em avaliação de preferência humana, registrou 72% de taxa média de vitória e também obteve pontuações altas em avaliações públicas e internas, como OlmOCRBench 85.20 e OmniDocBench 93.07
- No entanto, por causa de limitações de avaliação como erros no gabarito, notações matemáticas equivalentes, ordem de leitura em múltiplas colunas e tratamento de cabeçalhos e rodapés, as pontuações de benchmark devem ser vistas junto com avaliações em documentos reais
- A API custa US$ 4 por 1.000 páginas, a Batch API US$ 2 e o Document AI US$ 5; para extração bruta, o OCR 4 basta, mas se você precisar de JSON estruturado, anotações de imagem e prompts personalizados, o caminho certo é o Document AI
Representação estruturada de documentos retornada pelo OCR 4
- O OCR 4 extrai e estrutura o conteúdo de vários tipos de documento e, em vez de ficar apenas em texto limpo e conversão de tabelas como a geração anterior, também fornece uma representação estruturada
- Cada bloco inclui caixa delimitadora, tipo de bloco e pontuações de confiança inline em nível de página e de palavra
- Sistemas downstream podem aproveitar não só o conteúdo do documento, mas também a posição, o papel e o nível de confiança de cada elemento
- Os principais fluxos de uso são os seguintes
- Chunking por unidade semântica para RAG: uso de blocos organizados e classificados como unidades de busca
- Primitivos de estrutura para agentes: suporte a preenchimento de formulários, processamento de faturas e verificação de compliance
- Conteúdo estruturado para conectores: fornecimento de saída tipada consistente para pipelines de ingestão e indexação
Formatos, idiomas e forma de implantação
- Os formatos de entrada incluem formatos de documentos corporativos comuns, como PDF, DOC, PPT e OpenDocument
- Suporta 170 idiomas em 10 grupos linguísticos, incluindo idiomas especializados e de poucos recursos nos quais muitos sistemas tendem a ser fracos
- O modelo é pequeno o suficiente para ser implantado em um único contêiner, o que o torna adequado para ambientes sensíveis a custo e de alto throughput
- Compatível com execução totalmente auto-hospedada, permitindo que organizações com exigências de soberania de dados mantenham os documentos dentro de sua própria infraestrutura
- A implantação autogerenciada é oferecida a clientes corporativos
Preços e caminhos de uso
- Desenvolvedores podem integrar o modelo via API, e equipes podem usar o mesmo mecanismo como uma aplicação no-code pelo Document AI no Mistral Studio
- Os preços são os seguintes
- API do OCR 4: US$ 4 por 1.000 páginas
- Com desconto de 50% na Batch API: US$ 2 por 1.000 páginas
- Document AI: US$ 5 por 1.000 páginas
- O OCR 4 foi integrado como componente de ingestão do Mistral Search Toolkit, fornecendo entradas citáveis para fluxos de ingestão, busca e avaliação voltados a RAG e busca corporativa
Resultados de avaliação e limites dos benchmarks
- A avaliação do OCR 4 foi conduzida comparando-o com modelos de OCR nativos de IA, modelos frontier de uso geral, serviços corporativos de documentos e o Mistral OCR 3
- A avaliação de preferência humana foi montada para refletir o uso real, com mais de 600 documentos em mais de 12 idiomas, e anotadores independentes compararam às cegas, documento por documento, a saída de cada sistema concorrente com a do OCR 4
- Os anotadores preferiram o OCR 4 na maioria dos documentos em relação a todos os sistemas testados
- A taxa média de vitória foi de 72%
- No benchmark público OlmOCRBench, registrou a maior pontuação geral entre os modelos testados: 85.20
- Na avaliação interna Crawl Multilingual evaluation, alcançou .98, superando soluções nativas de IA e corporativas
- A pontuação no OmniDocBench foi 93.07, mas tanto o OlmOCRBench quanto o OmniDocBench têm limitações conhecidas em alguns métodos de correção de saída
- Grande parte das divergências auditadas surge mais do método de comparação do benchmark do que de erros do modelo
- Erros no gabarito: as anotações de referência podem incluir texto ausente ou extra, transcrições de áreas ocultas e erros de digitação
- Notação matemática equivalente: mesmo quando o resultado renderizado em LaTeX é o mesmo, se a string for diferente isso é contado como divergência
- Divisão de fórmulas: a correspondência com a resposta pode oscilar dependendo de a fórmula ser exportada como uma única expressão ou como vários fragmentos inline
- Ordem de leitura em múltiplas colunas: por causa de palavras separadas nas fronteiras entre colunas e de suposições sobre a ordem das colunas, extrações corretas podem ser marcadas como falhas
- Atribuição de tipo de bloco: mesmo após remover cabeçalhos e rodapés da saída, testes podem sinalizar incorretamente strings como títulos de página
- Esses artefatos se concentram em matemática, ciência e documentos com múltiplas colunas e, em vez de recompensar saídas erradas, tendem a penalizar com mais frequência saídas corretas
- Como todas as pontuações dos concorrentes são resultados reproduzidos internamente, é mais seguro avaliar diretamente com seus próprios documentos antes da adoção real
Desempenho multilíngue
- Na avaliação multilíngue interna, o OCR 4 ficou à frente em todos os 8 grupos linguísticos
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Idiomas especializados, como Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada e Telugu
- A diferença foi maior em idiomas especializados e de poucos recursos, e mesmo em áreas onde vários sistemas concorrentes perdem desempenho de forma acentuada, o OCR 4 manteve alta precisão
Casos de uso recomendados e escopo excluído
- O OCR 4 oferece suporte tanto a pipelines de alto throughput quanto a fluxos interativos de documentos
- Os casos de uso recomendados são os seguintes
- Parsing e extração de documentos complexos e multilíngues
- Geração de conteúdo estruturado, classificado e citável para RAG
- Entrada para pipelines de busca em conjunto com o Search Toolkit
- Fluxos de trabalho de agentes como preenchimento de formulários, processamento de faturas e verificação de compliance
- Pipelines de dados estruturados com validação humana usando pontuações de confiança
- Componentes de fonte de dados para busca corporativa e bases de conhecimento
- Usuários iniciais já estão aplicando o OCR 4 à conversão de campos estruturados de faturas, digitalização de arquivos corporativos, extração de texto limpo de relatórios técnicos e científicos e busca corporativa
- O OCR 4 é um modelo de compreensão de documentos e não um tomador de decisões
- Ele não foi concebido para diagnóstico médico, aconselhamento ou julgamento jurídico, decisões financeiras de alto risco, sistemas críticos de segurança, processamento em tempo real ou sensível à latência, nem entradas não documentais como áudio e vídeo brutos
Como escolher entre a API do OCR 4 e o Document AI
- O OCR 4 é oferecido por um único endpoint de API, e todas as requisições executam o mesmo modelo base de OCR
- A resposta padrão sempre inclui conteúdo extraído, caixas delimitadoras, tipos de bloco, pontuações de confiança e texto estruturado em Markdown
- O modo de extração pura é indicado nas seguintes situações
- Incorporar extração de documentos rápida e precisa diretamente em aplicações, agentes e pipelines de dados
- Usar diretamente a resposta bruta, caixas delimitadoras, tipos de bloco e pontuações de confiança para compor lógica personalizada de pós-processamento
- Ingestão em lote e de alto throughput com a Batch API para controlar vazão e custo
- Auto-hospedagem ajustada a exigências rígidas de privacidade, soberania e compliance de dados
- Os recursos do Document AI são ativados adicionando parâmetros extras ao mesmo endpoint
- Se um esquema JSON for enviado junto com o documento, a saída do OCR será passada para o
mistral-small-2603para gerar JSON estruturado conforme a especificação definida - Se um esquema de anotação de imagem for enviado, chamadas adicionais a um modelo de visão-linguagem gerarão JSON estruturado para cada imagem detectada
- Também é possível usar prompts personalizados com o esquema JSON para orientar a interpretação ou o resumo do conteúdo extraído do documento inteiro
- Usuários de negócio, equipes de solução e projetos-piloto podem produzir resultados estruturados sem lógica separada de parsing pós-processamento
- Se um esquema JSON for enviado junto com o documento, a saída do OCR será passada para o
- Se você precisa de conteúdo bruto extraído, use o OCR 4 como está; se precisa de reformatação estruturada, anotação de campos de domínio ou tratamento de instruções personalizadas, adicione os parâmetros do Document AI
Canais de disponibilidade e como começar
- O Mistral OCRv4 e o Document AI baseado no OCRv4 podem ser usados via API, Mistral Studio, Amazon SageMaker e Microsoft Foundry
- O suporte ao Snowflake Parse Document será disponibilizado em breve
- Para organizações que precisam manter informações sensíveis dentro da própria infraestrutura, o OCR 4 também oferece opção de auto-hospedagem
- Os recursos para começar são os seguintes
- Getting Started with OCR 4 Cookbook: aborda a primeira extração, trabalho com caixas delimitadoras e classificação de blocos
- OCR4 in Production webinar: demo e sessão de perguntas e respostas em 7 de julho às 18h CET
- Contact Sales: para solicitar mais informações
1 comentários
Comentários do Hacker News
O US Postal Service sempre parece uma maravilha tecnológica
Mesmo com tecnologia muito mais primitiva, ele identifica e roteia bilhões de correspondências, e os endereços nos EUA são absurdamente pouco padronizados, a ponto de o mesmo endereço poder ser escrito de várias formas diferentes e ainda assim chegar ao mesmo lugar
Deve haver muito conhecimento público nessa área, mas quando algo é feito por anos na escala do USPS, toda vez que vejo um anúncio de OCR parece um problema já resolvido
Era nos anos 1970, então não havia internet nem banco de dados centralizado, mas o serviço postal conseguiu entregar
Isso foi possível porque meu pai era bastante ativo em trabalho social e também comandava um time juvenil de futebol, então era relativamente conhecido no bairro só pelo nome
Hoje em dia muitas vezes as pessoas não conseguem encontrar alguém ou algum lugar sem a ajuda do celular, e os carteiros também já não ficam conversando tanto
Uma carta dessas provavelmente não passaria nem pelo processo técnico, nem pela rede humana
Quando a carta chegava à agência correta, o resto era resolvido pelos carteiros bem cedo de manhã
Era bem divertido tentar adivinhar o que certos endereços queriam dizer, e especialmente os funcionários mais velhos às vezes sabiam a história de por que um lugar era endereçado daquele jeito, ou inferiam o endereço só pelo nome do morador
Em Carmel-by-the-Sea não há números de rua, e nos endereços de Florida Keys muitas vezes há apenas o número do marco de milha
Isso funciona porque quem faz a entrega naquela rota já está acostumado
Fico curioso se existe algum modelo aberto focado em reconhecimento de placas
Encontrei alguns modelos antigos, mas queria saber se há algo novo em desenvolvimento, como esses modelos de OCR
Talvez eu mesmo possa testar para esse uso e ver o desempenho
O vídeo na página vinculada foi diferente do que eu esperava
Eu pensava na Mistral como uma empresa europeia de IA, então foi surpreendente ver que o vídeo foi gravado em San Francisco e que as três pessoas que aparecem não parecem europeias
É bom que seja uma organização global, mas eu esperava um escritório em Paris e sotaques europeus
Fazem muitas perguntas e abrem muito pouco a carteira, enquanto os americanos são diferentes
Provavelmente também há engenharia de vendas
Com um fuso de 8 a 10 horas de diferença, na prática não há como evitar isso
A empresa em que trabalhei antes tinha um escritório em Vancouver, e era no mesmo fuso
Embora seja majoritariamente baseada na Austrália, pela ordem da lista de escritórios em https://www.blackmagicdesign.com/company/offices e pela página da empresa, parece uma empresa americana
Nesse sentido, eles estão aproveitando com inteligência os dois lados: capital americano e talento europeu
Seria interessante ver onde esse modelo ficaria em comparação com https://github.com/baidu/Unlimited-OCR
US$ 4 por mil páginas é barato, mas as versões anteriores todas vinham com algo do tipo “98% de precisão com base em 4 PDFs de benchmark interno” e, na prática, ficavam abaixo de quase todas as alternativas do mercado, então dá até preguiça de benchmarkear de novo
Desta vez também estão destacando números representativos de benchmark interno, dizendo que o OlmOCRBench e o OmniDocBench têm “limitações conhecidas”
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
Todos os laboratórios de IA realmente precisam parar de usar eixo y cortado em gráficos de benchmark em barras
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Testei com Malayalam, e uma caligrafia comum foi reconhecida corretamente, mas um estilo um pouco diferente foi detectado como Kannada
Posso fornecer uma amostra se necessário, e o Sarvam processou a mesma amostra com 99% de precisão, deixando apenas um erro de texto
Por exemplo, como ele se sai com Indian English, documentos com expressões indianas escritas em alfabeto romano e documentos com layouts complexos, como figuras e tabelas
Eu me interessava por esses serviços indianos, mas hesito porque os preços parecem um pouco altos para o que eu esperava
Claro, também posso estar me lembrando errado
Em comparação com o modelo OCR v3 anterior, de dezembro, quase nenhuma diferença foi explicada além das bounding boxes, e o preço é o dobro: https://mistral.ai/news/mistral-ocr-3/
Na época eles usavam benchmarks diferentes
“Observação sobre uso fora do escopo. O OCR 4 é um modelo de compreensão de documentos, não um tomador de decisões. Não se destina a diagnóstico médico, aconselhamento ou julgamento jurídico, decisões financeiras de alto risco, sistemas críticos de segurança, processamento em tempo real/sensível à latência, nem entradas que não sejam documentos (áudio bruto, vídeo etc.).”
Já estou até esperando aquele gestor “inovador” sugerir na próxima reunião: “Legal, mas e se usarmos isso para decisões financeiras de alto risco com entradas não documentais, tipo fotos de celular?”
Aposto que até semana que vem alguém no HN vai postar essa “ideia” nos comentários
Existem dezenas de modelos melhores para isso, e comparado a eles o resultado só vai ser péssimo
Isso não é um modelo para responder perguntas, é para transcrição de texto
Parece só uma tentativa forçada de criar um ângulo anti-IA
A Mistral só está sendo mais honesta sobre isso, provavelmente porque não precisa ou não quer impressionar a plateia com uma ferramenta de uso geral voltada ao usuário (chat) que pareça especialista em tudo
Na prática, esse tipo de ferramenta também costuma ser uma ligação de vários modelos especializados
O que se quer aqui dá para fazer com alguns scripts em Python
Converta o prompt de voz em texto com o Voxtral, passe isso ao Mistral Large 3 junto com um prompt de sistema adicional para ele gerar um prompt de OCR e caminhos de arquivo, depois faça um loop para localizar os arquivos e enviá-los ao OCR 3, e então interprete o resultado de novo com o Mistral Large 3 para transformá-lo em uma decisão
Esse tipo de composição é comum; mais raro é tentar fazer tudo com um único modelo
Recentemente tentei usar o Opus 4.8 para OCR
Tecnicamente não era a ferramenta certa, mas tudo o que eu precisava era extrair a data de recibos
Ele errou cerca de 20% das datas e ainda avaliou todas com “alta confiança”
Provavelmente eu deveria ter usado um modelo especializado em OCR
Acho que até aquelas ferramentas shareware de OCR que vinham com scanners preto e branco antigamente teriam ido melhor que 20% de erro
Parece usar uma ferramenta de OCR separada e antiquada, e os resultados nos testes foram ruins
Já na API do Gemini, o modelo faz OCR diretamente e a precisão foi bem melhor
É muito melhor do que pequenos modelos visão-linguagem de 1~4B
Se o Opus falhou, há grande chance de que a maioria desses modelos pequenos também falhe
Recentemente escaneei centenas de PDFs com a pior caligrafia possível usando o Opus 4.8 e, tirando um único registro que nem eu conseguia ler, tive 100% de sucesso