1 pontos por GN⁺ 3 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • O Mistral OCR 4, lançado pela Mistral AI, é um modelo de compreensão de documentos que vai além do OCR que apenas extrai texto, retornando também caixas delimitadoras, classificação de blocos e pontuações de confiança inline
  • Compatível com 170 idiomas em 10 grupos linguísticos e com auto-hospedagem em contêiner único, ele se encaixa em pipelines de ingestão de documentos de organizações em que soberania de dados e compliance são importantes
  • Em avaliação de preferência humana, registrou 72% de taxa média de vitória e também obteve pontuações altas em avaliações públicas e internas, como OlmOCRBench 85.20 e OmniDocBench 93.07
  • No entanto, por causa de limitações de avaliação como erros no gabarito, notações matemáticas equivalentes, ordem de leitura em múltiplas colunas e tratamento de cabeçalhos e rodapés, as pontuações de benchmark devem ser vistas junto com avaliações em documentos reais
  • A API custa US$ 4 por 1.000 páginas, a Batch API US$ 2 e o Document AI US$ 5; para extração bruta, o OCR 4 basta, mas se você precisar de JSON estruturado, anotações de imagem e prompts personalizados, o caminho certo é o Document AI

Representação estruturada de documentos retornada pelo OCR 4

  • O OCR 4 extrai e estrutura o conteúdo de vários tipos de documento e, em vez de ficar apenas em texto limpo e conversão de tabelas como a geração anterior, também fornece uma representação estruturada
  • Cada bloco inclui caixa delimitadora, tipo de bloco e pontuações de confiança inline em nível de página e de palavra
    • Sistemas downstream podem aproveitar não só o conteúdo do documento, mas também a posição, o papel e o nível de confiança de cada elemento
  • Os principais fluxos de uso são os seguintes
    • Chunking por unidade semântica para RAG: uso de blocos organizados e classificados como unidades de busca
    • Primitivos de estrutura para agentes: suporte a preenchimento de formulários, processamento de faturas e verificação de compliance
    • Conteúdo estruturado para conectores: fornecimento de saída tipada consistente para pipelines de ingestão e indexação

Formatos, idiomas e forma de implantação

  • Os formatos de entrada incluem formatos de documentos corporativos comuns, como PDF, DOC, PPT e OpenDocument
  • Suporta 170 idiomas em 10 grupos linguísticos, incluindo idiomas especializados e de poucos recursos nos quais muitos sistemas tendem a ser fracos
  • O modelo é pequeno o suficiente para ser implantado em um único contêiner, o que o torna adequado para ambientes sensíveis a custo e de alto throughput
  • Compatível com execução totalmente auto-hospedada, permitindo que organizações com exigências de soberania de dados mantenham os documentos dentro de sua própria infraestrutura
  • A implantação autogerenciada é oferecida a clientes corporativos

Preços e caminhos de uso

  • Desenvolvedores podem integrar o modelo via API, e equipes podem usar o mesmo mecanismo como uma aplicação no-code pelo Document AI no Mistral Studio
  • Os preços são os seguintes
    • API do OCR 4: US$ 4 por 1.000 páginas
    • Com desconto de 50% na Batch API: US$ 2 por 1.000 páginas
    • Document AI: US$ 5 por 1.000 páginas
  • O OCR 4 foi integrado como componente de ingestão do Mistral Search Toolkit, fornecendo entradas citáveis para fluxos de ingestão, busca e avaliação voltados a RAG e busca corporativa

Resultados de avaliação e limites dos benchmarks

  • A avaliação do OCR 4 foi conduzida comparando-o com modelos de OCR nativos de IA, modelos frontier de uso geral, serviços corporativos de documentos e o Mistral OCR 3
  • A avaliação de preferência humana foi montada para refletir o uso real, com mais de 600 documentos em mais de 12 idiomas, e anotadores independentes compararam às cegas, documento por documento, a saída de cada sistema concorrente com a do OCR 4
    • Os anotadores preferiram o OCR 4 na maioria dos documentos em relação a todos os sistemas testados
    • A taxa média de vitória foi de 72%
  • No benchmark público OlmOCRBench, registrou a maior pontuação geral entre os modelos testados: 85.20
  • Na avaliação interna Crawl Multilingual evaluation, alcançou .98, superando soluções nativas de IA e corporativas
  • A pontuação no OmniDocBench foi 93.07, mas tanto o OlmOCRBench quanto o OmniDocBench têm limitações conhecidas em alguns métodos de correção de saída
  • Grande parte das divergências auditadas surge mais do método de comparação do benchmark do que de erros do modelo
    • Erros no gabarito: as anotações de referência podem incluir texto ausente ou extra, transcrições de áreas ocultas e erros de digitação
    • Notação matemática equivalente: mesmo quando o resultado renderizado em LaTeX é o mesmo, se a string for diferente isso é contado como divergência
    • Divisão de fórmulas: a correspondência com a resposta pode oscilar dependendo de a fórmula ser exportada como uma única expressão ou como vários fragmentos inline
    • Ordem de leitura em múltiplas colunas: por causa de palavras separadas nas fronteiras entre colunas e de suposições sobre a ordem das colunas, extrações corretas podem ser marcadas como falhas
    • Atribuição de tipo de bloco: mesmo após remover cabeçalhos e rodapés da saída, testes podem sinalizar incorretamente strings como títulos de página
  • Esses artefatos se concentram em matemática, ciência e documentos com múltiplas colunas e, em vez de recompensar saídas erradas, tendem a penalizar com mais frequência saídas corretas
  • Como todas as pontuações dos concorrentes são resultados reproduzidos internamente, é mais seguro avaliar diretamente com seus próprios documentos antes da adoção real

Desempenho multilíngue

  • Na avaliação multilíngue interna, o OCR 4 ficou à frente em todos os 8 grupos linguísticos
    • English
    • Western Europe
    • Eastern Europe
    • Middle Eastern
    • Chinese
    • East Asian
    • Southeast Asian
    • Idiomas especializados, como Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada e Telugu
  • A diferença foi maior em idiomas especializados e de poucos recursos, e mesmo em áreas onde vários sistemas concorrentes perdem desempenho de forma acentuada, o OCR 4 manteve alta precisão

Casos de uso recomendados e escopo excluído

  • O OCR 4 oferece suporte tanto a pipelines de alto throughput quanto a fluxos interativos de documentos
  • Os casos de uso recomendados são os seguintes
    • Parsing e extração de documentos complexos e multilíngues
    • Geração de conteúdo estruturado, classificado e citável para RAG
    • Entrada para pipelines de busca em conjunto com o Search Toolkit
    • Fluxos de trabalho de agentes como preenchimento de formulários, processamento de faturas e verificação de compliance
    • Pipelines de dados estruturados com validação humana usando pontuações de confiança
    • Componentes de fonte de dados para busca corporativa e bases de conhecimento
  • Usuários iniciais já estão aplicando o OCR 4 à conversão de campos estruturados de faturas, digitalização de arquivos corporativos, extração de texto limpo de relatórios técnicos e científicos e busca corporativa
  • O OCR 4 é um modelo de compreensão de documentos e não um tomador de decisões
    • Ele não foi concebido para diagnóstico médico, aconselhamento ou julgamento jurídico, decisões financeiras de alto risco, sistemas críticos de segurança, processamento em tempo real ou sensível à latência, nem entradas não documentais como áudio e vídeo brutos

Como escolher entre a API do OCR 4 e o Document AI

  • O OCR 4 é oferecido por um único endpoint de API, e todas as requisições executam o mesmo modelo base de OCR
  • A resposta padrão sempre inclui conteúdo extraído, caixas delimitadoras, tipos de bloco, pontuações de confiança e texto estruturado em Markdown
  • O modo de extração pura é indicado nas seguintes situações
    • Incorporar extração de documentos rápida e precisa diretamente em aplicações, agentes e pipelines de dados
    • Usar diretamente a resposta bruta, caixas delimitadoras, tipos de bloco e pontuações de confiança para compor lógica personalizada de pós-processamento
    • Ingestão em lote e de alto throughput com a Batch API para controlar vazão e custo
    • Auto-hospedagem ajustada a exigências rígidas de privacidade, soberania e compliance de dados
  • Os recursos do Document AI são ativados adicionando parâmetros extras ao mesmo endpoint
    • Se um esquema JSON for enviado junto com o documento, a saída do OCR será passada para o mistral-small-2603 para gerar JSON estruturado conforme a especificação definida
    • Se um esquema de anotação de imagem for enviado, chamadas adicionais a um modelo de visão-linguagem gerarão JSON estruturado para cada imagem detectada
    • Também é possível usar prompts personalizados com o esquema JSON para orientar a interpretação ou o resumo do conteúdo extraído do documento inteiro
    • Usuários de negócio, equipes de solução e projetos-piloto podem produzir resultados estruturados sem lógica separada de parsing pós-processamento
  • Se você precisa de conteúdo bruto extraído, use o OCR 4 como está; se precisa de reformatação estruturada, anotação de campos de domínio ou tratamento de instruções personalizadas, adicione os parâmetros do Document AI

Canais de disponibilidade e como começar

  • O Mistral OCRv4 e o Document AI baseado no OCRv4 podem ser usados via API, Mistral Studio, Amazon SageMaker e Microsoft Foundry
  • O suporte ao Snowflake Parse Document será disponibilizado em breve
  • Para organizações que precisam manter informações sensíveis dentro da própria infraestrutura, o OCR 4 também oferece opção de auto-hospedagem
  • Os recursos para começar são os seguintes

1 comentários

 
GN⁺ 3 시간 전
Comentários do Hacker News
  • O US Postal Service sempre parece uma maravilha tecnológica
    Mesmo com tecnologia muito mais primitiva, ele identifica e roteia bilhões de correspondências, e os endereços nos EUA são absurdamente pouco padronizados, a ponto de o mesmo endereço poder ser escrito de várias formas diferentes e ainda assim chegar ao mesmo lugar
    Deve haver muito conhecimento público nessa área, mas quando algo é feito por anos na escala do USPS, toda vez que vejo um anúncio de OCR parece um problema já resolvido

    • Meu pai certa vez recebeu uma carta da Argélia em que no envelope havia só três palavras: o nome dele, “Créteil” (uma cidade de cerca de 100 mil habitantes onde ele morava na época) e “France”
      Era nos anos 1970, então não havia internet nem banco de dados centralizado, mas o serviço postal conseguiu entregar
      Isso foi possível porque meu pai era bastante ativo em trabalho social e também comandava um time juvenil de futebol, então era relativamente conhecido no bairro só pelo nome
      Hoje em dia muitas vezes as pessoas não conseguem encontrar alguém ou algum lugar sem a ajuda do celular, e os carteiros também já não ficam conversando tanto
      Uma carta dessas provavelmente não passaria nem pelo processo técnico, nem pela rede humana
    • Já trabalhei meio período no serviço postal dinamarquês, e a triagem automática ia só até o CEP
      Quando a carta chegava à agência correta, o resto era resolvido pelos carteiros bem cedo de manhã
      Era bem divertido tentar adivinhar o que certos endereços queriam dizer, e especialmente os funcionários mais velhos às vezes sabiam a história de por que um lugar era endereçado daquele jeito, ou inferiam o endereço só pelo nome do morador
    • O Tom Scott tem um bom vídeo sobre esse tema: https://www.youtube.com/watch?v=XxCha4Kez9c
    • Há muitas exceções estranhas nos endereços dos EUA
      Em Carmel-by-the-Sea não há números de rua, e nos endereços de Florida Keys muitas vezes há apenas o número do marco de milha
      Isso funciona porque quem faz a entrega naquela rota já está acostumado
    • Comparado ao padrão de endereços da Índia, a falta de padronização dos endereços dos EUA chega a ser engraçada
  • Fico curioso se existe algum modelo aberto focado em reconhecimento de placas
    Encontrei alguns modelos antigos, mas queria saber se há algo novo em desenvolvimento, como esses modelos de OCR
    Talvez eu mesmo possa testar para esse uso e ver o desempenho

  • O vídeo na página vinculada foi diferente do que eu esperava
    Eu pensava na Mistral como uma empresa europeia de IA, então foi surpreendente ver que o vídeo foi gravado em San Francisco e que as três pessoas que aparecem não parecem europeias
    É bom que seja uma organização global, mas eu esperava um escritório em Paris e sotaques europeus

    • Infelizmente, clientes europeus são clientes com os quais é difícil ganhar dinheiro
      Fazem muitas perguntas e abrem muito pouco a carteira, enquanto os americanos são diferentes
    • Se uma empresa de tecnologia europeia tem algum porte, ela vai ter pelo menos um escritório na costa oeste dos EUA, nem que seja só por vendas
      Provavelmente também há engenharia de vendas
      Com um fuso de 8 a 10 horas de diferença, na prática não há como evitar isso
      A empresa em que trabalhei antes tinha um escritório em Vancouver, e era no mesmo fuso
    • A Blackmagic Design também é assim
      Embora seja majoritariamente baseada na Austrália, pela ordem da lista de escritórios em https://www.blackmagicdesign.com/company/offices e pela página da empresa, parece uma empresa americana
    • Pelo que sei, a maior parte da equipe fundadora começou a carreira em empresas americanas como a Meta, e os principais investidores também são VCs dos EUA
      Nesse sentido, eles estão aproveitando com inteligência os dois lados: capital americano e talento europeu
    • Até a bandeira dos EUA aparece bem destacada ao fundo
  • Seria interessante ver onde esse modelo ficaria em comparação com https://github.com/baidu/Unlimited-OCR

  • US$ 4 por mil páginas é barato, mas as versões anteriores todas vinham com algo do tipo “98% de precisão com base em 4 PDFs de benchmark interno” e, na prática, ficavam abaixo de quase todas as alternativas do mercado, então dá até preguiça de benchmarkear de novo
    Desta vez também estão destacando números representativos de benchmark interno, dizendo que o OlmOCRBench e o OmniDocBench têm “limitações conhecidas”
    https://getomni.ai/blog/benchmarking-open-source-models-for-ocr

    • Cheguei à mesma conclusão, mas rodei alguns exemplos por conta própria e houve melhora real desde a versão de dezembro de 2025
  • Todos os laboratórios de IA realmente precisam parar de usar eixo y cortado em gráficos de benchmark em barras
    https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539

  • Testei com Malayalam, e uma caligrafia comum foi reconhecida corretamente, mas um estilo um pouco diferente foi detectado como Kannada
    Posso fornecer uma amostra se necessário, e o Sarvam processou a mesma amostra com 99% de precisão, deixando apenas um erro de texto

    • Tenho curiosidade sobre a experiência de usar o Sarvam fora das línguas indianas
      Por exemplo, como ele se sai com Indian English, documentos com expressões indianas escritas em alfabeto romano e documentos com layouts complexos, como figuras e tabelas
      Eu me interessava por esses serviços indianos, mas hesito porque os preços parecem um pouco altos para o que eu esperava
      Claro, também posso estar me lembrando errado
  • Em comparação com o modelo OCR v3 anterior, de dezembro, quase nenhuma diferença foi explicada além das bounding boxes, e o preço é o dobro: https://mistral.ai/news/mistral-ocr-3/
    Na época eles usavam benchmarks diferentes

  • “Observação sobre uso fora do escopo. O OCR 4 é um modelo de compreensão de documentos, não um tomador de decisões. Não se destina a diagnóstico médico, aconselhamento ou julgamento jurídico, decisões financeiras de alto risco, sistemas críticos de segurança, processamento em tempo real/sensível à latência, nem entradas que não sejam documentos (áudio bruto, vídeo etc.).”
    Já estou até esperando aquele gestor “inovador” sugerir na próxima reunião: “Legal, mas e se usarmos isso para decisões financeiras de alto risco com entradas não documentais, tipo fotos de celular?”
    Aposto que até semana que vem alguém no HN vai postar essa “ideia” nos comentários

    • Não entendo por que fariam isso
      Existem dezenas de modelos melhores para isso, e comparado a eles o resultado só vai ser péssimo
      Isso não é um modelo para responder perguntas, é para transcrição de texto
      Parece só uma tentativa forçada de criar um ângulo anti-IA
    • Todas as empresas de IA estão criando modelos especializados muito fortes em uma tarefa específica
      A Mistral só está sendo mais honesta sobre isso, provavelmente porque não precisa ou não quer impressionar a plateia com uma ferramenta de uso geral voltada ao usuário (chat) que pareça especialista em tudo
      Na prática, esse tipo de ferramenta também costuma ser uma ligação de vários modelos especializados
      O que se quer aqui dá para fazer com alguns scripts em Python
      Converta o prompt de voz em texto com o Voxtral, passe isso ao Mistral Large 3 junto com um prompt de sistema adicional para ele gerar um prompt de OCR e caminhos de arquivo, depois faça um loop para localizar os arquivos e enviá-los ao OCR 3, e então interprete o resultado de novo com o Mistral Large 3 para transformá-lo em uma decisão
      Esse tipo de composição é comum; mais raro é tentar fazer tudo com um único modelo
    • “Deleguei decisões financeiras importantes a um software de OCR, e você não vai acreditar no que aconteceu depois”
  • Recentemente tentei usar o Opus 4.8 para OCR
    Tecnicamente não era a ferramenta certa, mas tudo o que eu precisava era extrair a data de recibos
    Ele errou cerca de 20% das datas e ainda avaliou todas com “alta confiança”
    Provavelmente eu deveria ter usado um modelo especializado em OCR

    • Extrair datas de recibos não é um problema que já estava praticamente resolvido há uns 30 anos?
      Acho que até aquelas ferramentas shareware de OCR que vinham com scanners preto e branco antigamente teriam ido melhor que 20% de erro
    • Não sei sobre o Opus, mas no produto por assinatura do Gemini o OCR não parece ser feito pelo próprio modelo
      Parece usar uma ferramenta de OCR separada e antiquada, e os resultados nos testes foram ruins
      Já na API do Gemini, o modelo faz OCR diretamente e a precisão foi bem melhor
    • O Opus faz OCR muito bem
      É muito melhor do que pequenos modelos visão-linguagem de 1~4B
      Se o Opus falhou, há grande chance de que a maioria desses modelos pequenos também falhe
    • É difícil acreditar nisso
      Recentemente escaneei centenas de PDFs com a pior caligrafia possível usando o Opus 4.8 e, tirando um único registro que nem eu conseguia ler, tive 100% de sucesso