13 pontos por GN⁺ 2025-03-07 | 2 comentários | Compartilhar no WhatsApp
  • O Mistral OCR é a melhor API de compreensão de documentos do mundo, oferecendo capacidade de entender e analisar documentos com mais precisão do que modelos existentes
  • Extrai texto, mídia, fórmulas e tabelas de PDFs e imagens e converte isso em uma saída estruturada
  • A API está disponível atualmente por 1000 páginas/US$ 1 (com processamento em lote, o custo por página cai pela metade)

Principais características do Mistral OCR

  • Capacidade de compreensão de documentos complexos: interpreta com precisão tabelas, imagens, fórmulas e até formatação LaTeX
  • Suporte multilíngue e multimodal: compatível com vários idiomas, fontes e scripts
  • Desempenho de nível líder do setor: registra precisão superior à de outros modelos de OCR
  • Velocidade máxima: pode processar 2000 páginas por minuto em um único nó
  • Documentos podem ser usados como prompt: oferece suporte a saídas estruturadas, como JSON
  • Opção on-premises (self-host): ideal para empresas que precisam processar documentos confidenciais

Compreensão de documentos complexos

  • O Mistral OCR pode analisar em profundidade documentos que incluem artigos científicos, gráficos, fórmulas, tabelas e imagens
  • É possível verificar, por meio de um notebook de exemplo, como o OCR extrai texto e imagens de PDFs (exemplo)

Comparação de desempenho (benchmark)

O Mistral OCR registrou a pontuação mais alta em desempenho geral quando comparado com outros principais modelos de OCR

  • Desempenho geral (Overall): 94.89 (pontuação superior à dos outros modelos)
  • Desempenho em análise de fórmulas (Math): 94.29 (mais de 7 pontos acima do GPT-4o)
  • Desempenho em reconhecimento multilíngue: 89.55
  • Desempenho com documentos digitalizados (Scanned): 98.96
  • Desempenho em reconhecimento de tabelas (Table): 96.12 (o melhor entre os modelos comparados)

Suporte multilíngue

O Mistral OCR consegue processar diversos idiomas e sistemas de escrita do mundo todo. Em comparação com os principais modelos, registrou o melhor desempenho de OCR em todos os idiomas

  • Russo (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
  • Francês (fr): 99.20 (Azure 97.50, Google 96.36)
  • Chinês (zh): 97.11 (Azure 91.40, Google 90.89)
  • Alemão (de): 99.51 (Azure 98.39, Google 97.09)

Alta velocidade de processamento

  • O Mistral OCR é mais leve que os modelos de OCR existentes e pode processar até 2000 páginas/minuto em um único nó
  • Dá suporte a aprendizado contínuo e melhorias em ambientes que exigem processamento de grandes volumes de documentos

Uso de documentos como prompt (Doc-as-prompt)

  • É possível extrair informações específicas de documentos e gerar saídas estruturadas, como JSON
  • Os dados extraídos podem ser conectados a processos de IA posteriores para automação
  • Exemplo: extrair cláusulas específicas de documentos jurídicos e depois gerar respostas de chatbot com IA

Opção on-premises (self-host)

  • É possível fazer hospedagem própria quando for necessário processar documentos confidenciais dentro da empresa
  • Ideal para instituições e empresas em que privacidade e segurança dos dados são importantes

Principais casos de uso

  1. Digitalização de pesquisa científica: converter artigos e periódicos em formatos que a IA possa processar para acelerar a colaboração em pesquisa
  2. Preservação de história e patrimônio cultural: museus e organizações sem fins lucrativos podem digitalizar documentos históricos para preservação e compartilhamento
  3. Melhoria do atendimento ao cliente: indexar manuais e documentos para aumentar a velocidade no atendimento
  4. Uso de IA em documentos de design, educação e jurídicos: indexar desenhos de engenharia, materiais de aula, documentos regulatórios etc. para permitir busca de informações com IA

Experimente o Mistral OCR

  • O Mistral OCR pode ser testado gratuitamente no Le Chat (Le Chat)
  • A API pode ser usada na la Plateforme (usar a API)
  • Também são oferecidos implantação on-premises e soluções corporativas personalizadas (contato)

2 comentários

 
taeha 2025-03-13

Não há conteúdo sobre o desempenho em coreano, mas, pelo que testei, não parece ruim.

 
GN⁺ 2025-03-07
Comentários no Hacker News
  • Há quem ache que “não é ruim”. No entanto, ainda ocorrem alucinações

    • Na imagem fornecida como exemplo, o texto do bloco central foi reproduzido com precisão
    • Porém, no bloco seguinte, parte do texto do bloco anterior foi repetida, parte do bloco seguinte foi incluída incorretamente e palavras inexistentes foram geradas
    • O texto correto é "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
  • Foi executada parcialmente uma comparação de benchmark entre o Mistral e o Marker

    • Em 375 amostras, segundo avaliação feita por LLM, o Mistral obteve 4,32 pontos e o Marker, 4,41
    • O Marker consegue fazer inferência de 20 a 120 páginas por segundo em um H100
    • As amostras e o código do benchmark podem ser consultados no Hugging Face e no GitHub, respectivamente
    • O Mistral OCR é um modelo impressionante, mas o problema de OCR ainda é difícil
  • Há expectativa de que, com o avanço da tecnologia de OCR, ficará mais fácil ler artigos e livros didáticos

    • Será possível vincular referências a figuras às figuras reais sem interromper o fluxo da leitura
    • Uma conversão limpa para HTML permitirá clicar em definições ou adicionar perguntas para verificar a compreensão
    • Também pode haver a possibilidade de integrar automaticamente o Orbit SRS de Andy Matuschak a PDFs
  • A tecnologia de OCR está se aproximando de um estado em que quase pode ser considerada resolvida

    • Porém, nos negócios, ainda existe uma grande lacuna entre a saída bruta de OCR e o processamento de documentos
    • LLMs e VLMs não são mágicos, e esperar automação 100% é irrealista
    • É necessário construir datasets, ajustar pipelines, detectar incertezas e corrigir com intervenção humana
  • Há a opinião de que, ao converter livros didáticos de medicina de PDF para MD, os resultados do MinerU/PDF-Extract-Kit são melhores

    • O link do Colab presente no artigo não funciona, mas foi encontrado um link funcional na documentação
  • Há quem diga que finalmente chegou o dia em que é possível editar PDFs graças ao avanço da tecnologia

    • No entanto, o problema de OCR em arquivos de PDF com dados pessoais ainda não foi resolvido
  • Há a opinião de que é muito rápido e mais preciso do que Google, Claude e outros

    • O preço é de US$ 1 por 1.000 páginas, e no modo batch a cobrança é feita por 2.000 páginas
    • Há quem diga que é excelente para converter PDF em Markdown
  • Ao usar um VLM geral em vez de um modelo específico, há a desvantagem de ser mais difícil ajustá-lo para casos específicos

    • Por exemplo, usa-se o Gemini para adicionar texto alternativo muito específico ao Markdown extraído
    • Custa de 2 a 3 vezes mais do que o Gemini Flash, mas o ganho de desempenho é importante
  • Busca-se uma explicação simples para o motivo de o OCR com VLM gerar alucinações