10 pontos por calmlake79 2026-02-28 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Motor open source baseado em Rust para extração de tabelas de PDF
  • Ferramentas Python existentes (Camelot, Tabula, pdfplumber) exigem dependências pesadas de runtime, como OpenCV, Ghostscript e Java, o que impõe grandes restrições de memória em ambientes serverless
  • O TREX funciona como um binário único, sem dependências externas, e pode ser executado no Cloud Run/Lambda com ~30 MB de memória, sem OOM
  • Inclui duas estratégias de parsing: Lattice (baseada em linhas de grade) / Stream (inferência por coordenadas), com seleção automática da melhor estratégia por página via DL Router
  • O DL Router baseado em deep learning analisa os recursos da página e seleciona automaticamente a estratégia de parsing ideal (Lattice/Stream/Blend). Ao coletar eventos de falha de extração em produção e reentreinar o modelo ONNX, é possível melhorar continuamente a precisão
  • Pode ser usado diretamente no Node.js com npm i @dreamyoungs/trex (wrapper CLI) ou npm i @dreamyoungs/trex-node (binding nativo NAPI-RS)
  • Também oferece suporte a Docker REST API e bindings para Python, sob licença dupla MIT / Apache-2.0

Ainda não há comentários.

Ainda não há comentários.