- Motor open source baseado em Rust para extração de tabelas de PDF
- Ferramentas Python existentes (Camelot, Tabula, pdfplumber) exigem dependências pesadas de runtime, como OpenCV, Ghostscript e Java, o que impõe grandes restrições de memória em ambientes serverless
- O TREX funciona como um binário único, sem dependências externas, e pode ser executado no Cloud Run/Lambda com ~30 MB de memória, sem OOM
- Inclui duas estratégias de parsing: Lattice (baseada em linhas de grade) / Stream (inferência por coordenadas), com seleção automática da melhor estratégia por página via DL Router
- O DL Router baseado em deep learning analisa os recursos da página e seleciona automaticamente a estratégia de parsing ideal (Lattice/Stream/Blend). Ao coletar eventos de falha de extração em produção e reentreinar o modelo ONNX, é possível melhorar continuamente a precisão
- Pode ser usado diretamente no Node.js com
npm i @dreamyoungs/trex (wrapper CLI) ou npm i @dreamyoungs/trex-node (binding nativo NAPI-RS)
- Também oferece suporte a Docker REST API e bindings para Python, sob licença dupla MIT / Apache-2.0
Ainda não há comentários.