TREX - motor de extração de tabelas de PDF feito em Rust (precisão aprimorada com deep learning)

calmlake79 · 2026-02-28T23:52:42+09:00

Motor open source baseado em Rust para extração de tabelas de PDF Ferramentas Python existentes (Camelot, Tabula, pdfplumber) exigem dependências pesadas de runtime, como OpenCV, Ghostscript e Java, o que impõe grandes restrições de memória em ambientes serverless O TREX funciona como um binário único, sem dependências externas, e pode ser executado no Cloud Run/Lambda com ~30 MB de memória, sem OOM Inclui duas estratégias de parsing: Lattice (baseada em linhas de grade) / Stream (inferência por coordenadas), com seleção automática da melhor estratégia por página via DL Router O DL Router baseado em deep learning analisa os recursos da página e seleciona automaticamente a estratégia de parsing ideal (Lattice/Stream/Blend). Ao coletar eventos de falha de extração em produção e reentreinar o modelo ONNX, é possível melhorar continuamente a precisão Pode ser usado diretamente no Node.js com npm i @dreamyoungs/trex (wrapper CLI) ou npm i @dreamyoungs/trex-node (binding nativo NAPI-RS) Também oferece suporte a Docker REST API e bindings para Python, sob licença dupla MIT / Apache-2.0

(github.com/dreamyoungs)

10 pontos por calmlake79 2026-02-28 | Ainda não há comentários. | Compartilhar no WhatsApp

Motor open source baseado em Rust para extração de tabelas de PDF
Ferramentas Python existentes (Camelot, Tabula, pdfplumber) exigem dependências pesadas de runtime, como OpenCV, Ghostscript e Java, o que impõe grandes restrições de memória em ambientes serverless
O TREX funciona como um binário único, sem dependências externas, e pode ser executado no Cloud Run/Lambda com ~30 MB de memória, sem OOM
Inclui duas estratégias de parsing: Lattice (baseada em linhas de grade) / Stream (inferência por coordenadas), com seleção automática da melhor estratégia por página via DL Router
O DL Router baseado em deep learning analisa os recursos da página e seleciona automaticamente a estratégia de parsing ideal (Lattice/Stream/Blend). Ao coletar eventos de falha de extração em produção e reentreinar o modelo ONNX, é possível melhorar continuamente a precisão
Pode ser usado diretamente no Node.js com npm i @dreamyoungs/trex (wrapper CLI) ou npm i @dreamyoungs/trex-node (binding nativo NAPI-RS)
Também oferece suporte a Docker REST API e bindings para Python, sob licença dupla MIT / Apache-2.0

TREX - motor de extração de tabelas de PDF feito em Rust (precisão aprimorada com deep learning)

Leituras relacionadas

Ainda não há comentários.