Launch HN: Trellis – workflow com IA para dados não estruturados
(news.ycombinator.com)- Trellis é uma ferramenta de ETL (Extract, Transform, Load) com IA para dados não estruturados
- Converte chamadas telefônicas, PDFs e conversas de chat em formato SQL estruturado com base em esquemas definidos pelos usuários em linguagem natural
- Ajuda equipes de dados e operações a automatizar a entrada manual de dados e a processar dados complexos com consultas SQL
Contexto de desenvolvimento do Trellis
- Depois de se conhecerem no laboratório de IA de Stanford, os fundadores trabalharam com equipes de dados de várias grandes empresas e identificaram o problema dos dados não estruturados
- 80% dos dados corporativos são compostos por dados não estruturados, e as plataformas existentes têm dificuldade para processá-los
- Por exemplo, um grande banco comercial não conseguia melhorar seu modelo de risco de crédito por causa de dados importantes presos em PDFs e e-mails
- Com base em pesquisa em IA, desenvolveram uma solução de ETL com IA que transforma dados não estruturados em tabelas alinhadas a esquemas
Desafios técnicos
- Suporte a documentos complexos: usa map-reduce com LLM para processar documentos longos e modelos de visão para extrair tabelas e layout
- Roteamento de modelos: seleciona o melhor modelo para cada transformação para otimizar custo e velocidade
- Validação de dados e garantia de esquema: assegura a precisão por meio de links de referência e detecção de anomalias
Casos de uso diversos
- Serviços financeiros: processa documentos complexos (títulos, classificações de crédito etc.) em formato estruturado para acelerar underwriting e automatizar o processamento de empréstimos
- Suporte ao cliente e operações de backoffice: aumenta a velocidade de onboarding e garante conformidade com SOP ao mapear documentos entre diferentes esquemas e sistemas ERP
- Pré-processamento e coleta de dados: atende necessidades de pré-processamento de dados e coleta de dados para RAG em pipelines de ETL
Resumo do GN⁺
- Trellis é uma ferramenta de ETL com IA que converte dados não estruturados em formato SQL estruturado, automatizando trabalho manual de equipes de dados e operações
- Resolve desafios técnicos como processamento de documentos complexos, roteamento de modelos e validação de dados
- Pode ser útil em diversos setores, como serviços financeiros, suporte ao cliente e pré-processamento de dados
- Será especialmente útil para empresas que enfrentam dificuldades no processamento de dados não estruturados
- Outros projetos com funcionalidades semelhantes incluem Alteryx e Talend
1 comentários
Comentários do Hacker News
Estou desenvolvendo um pacote Python de código aberto que oferece funcionalidade semelhante
Um grande banco comercial não conseguiu resolver dados presos em PDFs e e-mails, e por isso não conseguiu melhorar seu modelo de risco de crédito
Trabalhei em um projeto relacionado na SoundTrace
Trabalhei na Instabase, e a capacidade de processar PDFs e digitalizações de documentos é importante
Parabéns pelo lançamento do Trellis; os edge cases precisam ficar próximos de 0%
Pergunta sobre a concorrência e as diferenças em relação ao Roe AI
Curiosidade sobre como a precisão dos dados foi validada
Em um projeto pessoal, estou fazendo algo parecido usando TypeChat, Zod e Unstructured
Usei o function calling da OpenAI para extrair campos de milhares de documentos digitalizados
Parabéns pelo lançamento apesar de ainda não terem resolvido o grande problema