6 pontos por GN⁺ 2024-08-15 | 1 comentários | Compartilhar no WhatsApp
  • Trellis é uma ferramenta de ETL (Extract, Transform, Load) com IA para dados não estruturados
  • Converte chamadas telefônicas, PDFs e conversas de chat em formato SQL estruturado com base em esquemas definidos pelos usuários em linguagem natural
  • Ajuda equipes de dados e operações a automatizar a entrada manual de dados e a processar dados complexos com consultas SQL

Contexto de desenvolvimento do Trellis

  • Depois de se conhecerem no laboratório de IA de Stanford, os fundadores trabalharam com equipes de dados de várias grandes empresas e identificaram o problema dos dados não estruturados
  • 80% dos dados corporativos são compostos por dados não estruturados, e as plataformas existentes têm dificuldade para processá-los
  • Por exemplo, um grande banco comercial não conseguia melhorar seu modelo de risco de crédito por causa de dados importantes presos em PDFs e e-mails
  • Com base em pesquisa em IA, desenvolveram uma solução de ETL com IA que transforma dados não estruturados em tabelas alinhadas a esquemas

Desafios técnicos

  • Suporte a documentos complexos: usa map-reduce com LLM para processar documentos longos e modelos de visão para extrair tabelas e layout
  • Roteamento de modelos: seleciona o melhor modelo para cada transformação para otimizar custo e velocidade
  • Validação de dados e garantia de esquema: assegura a precisão por meio de links de referência e detecção de anomalias

Casos de uso diversos

  • Serviços financeiros: processa documentos complexos (títulos, classificações de crédito etc.) em formato estruturado para acelerar underwriting e automatizar o processamento de empréstimos
  • Suporte ao cliente e operações de backoffice: aumenta a velocidade de onboarding e garante conformidade com SOP ao mapear documentos entre diferentes esquemas e sistemas ERP
  • Pré-processamento e coleta de dados: atende necessidades de pré-processamento de dados e coleta de dados para RAG em pipelines de ETL

Resumo do GN⁺

  • Trellis é uma ferramenta de ETL com IA que converte dados não estruturados em formato SQL estruturado, automatizando trabalho manual de equipes de dados e operações
  • Resolve desafios técnicos como processamento de documentos complexos, roteamento de modelos e validação de dados
  • Pode ser útil em diversos setores, como serviços financeiros, suporte ao cliente e pré-processamento de dados
  • Será especialmente útil para empresas que enfrentam dificuldades no processamento de dados não estruturados
  • Outros projetos com funcionalidades semelhantes incluem Alteryx e Talend

1 comentários

 
GN⁺ 2024-08-15
Comentários do Hacker News
  • Estou desenvolvendo um pacote Python de código aberto que oferece funcionalidade semelhante

    • Compartilhei um exemplo de demo com os e-mails da Enron
  • Um grande banco comercial não conseguiu resolver dados presos em PDFs e e-mails, e por isso não conseguiu melhorar seu modelo de risco de crédito

    • Resolver esse problema gera muito valor
  • Trabalhei em um projeto relacionado na SoundTrace

    • Era necessário extrair perfeitamente os dados de audiogramas em PDF de novos clientes
    • Pelo pipeline, extraíamos texto e tabelas do PDF com OCR e fazíamos o parsing diretamente com um LLM
    • Enviávamos os gráficos de audiograma para uma convnet e fazíamos o parsing das tabelas de forma programática
    • Validávamos os resultados com Claude Sonnet e, se não houvesse correspondência, fazíamos revisão manual
    • A precisão chegou perto de 100%
  • Trabalhei na Instabase, e a capacidade de processar PDFs e digitalizações de documentos é importante

  • Parabéns pelo lançamento do Trellis; os edge cases precisam ficar próximos de 0%

    • É um serviço de que toda organização precisa, e se der certo, vocês terão muitos clientes
  • Pergunta sobre a concorrência e as diferenças em relação ao Roe AI

  • Curiosidade sobre como a precisão dos dados foi validada

  • Em um projeto pessoal, estou fazendo algo parecido usando TypeChat, Zod e Unstructured

  • Usei o function calling da OpenAI para extrair campos de milhares de documentos digitalizados

    • Em vários formatos de documentos de entrada, a recuperação de alguns campos não foi boa
    • Experimentei esquemas JSON para extrair as melhores informações
    • No caso de documentos longos, foi preciso decidir entre enviar o documento inteiro ou apenas as partes relevantes
    • A qualidade do OCR não era boa
    • A principal inovação é permitir que usuários não técnicos façam iterativamente o item #2
  • Parabéns pelo lançamento apesar de ainda não terem resolvido o grande problema

    • Os clientes com grandes problemas e orçamento são os mais mal atendidos
    • Fornecer soluções sob medida para o cliente por meio de onboarding/integração no estilo da Palantir
    • Precisão acima de 99% e intervenção humana são eficazes
    • Melhorar de 95% para 99% pode fazer uma grande diferença
    • Em vez de "workflow com IA", deveria ser enfatizado "extração com precisão de 99%+"