14 pontos por xguru 2024-10-20 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Biblioteca moderna de dataframes em Python projetada para IA
  • Criada para estruturar dados não estruturados em conjuntos de dados e permitir fazer wrangling em grande escala em máquinas locais
  • Integra-se à pilha de dados pós-moderna sem abstrair nem ocultar modelos de IA e chamadas de API

Principais recursos

  • Repositório Source of Truth
    • Processa dados não estruturados em S3, GCP, Azure e sistemas de arquivos locais sem cópias duplicadas
    • Suporte a dados multimodais: imagens, vídeos, texto, PDF, JSON, CSV, parquet etc.
    • Unifica arquivos e metadados em datasets persistentes, versionados e baseados em colunas
  • Pipeline de dados amigável para Python
    • Trabalha com objetos Python e campos de objetos
    • Paralelização embutida e operações out-of-core sem SQL ou Spark
  • Enriquecimento e processamento de dados
    • Geração de metadados usando modelos de IA locais e APIs de LLM
    • Filtragem, join e agrupamento com base em metadados. Busca com embeddings vetoriais
    • Envia datasets para Pytorch ou Tensorflow, ou os exporta de volta para o repositório
  • Eficiência
    • Paralelização, processamento out-of-core e cache de dados
    • Operações vetorizadas em campos de objetos Python: soma, contagem, média etc.
    • Busca vetorial otimizada

Ainda não há comentários.

Ainda não há comentários.