- Biblioteca moderna de dataframes em Python projetada para IA
- Criada para estruturar dados não estruturados em conjuntos de dados e permitir fazer wrangling em grande escala em máquinas locais
- Integra-se à pilha de dados pós-moderna sem abstrair nem ocultar modelos de IA e chamadas de API
Principais recursos
- Repositório Source of Truth
- Processa dados não estruturados em S3, GCP, Azure e sistemas de arquivos locais sem cópias duplicadas
- Suporte a dados multimodais: imagens, vídeos, texto, PDF, JSON, CSV, parquet etc.
- Unifica arquivos e metadados em datasets persistentes, versionados e baseados em colunas
- Pipeline de dados amigável para Python
- Trabalha com objetos Python e campos de objetos
- Paralelização embutida e operações out-of-core sem SQL ou Spark
- Enriquecimento e processamento de dados
- Geração de metadados usando modelos de IA locais e APIs de LLM
- Filtragem, join e agrupamento com base em metadados. Busca com embeddings vetoriais
- Envia datasets para Pytorch ou Tensorflow, ou os exporta de volta para o repositório
- Eficiência
- Paralelização, processamento out-of-core e cache de dados
- Operações vetorizadas em campos de objetos Python: soma, contagem, média etc.
- Busca vetorial otimizada
Ainda não há comentários.