- Framework em Python para criar pipelines de dados eficientes
- Promove modularização e colaboração, permitindo criar pipelines complexos com componentes simples e reutilizáveis
- Projetado para funcionar de forma integrada com várias bibliotecas ou frameworks de processamento de dados
- Usa Pydantic para oferecer tipagem forte, validação de dados e gerenciamento de configuração
- Garante execução previsível dos pipelines com código bem testado e um conjunto rico de funcionalidades
O que diferencia o Koheesio de outras bibliotecas
- Projetado especificamente para pipelines de dados, integração com PySpark, transformação de dados, tarefas de ETL, validação de dados e processamento de dados em larga escala
- Oferece recursos de Reader, Writer e Transformation para todos os tipos de tarefas de processamento de dados
- Incentiva colaboração e inovação dentro da comunidade de engenharia de dados
Componentes principais do Koheesio
- Step: unidade básica de trabalho do Koheesio, representando uma tarefa individual em um pipeline de dados. Recebe entradas e gera saídas
- Context: classe de configuração que define o ambiente da tarefa. Permite compartilhar variáveis entre tarefas e ajustar o comportamento da tarefa conforme o ambiente
- Logger: classe que registra mensagens em vários níveis
1 comentários
Comentários no Hacker News