Koheesio - framework open source da Nike para criação de pipelines de dados

xguru · 2024-06-05T09:37:10+09:00

Framework em Python para criar pipelines de dados eficientes Promove modularização e colaboração, permitindo criar pipelines complexos com componentes simples e reutilizáveis Projetado para funcionar de forma integrada com várias bibliotecas ou frameworks de processamento de dados Usa Pydantic para oferecer tipagem forte, validação de dados e gerenciamento de configuração Garante execução previsível dos pipelines com código bem testado e um conjunto rico de funcionalidades O que diferencia o Koheesio de outras bibliotecas Projetado especificamente para pipelines de dados, integração com PySpark, transformação de dados, tarefas de ETL, validação de dados e processamento de dados em larga escala Oferece recursos de Reader, Writer e Transformation para todos os tipos de tarefas de processamento de dados Incentiva colaboração e inovação dentro da comunidade de engenharia de dados Componentes principais do Koheesio Step: unidade básica de trabalho do Koheesio, representando uma tarefa individual em um pipeline de dados. Recebe entradas e gera saídas Context: classe de configuração que define o ambiente da tarefa. Permite compartilhar variáveis entre tarefas e ajustar o comportamento da tarefa conforme o ambiente Logger: classe que registra mensagens em vários níveis

(github.com/Nike-Inc)

9 pontos por xguru 2024-06-05 | 1 comentários | Compartilhar no WhatsApp

Framework em Python para criar pipelines de dados eficientes
Promove modularização e colaboração, permitindo criar pipelines complexos com componentes simples e reutilizáveis
Projetado para funcionar de forma integrada com várias bibliotecas ou frameworks de processamento de dados
Usa Pydantic para oferecer tipagem forte, validação de dados e gerenciamento de configuração
Garante execução previsível dos pipelines com código bem testado e um conjunto rico de funcionalidades

O que diferencia o Koheesio de outras bibliotecas

Projetado especificamente para pipelines de dados, integração com PySpark, transformação de dados, tarefas de ETL, validação de dados e processamento de dados em larga escala
Oferece recursos de Reader, Writer e Transformation para todos os tipos de tarefas de processamento de dados
Incentiva colaboração e inovação dentro da comunidade de engenharia de dados

Componentes principais do Koheesio

Step: unidade básica de trabalho do Koheesio, representando uma tarefa individual em um pipeline de dados. Recebe entradas e gera saídas
Context: classe de configuração que define o ambiente da tarefa. Permite compartilhar variáveis entre tarefas e ajustar o comportamento da tarefa conforme o ambiente
Logger: classe que registra mensagens em vários níveis

1 comentários

xguru 2024-06-06

Comentários no Hacker News

Fico curioso sobre como é, na prática, a engenharia de dados da Nike. Recebo com frequência propostas de contrato mal remuneradas por causa do meu perfil no LinkedIn. Essas vagas parecem voltadas a pessoas com experiência nos EUA, mas pagam pouco. Também podem ser golpes.
Essa ferramenta pode ser útil em ambientes com muitos desenvolvedores pouco experientes. Uns 2 ou 3 desenvolvedores criam a ferramenta, e uma equipe maior executa tarefas simples de ETL. A equipe da ferramenta fica com o peso de atender novos requisitos.
Tipagem forte atrapalha problemas de engenharia de dados. Linguagens dinâmicas ajudam a reduzir a complexidade do código e a manutenção. Insistir em frameworks tipados parece vir mais de experiência acadêmica do que de experiência na indústria.
Já lidei com ETL, Spark, Storm etc., mas não entendo a proposta de valor desta biblioteca. Não sou especialista em engenharia de dados, mas esperava perceber a utilidade da ferramenta.
Falta uma explicação melhor do que é essa ferramenta e por que alguém deveria usá-la. Veja este link.
Escrevi um pipeline de dados com Apache Beam há algumas semanas. O Koheesio compartilha algumas funcionalidades, mas o Apache Beam é superior.
Parece com o Luigi. Legal!
Recomendo dar uma olhada no CloudQuery. É um framework de ELT baseado em Arrow. (sou o autor)
O Koheesio diz que não compete com outras bibliotecas, mas na prática compete. Orquestração de workflow é uma categoria madura. Usar Python não é uma vantagem tão grande.
Fico curioso se já viram a biblioteca dlt. Ela oferece EL fácil de usar em Python. Tenho curiosidade sobre as diferenças entre Koheesio e dlt e se podem se complementar.