9 pontos por xguru 2024-06-05 | 1 comentários | Compartilhar no WhatsApp
  • Framework em Python para criar pipelines de dados eficientes
  • Promove modularização e colaboração, permitindo criar pipelines complexos com componentes simples e reutilizáveis
  • Projetado para funcionar de forma integrada com várias bibliotecas ou frameworks de processamento de dados
  • Usa Pydantic para oferecer tipagem forte, validação de dados e gerenciamento de configuração
  • Garante execução previsível dos pipelines com código bem testado e um conjunto rico de funcionalidades

O que diferencia o Koheesio de outras bibliotecas

  • Projetado especificamente para pipelines de dados, integração com PySpark, transformação de dados, tarefas de ETL, validação de dados e processamento de dados em larga escala
  • Oferece recursos de Reader, Writer e Transformation para todos os tipos de tarefas de processamento de dados
  • Incentiva colaboração e inovação dentro da comunidade de engenharia de dados

Componentes principais do Koheesio

  • Step: unidade básica de trabalho do Koheesio, representando uma tarefa individual em um pipeline de dados. Recebe entradas e gera saídas
  • Context: classe de configuração que define o ambiente da tarefa. Permite compartilhar variáveis entre tarefas e ajustar o comportamento da tarefa conforme o ambiente
  • Logger: classe que registra mensagens em vários níveis

1 comentários

 
xguru 2024-06-06
Comentários no Hacker News
  • Fico curioso sobre como é, na prática, a engenharia de dados da Nike. Recebo com frequência propostas de contrato mal remuneradas por causa do meu perfil no LinkedIn. Essas vagas parecem voltadas a pessoas com experiência nos EUA, mas pagam pouco. Também podem ser golpes.
  • Essa ferramenta pode ser útil em ambientes com muitos desenvolvedores pouco experientes. Uns 2 ou 3 desenvolvedores criam a ferramenta, e uma equipe maior executa tarefas simples de ETL. A equipe da ferramenta fica com o peso de atender novos requisitos.
  • Tipagem forte atrapalha problemas de engenharia de dados. Linguagens dinâmicas ajudam a reduzir a complexidade do código e a manutenção. Insistir em frameworks tipados parece vir mais de experiência acadêmica do que de experiência na indústria.
  • Já lidei com ETL, Spark, Storm etc., mas não entendo a proposta de valor desta biblioteca. Não sou especialista em engenharia de dados, mas esperava perceber a utilidade da ferramenta.
  • Falta uma explicação melhor do que é essa ferramenta e por que alguém deveria usá-la. Veja este link.
  • Escrevi um pipeline de dados com Apache Beam há algumas semanas. O Koheesio compartilha algumas funcionalidades, mas o Apache Beam é superior.
  • Parece com o Luigi. Legal!
  • Recomendo dar uma olhada no CloudQuery. É um framework de ELT baseado em Arrow. (sou o autor)
  • O Koheesio diz que não compete com outras bibliotecas, mas na prática compete. Orquestração de workflow é uma categoria madura. Usar Python não é uma vantagem tão grande.
  • Fico curioso se já viram a biblioteca dlt. Ela oferece EL fácil de usar em Python. Tenho curiosidade sobre as diferenças entre Koheesio e dlt e se podem se complementar.