8 pontos por xguru 2024-12-25 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Fornece uma abordagem estruturada que aproveita os pontos fortes das tecnologias de código aberto para que as organizações possam gerenciar e usar dados de forma eficiente
  • Foca em escalabilidade e reprodutibilidade, orientando as etapas essenciais para montar fluxos de trabalho de dados
  • Oferece suporte estruturado, incluindo definição de metas, seleção de ferramentas, teste de workflow e personalização
  • Permite ajustes conforme as necessidades dos usuários por meio de um design flexível e modular

Filosofia de design: estrutura em camadas

  1. PO (Base): função de hub estático, como o GitHub
  2. P1 (Ferramenta): várias ferramentas executadas por open source
  3. P2 (Manutenção e monitoramento): gerenciamento de ambiente e automação (Pixi e GHA)
  4. P3 (Abstração): camada de CLI/gerenciador de jobs para interação do usuário (Pixi)

Workflows atualmente suportados

  • Implementação dos princípios de design do framework de empacotamento Python
  • Configuração do GitHub Actions
  • Configuração no nível de PR com Vale.sh
  • Configuração de linting/formatting de código com Pre-commit hooks
  • Gerenciamento de ambiente com Pixi
  • Leitura de fontes de dados online usando Intake
  • Construção de pipeline de exemplo com Dagster
  • Construção de dashboard com Holoviews + Panel
  • Análise exploratória de dados (EDA) com Mito
  • Desenvolvimento de UI web baseada em Flask
  • Expansão e reconstrução da UI web com FastHTML
  • Realização de análise de dados com modelos de IA do GitHub (GitHub AI models Beta)

Ainda não há comentários.

Ainda não há comentários.