跳转至

Dagster简介

软件简介

Dagster 是一个用于机器学习、分析和 ETL 的数据编排器。

Dagster 让你以可重复使用的逻辑组件之间的数据流来定义管道,然后在本地测试并在任何地方运行。通过对管道和它们产生的资产的统一视图,Dagster 可以调度和编排 Pandas、Spark、SQL 或任何其他 Python 可以调用的东西。

Dagster 是为数据平台工程师、数据工程师和全堆栈数据科学家设计的。用 Dagster 构建数据平台,使你的利益相关者更加独立、系统更加强大。用 Dagster 开发数据管道可使测试更容易,部署更快。’

官方:

特性

  • 本地开发和测试,随处部署
  • 对每个步骤产生和消耗的数据进行建模和输入
  • 将数据链接到计算
  • 搭建自助数据平台
  • 避免依赖噩梦
  • 从丰富的 UI 调试管道

构建数据平台:https://stories.thinkingmachin.es/we-are-on-cloud-9-with-this-dagster-secret/

机器学习数据编排工具: https://www.cnblogs.com/lightsong/p/13796008.html

ML Ops with Dagster: 5 Key Features for Developing a Continuous Training Pipeline: https://stories.thinkingmachin.es/ml-ops-with-dagster-5-key-features-for-developing-a-continuous-training-pipeline/

Data Pre-processing Pipeline on AWS with Dagster:https://docs.lightly.ai/self-supervised-learning/docker_archive/integration/dagster_aws.html

Catalog of Data Observability tools:https://notion.castordoc.com/catalog-of-data-quality

https://github.com/great-expectations