Dagster简介
软件简介
Dagster 是一个用于机器学习、分析和 ETL 的数据编排器。
Dagster 让你以可重复使用的逻辑组件之间的数据流来定义管道,然后在本地测试并在任何地方运行。通过对管道和它们产生的资产的统一视图,Dagster 可以调度和编排 Pandas、Spark、SQL 或任何其他 Python 可以调用的东西。
Dagster 是为数据平台工程师、数据工程师和全堆栈数据科学家设计的。用 Dagster 构建数据平台,使你的利益相关者更加独立、系统更加强大。用 Dagster 开发数据管道可使测试更容易,部署更快。’
官方:
- 代码仓库:https://github.com/dagster-io/dagster
- 文档:https://docs.dagster.io/getting-started
- User-code-example:https://github.com/dagster-io/dagster/tree/1.1.9/examples/deploy_k8s/example_project
特性
- 本地开发和测试,随处部署
- 对每个步骤产生和消耗的数据进行建模和输入
- 将数据链接到计算
- 搭建自助数据平台
- 避免依赖噩梦
- 从丰富的 UI 调试管道
构建数据平台:https://stories.thinkingmachin.es/we-are-on-cloud-9-with-this-dagster-secret/
机器学习数据编排工具: https://www.cnblogs.com/lightsong/p/13796008.html
ML Ops with Dagster: 5 Key Features for Developing a Continuous Training Pipeline: https://stories.thinkingmachin.es/ml-ops-with-dagster-5-key-features-for-developing-a-continuous-training-pipeline/
Data Pre-processing Pipeline on AWS with Dagster:https://docs.lightly.ai/self-supervised-learning/docker_archive/integration/dagster_aws.html
Catalog of Data Observability tools:https://notion.castordoc.com/catalog-of-data-quality
https://github.com/great-expectations