目录

Dask 用例

目录

Dask 用例

Dask 是一个多功能的工具,支持各种工作负载。本页包含人们在实践中使用 Dask 的简短且具启发性的示例。这些示例强调了广度,希望能够启发读者发现 Dask 除了最初设计目的之外还能服务于他们的新方法。

概览

Dask 的用途大致可分为以下两类

  1. 使用 Dask ArrayDask DataFrameDask Bag 处理大型 NumPy/Pandas/Lists,使用熟悉的技术分析大型数据集。这类似于数据库、Spark 或大型数组库。

  2. 自定义任务调度。你提交一个函数依赖关系图来处理自定义工作负载。这类似于 LuigiAirflowCeleryMakefiles

今天,大多数人认为 Dask 是一个像 Spark 这样的框架,设计用于处理第一类围绕大型均匀形状数据的用例。然而,许多更高效和新颖的用例属于第二类,Dask 被用于并行化自定义工作流程。

在上述实际应用中,我们看到人们最终会同时使用 Dask 的两方面来获得新颖的结果。

贡献

如果您使用 Dask 解决了有趣的问题,我们希望您分享您的故事。倾听像您这样经验丰富的用户的经历,可以帮助新手快速找到 Dask 及周边生态系统中对他们可能有价值的部分。

故事通过向 github.com/dask/dask-stories 提交拉取请求来收集。您可能希望阅读上面的一些故事,以了解典型的信息量。仓库中有一个带有建议的模板,但您也可以以不同的方式组织您的故事。