目录

Dask 用例

目录

Dask 用例

Dask 是一个多功能的工具,支持各种工作负载。本页面包含人们在实践中使用 Dask 的简短且具有启发性的示例。这些示例强调广度,希望能够启发读者发现 Dask 除了其最初意图之外,还能以新的方式为他们服务。

概述

Dask 的用途大致可分为以下两类

  1. 使用 Dask ArrayDask DataFrameDask Bag 处理大型 NumPy/Pandas/列表,以便用熟悉的技术分析大型数据集。这类似于数据库、Spark 或大型数组库。

  2. 自定义任务调度。您提交一个相互依赖的函数图,用于自定义工作负载。这类似于 LuigiAirflowCeleryMakefiles

如今,大多数人接触 Dask 时,都将其视为一个类似于 Spark 的框架,专为处理大量形状统一的数据的第一类用例而设计。然而,许多更高效和新颖的用例属于第二类,即使用 Dask 来并行化自定义工作流。

在上述实际应用中,我们看到人们最终会同时使用 Dask 的两类功能来取得新颖的成果。

贡献

如果您使用 Dask 解决了有趣的问题,我们希望您分享您的故事。听取像您这样的经验丰富的用户的分享,可以帮助新用户快速找到 Dask 及周边生态系统中对他们可能有价值的部分。

故事以拉取请求(pull requests)的形式收集到 github.com/dask/dask-stories。您可能希望阅读上面的一些故事,以了解典型的信息量。仓库中有一个包含建议的模板,但您也可以用不同的方式组织您的故事。