本文介绍了在 Azure Databricks 上进行探索性数据分析(EDA)所用的工具和技术。
什么是EDA,它为什么有用?
探索性数据分析(EDA)包括用于探索数据集的方法,以总结其主要特征并识别数据中存在的任何问题。 使用统计方法和可视化手段,你可以了解一个数据集以确定其是否适合分析,并决定应用何种技术进行数据准备。 EDA 还可以影响您选择哪些算法来训练机器学习模型。
Azure Databricks 中有哪些 EDA 工具?
Azure Databricks 在 Databricks SQL 和 Databricks Runtime 中均提供内置的分析和可视化工具。 若要查看 Azure Databricks 中可用可视化类型的图示列表,请参阅可视化类型。
Databricks SQL 中的 EDA
以下是一些关于Databricks SQL中数据可视化和探索工具的有用文章:
Databricks Runtime 中的 EDA
Databricks Runtime 提供了一个预构建的环境,其中已经安装了流行的数据探索库。 可以在发行说明中查看内置库的列表。
此外,以下文章展示了 Databricks Runtime 中可视化工具的示例。
在Databricks的Python笔记本中,您可以结合使用SQL和Python来探索数据。 当您在 Python 笔记本中运行 SQL 语言单元格中的代码时,表格结果会自动作为 Python 数据框可用。 详细信息,请参见在Python笔记本中探索SQL单元格结果。