Python自动探索性数据分析的10个神奇库-山海云端论坛

D-Tale D-Tale使用Flask作为后端、React前端，并且可以与ipython notebook和终端无缝集成。它支持Pandas的DataFrame、Series、MultiIndex、DatetimeIndex和RangeIndex。

<code>import dtale import pandas as pd # 使用D-Tale展示数据 dtale.show(pd.read_csv("titanic.csv"))</code>

D-Tale库能够生成包含数据集、相关性、图表和热图等总体总结的报告，报告中的图表可进行交互操作。

Pandas-Profiling Pandas-Profiling可以为Pandas DataFrame生成概要报告。它扩展了pandas DataFrame的功能，并且在大型数据集上表现良好，能够在几秒钟内创建报告。

<code>import pandas as pd from pandas_profiling import ProfileReport # 使用Pandas-Profiling进行数据探索性分析 profile = ProfileReport(pd.read_csv('titanic.csv'), explorative=True) # 将结果保存为HTML文件 profile.to_file("output.html")</code>

Sweetviz Sweetviz是一个开源的Python库，只需两行代码即可生成漂亮的可视化图，并将EDA作为一个HTML应用程序启动。它能够快速生成有关数据集、相关性、分类和数字特征关联等方面的总体总结。

<code>import pandas as pd import sweetviz as sv # 使用Sweetviz进行数据探索性分析 sweet_report = sv.analyze(pd.read_csv("titanic.csv")) # 将结果保存为HTML文件 sweet_report.show_html('sweet_report.html')</code>

AutoViz AutoViz包可以自动可视化任何大小的数据集，并自动生成HTML、bokeh等报告。用户可以与AutoViz生成的HTML报告进行交互。

<code>import pandas as pd from autoviz.AutoViz_Class import AutoViz_Class # 使用AutoViz进行数据探索性分析 autoviz = AutoViz_Class().AutoViz('train.csv')</code>

Dataprep Dataprep是一个用于分析、准备和处理数据的开源Python包。它构建在Pandas和Dask DataFrame之上，可以轻松地与其他Python库集成。Dataprep在几秒钟内就能为Pandas/Dask DataFrame生成报告。

<code>from dataprep.datasets import load_dataset from dataprep.eda import create_report df = load_dataset("titanic.csv") create_report(df).show_browser()</code>

Klib klib是一个用于导入、清理、分析和预处理数据的Python库。

<code>import klib import pandas as pd df = pd.read_csv('DATASET.csv') klib.missingval_plot(df) klib.corr_plot(df_cleaned, annot=False) klib.dist_plot(df_cleaned['Win_Prob']) klib.cat_plot(df, figsize=(50,15))</code>

Dabl Dabl通过可视化提供快速概述，方便的机器学习预处理和模型搜索。Plot()函数可以绘制各种图来实现可视化。

<code>import pandas as pd import dabl df = pd.read_csv("titanic.csv") dabl.plot(df, target_col="Survived")</code>

Speedml SpeedML是用于快速启动机器学习管道的Python包。它整合了一些常用的ML包，包括Pandas、Numpy、Sklearn、Xgboost和Matplotlib。

<code>from speedml import Speedml sml = Speedml('../input/train.csv', '../input/test.csv', target='Survived', uid='PassengerId') sml.train.head() sml.plot.correlate() sml.plot.distribute() sml.plot.ordinal('Parch') sml.plot.ordinal('SibSp') sml.plot.continuous('Age')</code>

DataTile DataTile是一个开源的Python软件包，用于管理、汇总和可视化数据。它基本上是Pandas DataFrame describe()函数的扩展。

<code>import pandas as pd from datatile.summary.df import DataFrameSummary df = pd.read_csv('titanic.csv') dfs = DataFrameSummary(df) dfs.summary()</code>

edaviz edaviz是一个在Jupyter Notebook和Jupyter Lab中进行数据探索和可视化的Python库。

<code>import edaviz # 使用edaviz进行数据探索和可视化</code>

总结：这些Python自动探索性数据分析库可以在几行代码中生成数据摘要并进行可视化。通过自动化的工作，可以节省大量时间。每个库都有其特定的优势和用途，选择适合自己需求的库进行数据分析。

版权声明 1 本网站名称：山海云端-专注于PHP与网络安全
2 本站永久网址：www.shserve.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ1790643379进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

Python自动探索性数据分析的10个神奇库

请登录后发表评论