Python自动探索性数据分析的10个神奇库

  1. D-Tale D-Tale使用Flask作为后端、React前端,并且可以与ipython notebook和终端无缝集成。它支持Pandas的DataFrame、Series、MultiIndex、DatetimeIndex和RangeIndex。
图片[1]-Python自动探索性数据分析的10个神奇库-山海云端论坛
<code>import dtale import pandas as pd # 使用D-Tale展示数据 dtale.show(pd.read_csv("titanic.csv"))</code>

D-Tale库能够生成包含数据集、相关性、图表和热图等总体总结的报告,报告中的图表可进行交互操作。

  1. Pandas-Profiling Pandas-Profiling可以为Pandas DataFrame生成概要报告。它扩展了pandas DataFrame的功能,并且在大型数据集上表现良好,能够在几秒钟内创建报告。
图片[2]-Python自动探索性数据分析的10个神奇库-山海云端论坛
<code>import pandas as pd from pandas_profiling import ProfileReport # 使用Pandas-Profiling进行数据探索性分析 profile = ProfileReport(pd.read_csv('titanic.csv'), explorative=True) # 将结果保存为HTML文件 profile.to_file("output.html")</code>
  1. Sweetviz Sweetviz是一个开源的Python库,只需两行代码即可生成漂亮的可视化图,并将EDA作为一个HTML应用程序启动。它能够快速生成有关数据集、相关性、分类和数字特征关联等方面的总体总结。
图片[3]-Python自动探索性数据分析的10个神奇库-山海云端论坛
<code>import pandas as pd import sweetviz as sv # 使用Sweetviz进行数据探索性分析 sweet_report = sv.analyze(pd.read_csv("titanic.csv")) # 将结果保存为HTML文件 sweet_report.show_html('sweet_report.html')</code>
  1. AutoViz AutoViz包可以自动可视化任何大小的数据集,并自动生成HTML、bokeh等报告。用户可以与AutoViz生成的HTML报告进行交互。
<code>import pandas as pd from autoviz.AutoViz_Class import AutoViz_Class # 使用AutoViz进行数据探索性分析 autoviz = AutoViz_Class().AutoViz('train.csv')</code>
  1. Dataprep Dataprep是一个用于分析、准备和处理数据的开源Python包。它构建在Pandas和Dask DataFrame之上,可以轻松地与其他Python库集成。Dataprep在几秒钟内就能为Pandas/Dask DataFrame生成报告。
<code>from dataprep.datasets import load_dataset from dataprep.eda import create_report df = load_dataset("titanic.csv") create_report(df).show_browser()</code>
  1. Klib klib是一个用于导入、清理、分析和预处理数据的Python库。
<code>import klib import pandas as pd df = pd.read_csv('DATASET.csv') klib.missingval_plot(df) klib.corr_plot(df_cleaned, annot=False) klib.dist_plot(df_cleaned['Win_Prob']) klib.cat_plot(df, figsize=(50,15))</code>
  1. Dabl Dabl通过可视化提供快速概述,方便的机器学习预处理和模型搜索。Plot()函数可以绘制各种图来实现可视化。
<code>import pandas as pd import dabl df = pd.read_csv("titanic.csv") dabl.plot(df, target_col="Survived")</code>
  1. Speedml SpeedML是用于快速启动机器学习管道的Python包。它整合了一些常用的ML包,包括Pandas、Numpy、Sklearn、Xgboost和Matplotlib。
<code>from speedml import Speedml sml = Speedml('../input/train.csv', '../input/test.csv', target='Survived', uid='PassengerId') sml.train.head() sml.plot.correlate() sml.plot.distribute() sml.plot.ordinal('Parch') sml.plot.ordinal('SibSp') sml.plot.continuous('Age')</code>
  1. DataTile DataTile是一个开源的Python软件包,用于管理、汇总和可视化数据。它基本上是Pandas DataFrame describe()函数的扩展。
<code>import pandas as pd from datatile.summary.df import DataFrameSummary df = pd.read_csv('titanic.csv') dfs = DataFrameSummary(df) dfs.summary()</code>
  1. edaviz edaviz是一个在Jupyter Notebook和Jupyter Lab中进行数据探索和可视化的Python库。
<code>import edaviz # 使用edaviz进行数据探索和可视化</code>

总结:这些Python自动探索性数据分析库可以在几行代码中生成数据摘要并进行可视化。通过自动化的工作,可以节省大量时间。每个库都有其特定的优势和用途,选择适合自己需求的库进行数据分析。

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容