【Python】Autoviz: 一行代码搞定数据集探索并可视化

机器学习初学者

共 1362字,需浏览 3分钟

 · 2021-10-09


数据集各个特征有什么变化趋势、各个特征之间有何关系,我们可以借助Matplotlib、Seaborn等诸多工具来可视化展示,那么有没有一种工具能一次展示所有的关系了?

本文要介绍的Python工具Autoviz,一行代码即可完成对数据集所有关系的探索 (Exploratory Data Analysis,EDA)。

安装

pip install autoviz

一行代码搞定数据探索

本次以探索鸢尾花 (iris)数据集为例子,数据集详细介绍👉👉鸢尾花数据集详细介绍,大概是这样autoviz使用,

from autoviz.AutoViz_Class import AutoViz_Class

#AutoViz实例化
AV = AutoViz_Class()

#一行代码实现数据探索
dft = AV.AutoViz(
    filename='/Users/xmy/Desktop/jobs/py/iris.csv',  #读入数据集,注意和dfte的区别
    sep=",",  #设置数据集分隔符,默认为逗号
    depVar="species",  #设置因变量
    dfte=None,  #传入一个pandas.DataFrame,如果filename已设置,此处为None,反之亦然
    header=0,
    verbose=0,  #可选0, 1或者2,设置图形的保存形式
    lowess=False,  #是否启用lowess回归,适合小数据量数据集,100,000行以上数据不建议用
    chart_format="svg",  #设置图形保存格式
    max_rows_analyzed=150000,  #设置数据集待分析的行数
    max_cols_analyzed=30,  #设置数据集待分析的列数
)

结果输出一部分为Dataset的简单介绍结果输出另一部分为大量可视化图表, 以上整个过程仅仅需要4.226秒

No categorical or boolean vars in data set. Hence no pivot plots...
No categorical or numeric vars in data set. Hence no bar charts.
Time to run AutoViz \(in seconds\) = 4.226

###################### VISUALIZATION Completed ########################

参考:https://github.com/AutoViML/AutoViz


-END-

往期精彩回顾




本站qq群851320808,加入微信群请扫码:
浏览 66
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报