首页 文章详情

Pandas数据分析小技巧系列 第三集

数据森麟 | 354 2020-12-15 11:23 0 0 0
UniSMS (合一短信)

公众号后台回复“图书“,了解更多号主新书内容

 作者:zhenguo

 来源:Python与算法社区

今天是 Pandas数据分析小技巧系列 第三集,涉及如何获取数据最多的3个分类,以及如何使用count统计词条出现次数。

小技巧 10:如何快速拿到数据最多的 3 个分类?

读入数据:

df = pd.read_csv("IMDB-Movie-Data.csv")
df

1000 行数据,genre 取值的频次统计如下:

vc = df["genre"].value_counts()
vc

打印结果:

Action,Adventure,Sci-Fi       50
Drama                         48
Comedy,Drama,Romance          35
Comedy                        32
Drama,Romance                 31
                              ..
Adventure,Comedy,Fantasy       1
Biography,History,Thriller     1
Action,Horror                  1
Mystery,Thriller,Western       1
Animation,Fantasy              1
Name: genre, Length: 207, dtype: int64

筛选出 top3 的 index:

top_genre = vc[0:3].index
print(top_genre)

打印结果:

Index(['Action,Adventure,Sci-Fi''Drama', \
       'Comedy,Drama,Romance'], dtype='object')

使用得到的 top3 的 index ,结合 isin,选择出相应的 df

df_top = df[df["genre"].isin(top_genre)]
df_top

结果:

小技巧11:如何使用 count 统计词条出现次数?

读入 IMDB-Movie-Data 数据集,1000行数据:

df = pd.read_csv("../input/imdb-data/IMDB-Movie-Data.csv")
df['Title']

打印 Title 列:

0      Guardians of the Galaxy
1                   Prometheus
2                        Split
3                         Sing
4                Suicide Squad
                ...
995       Secret in Their Eyes
996            Hostel: Part II
997     Step Up 2: The Streets
998               Search Party
999                 Nine Lives
Name: Title, Length: 1000, dtype: object

标题是由几个单词组成,用空格分隔。

df["words_count"] = df["Title"].str.count(" ") + 1
df[["Title","words_count"]]


◆ ◆ ◆  ◆ 


麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行双12活动,大家可以用相原价5折的价格购买,还是非常划算的:




数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。


管理员二维码:

猜你喜欢

 卧槽!原来爬取B站弹幕这么简单

 厉害了!麟哥新书登顶京东销量排行榜!

 笑死人不偿命的知乎沙雕问题排行榜

 用Python扒出B站那些“惊为天人”的阿婆主!

 你相信逛B站也能学编程吗


good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter