数据预处理的 10 个小技能，附 Pandas 实现

Python与算法社区

共 782字，需浏览 2分钟

· 2020-11-29

Python与算法社区

第442篇原创，干货满满

值得星标

三步加星标

你好，我是 zhenguo

数据预处理常用的处理步骤，包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等，下面使用 pandas 解决这些最常见的预处理任务。

找出异常值常用两种方法：

标准差法：异常值平均值上下1.96个标准差区间以外的值
分位数法：小于 1/4分位数减去 1/4和3/4分位数差的1.5倍，大于3/4减去 1/4和3/4分位数差的1.5倍，都为异常值

技能1 ：标准差法

import pandas as pd

df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})

# 异常值平均值上下1.96个标准差区间以外的值
meangrade = df['a'].mean()
stdgrade = df['a'].std()
toprange = meangrade + stdgrade * 1.96
botrange = meangrade - stdgrade * 1.96

# 过滤区间外的值
copydf = df
copydf = copydf.drop(copydf[copydf['a']
        > toprange].index)
copydf = copydf.drop(copydf[copydf['a']
        < botrange].index)
copydf

技能2：分位数法：

q1 = df['a'].quantile(.25)
q3 = df['a'].quantile(.75)
iqr = q3-q1
toprange = q3 + iqr * 1.5
botrange = q1 - iqr * 1.5

copydf = df
copydf = copydf.drop(copydf[copydf['a']
        > toprange].index)
copydf = copydf.drop(copydf[copydf['a']
        < botrange].index)
copydf

技能3：处理空值

np.nan 是 pandas 中常见空值，使用 dropna 过滤空值，axis 0 表示按照行，1 表示按列，how 默认为 any ，意思是只要有一个 nan 就过滤某行或某列，all 所有都为 nan

# axis 0 表示按照行，all 此行所有值都为 nan
df.dropna(axis=0, how='all')

技能4：充填空值

空值一般使用某个统计值填充，如平均数、众数、中位数等，使用函数 fillna:

# 使用a列平均数填充列的空值，inplace true表示就地填充
df["a"].fillna(df["a"].mean(), inplace=True)

技能5：修复不合适值

假如某门课最高分100，如果出现 -2， 120 这样的值，显然不合理，使用布尔类型的Series对象修改数值：

df.loc[(df['a'] < -2,'a')] = 0
df.loc[(df['a'] >= 100,'a')] = 100

技能6：过滤重复值

过滤某列重复值，使用 drop_duplicated 方法，第一个参数为列名，keep关键字等于last：最后一次出现此值行：

df.drop_duplicates(['Names'], keep='last')

技能7：apply 元素级：去掉特殊字符

某列单元格含有特殊字符，如标点符号，使用元素级操作方法 apply 干掉它们：

import string
exclude = set(string.punctuation)

def remove_punctuation(x):
    x = ''.join(ch for ch in x if ch not in exclude)
    return x
# 原df
Out[26]: 
      a       b
0   c,d  edc.rc
1     3       3
2  d ef       4

# 过滤a列标点
In [27]: df.a = df.a.apply(remove_punctuation) 
In [28]: df                
Out[28]: 
      a       b
0    cd  edc.rc
1     3       3
2  d ef       4

技能8：cut 数据分箱

将百分制分数转为A,B,C,D四个等级，bins 被分为 [0,60,75,90,100]，labels 等于['D', 'C', 'B', 'A']：

# 生成20个[0,100]的随机整数
In [30]: a = np.random.randint(1,100,20)                   
In [31]: a                                    
Out[31]: 
array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31,  5, 46, 98,99, 60, 43])

# cut分箱
In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])             
Out[33]: 
[D, D, D, B, D, ..., D, A, A, D, D]
Length: 20
Categories (4, object): [D < C < B < A]

技能9：rank 排名

rank 方法，生成数值排名，ascending 为False，分值越大，排名越靠前：

In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} )) 
In [53]: df['a'].rank(ascending=False)                   
Out[53]: 
0    4.0
1    2.0
2    1.0
3    3.0
4    5.0

技能10：category列转数值

某列取值只可能为有限个枚举值，往往需要转为数值，使用get_dummies，或自己定义函数：

pd.get_dummies(df['a'])

自定义函数，结合 apply:

def c2n(x):
    if x=='A':
        return 95
    if x=='B':
        return 80

df['a'].apply(c2n)

以上结合数据预处理的十个小任务，分别找到对应pandas中的实现。

更多相关知识推荐《pandas数据分析》一书的相关章节，需要的微信我，备注：分析

不必打赏

给我点个赞

就心满意足了

长按下方二维码加入 zhenguo 星球，获取刷题笔记、打卡、优质学习资源等。

图片

表情

【第129期】程序员的新宠：三款终端工具，让你告别Xshell！

概述 WindTerm：跨平台的SSH利器首先介绍的是WindTerm，这是一款使用C语言开发的跨平台SSH客户端。它不仅完全免费，而且没有商业使用的限制。WindTerm支持SSH v2、Telnet、Raw Tcp等协议，而且性能出色，甚至超过了FinalShell和Electerm。功能

前端微服务

上班的时候，有一群摸鱼搭子非常重要...

上班的时候，有一群摸鱼搭子非常重要！一到上班时间，他们就从四面八方涌进群里冒泡...从八卦聊到股市、从职场聊到乌X兰局势，偶尔还会复读、相亲、battle...然后，下午6点钟准时消失不见...所以你要不要加入我们一起摸鱼？我们有北京、上海、深圳、广州、杭州、武汉、成都、南京等8个城市的摸鱼群，还有

产品经理日记

周四002 瑞超：同样落寞的境遇——北雪平vs埃尔夫斯堡

上赛季最终排名联赛第9的北雪平本赛季伊始表现不佳，4轮战罢他们仅以1胜1平2负的战绩排在倒数第三，这支历史上曾夺得13次联赛冠军、6次杯赛冠军老牌劲旅，正如英格兰赛场上的一众百年俱乐部，在低谷中不断探索着出路。球队主教练安德烈亚斯·阿尔姆曾是AIK索尔纳及赫根队的主教练，他于今年年初刚刚拿起球队教鞭

产品与体验

日本影山优佳最新杂志照，展现充满透明感的美丽

今天的图文分享的是影山优佳的杂志写真。元日向坂46的影山优佳，登上了写真杂志《周刊FLASH》5/7和‬5/14合并号的封面。影山优佳是日本艺人、女演员、前偶像。身高155厘米。2001年‬5月‬8日‬出生‬于‬东京都。2023年7月从组合日向坂46毕业，之后作为演员活跃的影山优佳，在《周刊FLAS

python教程

盘点一个使用超级鹰识别验证码并自动登录的案例

点击上方“Python共享之家”，进行关注回复“资源”即可获赠Python学习资料今日鸡汤江上几人在，天涯孤棹还。大家好，我是皮皮。一、前言前几天在Python钻石交流群【静惜】问了一个Python实现识别验证码并自动登录的问题，提问截图如下：验证码的截图如下所示：二、实现过程这里大家激烈的探讨，【

面试题大全：www.javacn.site面试这件事就很玄学，有时候你觉得他可能很难，但面完之后竟然出奇的顺利，问的问题你都会；有些你觉得这次面试应该很简单，但去了之后就被问懵了，所以面试这件事有很多一部分运气的成分。所以说，在没有 Offer 之前就是多准备、楞怂面，主打一个大力出奇迹。这不，逛牛

Java中文社群

Eiten 一个构建投资组合的好帮手

Eiten是Tradytics的一个开源工具包，它实现了各种统计和算法投资策略，如Eigen组合、最小方差组合、最大夏普比率组合和基于遗传算法的组合。Eiten允许你用自己的股票组合建立自己的投资组合。Eiten中自带的严格测试框架使你能够对你的投资组合更有自信。1.准备开始之前，你要确保Pytho

Python实用宝典

奇域AI，最懂新中式美学的AI绘画神器

「奇域AI」是一款非常适合驾驭新中式审美的AI绘画工具。作为国内首个主打新中式插画的AI绘画产品，它提供了上百种新中式美学风格模型，包括新中式插画、笔墨水彩、新铅油画等，为用户提供了丰富的选择。这款工具在「网页版」和「小程序」上都可以使用，只需输入你想要的画面，就能生成出符合新中式审美的作品。奇域A

IQ前端

delorean，一个超级实用的 Python 库！

作者通常周更，为了不错过更新，请点击上方“Python碎片”，“星标”公众号大家好，今天为大家分享一个超级实用的 Python 库 - delorean。Github地址：https://github.com/myusuf3/delorean/时间在计算机科学和软件开发中是一个至关重要的概念。Pyt

Python 碎片