做数据处理，你连 fit、transform、fit_transform 都分不清？-技术圈

公众号后台回复“图书“，了解更多号主新书内容

作者：小一

来源：小一的学习笔记

fit、transform 是什么？

MinMaxScaler 的 fit 函数的官方定义：

Compute the minimum and maximum to be used for later scaling.

翻译一下：计算用于进行特征缩放的最大值、最小值

也就是说，通过 fit 函数可以先对需要归一化的数据集进行最大、最小值的计算，至于说最终归一化的结果是多少，对不起，fit 函数到此为止了。

所以，在 MinMaxScaler 的 fit 之后可以查看数据集中的最大、最小值

通过如下代码：

import numpy as np
from sklearn.preprocessing import MinMaxScaler

# 创建数组
data_rn = np.random.randint(-10, 10, 10).reshape(5, 2)
print(data_rn)
# 进行标准归一化
scaler_mmc = MinMaxScaler()
scaler_mmc_fit = scaler_mmc.fit(data_rn)
print(scaler_mmc_fit.data_min_)  # 最小值
print(scaler_mmc_fit.data_max_)  # 最大值
print(scaler_mmc_fit.data_range_) # 极差

"""输出"""
[[ 4 -5]
 [-5  2]
 [-5 -4]
 [-2 -8]
 [-6  3]]
# 最小值
[-6. -8.]
# 最大值
[4. 3.]
# 极差
[10. 11.]

StandardScaler 的 fit 函数的官方定义：

Compute the mean and std to be used for later scaling.

翻译一下：计算用于进行特征缩放的均值、标准差

同样的，使用 fit 函数也可以对需要标准化的数据集进行均值、标准差的计算

相应的函数方法如下：

import numpy as np
from sklearn.preprocessing import StandardScaler

scaler_ss = StandardScaler()
scaler_ss_fit = scaler_ss.fit(data_rn)
print(scaler_ss_fit.mean_) # 均值
print(scaler_ss_fit.var_) # 方差

"""输出"""
# 均值
[-2.8 -2.4]
# 方差
[13.36 17.84]

总结一下 fit 的用法：

简单来说，就是求得数据集的均值、方差、最大值、最小值等固有的属性，经常和 transform 搭配使用

从算法模型的角度上讲，fit 过程可以理解为一个训练过程。

再来说说 transform 函数。

同样的先来看看官方对于 transform 函数的定义：

MinMaxScaler：Scale features of X according to feature_range.
StandardScaler：Perform standardization by centering and scaling

翻译一下：

MinMaxScaler：根据 feature_range 进行 X 的缩放
StandardScaler：通过居中和缩放执行标准化

也就是说，其实 transform 才是真正做归一化和标准化的函数，fit 函数只是做了前面的准备工作。

从算法模型的角度上讲，transform 过程可以理解为一个转换过程。

用法也很简单，对前面 fit 过的数据集直接进行操作即可

# 归一化
scaler_mmc_result = scaler_mmc.transform(data_rn)
# 标准化
scaler_ss_result = scaler_ss.transform(data_rn)

最终的结果和直接进行 fit_transform 的结果一致。即：

fit + transform = fit_transform

即 fit_transform 是 fit 和 transform 的组合，整个过程既包括了训练又包含了转换

fit_transform 对数据先拟合 fit，找到数据的整体指标，如均值、方差、最大值最小值等，然后对数据集进行转换transform，从而实现数据的标准化、归一化操作。

项目中使用技巧

了解了 fit、transform 的用法之后，可以再来学习下在项目中使用的小技巧。

项目的数据集一般都会分为 训练集和测试集，训练集用来训练模型，测试集用来验证模型效果。

要想训练的模型在测试集上也能取得很好的得分，不但需要保证训练集数据和测试集数据分布相同，还必须保证对它们进行同样的数据预处理操作。比如：标准化和归一化。

所以一般对于数据集处理上，会直接对训练集进行 拟合+转换，然后直接对测试集 进行转换。

注意了，是用训练集进行拟合，然后对训练集、测试集都用拟合好的”模型“进行转换，一定要明白这个逻辑！！

并不是真正的模型，所以带了引号

写成代码就是这样子：

from sklearn.preprocessing import StandardScaler

scaler_ss = StandardScaler()
# 训练接操作
new_train_x = scaler_ss.fit_transform(train_x)
# 测试集操作
new_test_x = scaler_ss.tranform(test_x)

一定要注意，一定要注意，一定要注意：

不能对训练集和测试集都使用 fit_transform，虽然这样对测试集也能正常转换（归一化或标准化），但是两个结果不是在同一个标准下的，具有明显差异。

总结一下

首先，如果要想在 fit_transform 的过程中查看数据的分布，可以通过分解动作先 fit 再 transform，fit 后的结果就包含了数据的分布情况

如果不关心数据分布只关心最终的结果可以直接使用 fit_transform 一步到位。

其次，在项目上对训练数据和测试数据需要使用同样的标准进行转换，切记不可分别进行 fit_transform.

◆ ◆ ◆  ◆ ◆
麟哥新书已经在当当上架了，我写了本书：《拿下Offer-数据分析师求职面试指南》，目前当当正在举行100-50活动，大家可以用相当于原价5折的预购价格购买，还是非常划算的：



数据森麟公众号的交流群已经建立，许多小伙伴已经加入其中，感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容，还没有加入的小伙伴可以扫描下方管理员二维码，进群前一定要关注公众号奥，关注后让管理员帮忙拉进群，期待大家的加入。

管理员二维码：
猜你喜欢

● 卧槽！原来爬取B站弹幕这么简单
● 厉害了！麟哥新书登顶京东销量排行榜！
● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主！
● 你相信逛B站也能学编程吗