本文摘抄自两篇文章:

通常, 归一化、标准化都是特征工程中的特征缩放过程,但它们作用的目的和结果有差异:归一化将保留原始数据分布,而标准化将数据变换为均值为 0,标准差为 1 的某一分布。

特征缩放 一般的目的:

  • 使不同量纲的特征处于同一数值量级,减少方差大的特征的影响,使模型更准确。

  • 加快学习算法的收敛速度。

归一化、标准化 的区别:

  • 标准化 (Standardisation):将数据变换为【均值为0,标准差为1的 分布】,但并非一定是正态分布。

  • 归一化 (Normalisation):【保留原始数据分布】,并将一列数据变化到某个固定区间 (范围) 中,通常,这个区间是 [0, 1,广义的讲,也可以是各种区间,比如映射到 [0, 1] 一样可以继续映射到其他范围,图像中可能会映射到 [0,255],其他情况也可能映射到 [-1,1];

在 scilearn-kit 中,有 4 种基本的归一化、标准化方法:

  1. 缩放到均值为0,方差为1(Standardization——StandardScaler())

  2. 缩放到0和1之间(Standardization——MinMaxScaler())

  3. 缩放到-1和1之间(Standardization——MaxAbsScaler())

  4. 缩放到0和1之间,保留原始数据的分布(Normalization——Normalizer())