数据归一化方法的本质是一种对数据进行线性转换的方法,通过构建一种样本空间之间的线性映射关系来进行数据数值的转化,这种转化并不会影响数据分布,即不会影响数据的内在规律,只是对数据的数值进行调整。数据归一化有很多方法,并且在机器学习领域有诸多用途,不仅是能够作为梯度下降的优化算法,同时还能帮助一些数据集避免量纲不一致等问题。
经典机器学习领域的数据归一化算法主要有两种,分别是0-1标准化(Max-Min Normalization)和Z-Score标准化。我们先讨论归一化基本流程,再探讨归一化对机器学习算法在各方面的影响。
关于归一化和标准化的概念辨析
一般来说,归一化和标准化都是指对数据进行数值转化,根据维基百科的解释,都是Feature scaling(特征缩放)的方法,并且都可以称为normalization。但某些场景下也会有不同的称呼,例如将0-1标准化称为normalization,也就是归一化,而把Z-Score标准化称为Standardization,即标准化。课上对二者概念不做具体区分。
1数据归一化计算公式
11 0-1标准化
0-1标准化是最简单同时也是最常用的标准化方法。该方法通过在输入特征中逐列遍历其中里的每一个数据,将Max和Min的记录下来,并通过Max-Min作为基数(即Min=0,Max=1)进行数据的归一化处理,基本公式为: