特征工程

数据预处理

无量纲化

无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如[0, 1]等。

连续特征离散化

类别特征独热编码

缺失值填充

特征选择

方差选择法

使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。

相关系数法

皮尔逊相关系数可以看成归一化的协方差矩阵,取值范围在[-1,1],因此可以计算各个特征对目标值的相关系数来选择最线性相关的特征(协方差反映了两个变量线性相关性)

卡方检验

经典的卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值,因变量有M种取值,考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距。
通俗来说,如果“篮球”和“体育”无关,那么“篮球”在“体育”文章中出现的概率应该与“篮球”在所有文章中出现的概率相等。

互信息法

经典的互信息也是评价定性自变量对定性因变量的相关性的,互信息计算公式如下:
joey

参考

知乎-特征工程是什么?