过滤法总结
常用的基于过滤法的特征选择,包括方差过滤,基于卡方,F检验和互信息的相关性过滤 , 先使用方差过滤,然后使用互信息法来捕捉相关性,不过了解各种各样的过滤方式也是必要的。
类 | 说明 | 超参数的选择 |
---|---|---|
VarianceThreshold | 方差过滤,可输入方差阈值,返回方差大于 阈值的新特征矩阵 | 看具体数据究竟是含有更多噪 声还是更多有效特征 一般就使用0或1来筛选 也可以画学习曲线或取中位数 跑模型来帮助确认 |
SelectKBest | 用来选取K个统计量结果最佳的特征,生成 符合统计量要求的新特征矩阵 | 看配合使用的统计量 |
chi2 | 卡方检验,专用于分类算法,捕捉相关性 | 追求p小于显著性水平的特征 |
f_classif | F检验分类,只能捕捉线性相关性 要求数据服从正态分布 | 追求p小于显著性水平的特征 |
f_regression | F检验回归,只能捕捉线性相关性 要求数据服从正态分布 | 追求p小于显著性水平的特征 |
mutual_info_classif | 互信息分类,可以捕捉任何相关性 不能用于稀疏矩阵 | 追求互信息估计大于0的特征 |
mutual_info_regression | 互信息回归,可以捕捉任何相关性 不能用于稀疏矩阵 | 追求互信息估计大于0的特征 |