发布时间:2019-08-02 09:18:38
五十个特征不算多。
如果要进行特征选择,决策树自带特征选择的功能,使用的是信息增益,也可以是信息增益率,gini系数。把决策树建立的原理搞明白就懂了,如果需要进行选择,则使用前n个特征或者百分比或者信息增益阈值或者限定树的高度等,目的就是为了防止过拟合与提高效率,其实防止过拟合可以使用随机森林(Random Forest)。
顺便说一下,其它的特征选择方法:
卡方检验Chi-square
2. 信息增益(IG,Information Gain)
3. 信息增益率(IGR)
4. 基尼系数
5. 相关系数
等等。。。
具体原理,google吧