python中的sklearn中如何实现rocchio算法

发布时间：2019-08-06 11:34:50

python中的sklearn模块中如何实现rocchio算法进行文本分类。

推荐回答

要弄清楚这个问题，首先要弄懂决策树三大流行算法ID3、C4.5和CART的原理，以及sklearn框架下DecisionTreeClassifier的帮助文档。

3个算法的主要区别在于度量信息方法、选择节点特征还有分支数量的不同。

ID3，采用熵（entropy）来度量信息不确定度，选择“信息增益”最大的作为节点特征，它是多叉树，即一个节点可以有多个分支。

C4.5，同样采用熵（entropy）来度量信息不确定度，选择“信息增益比”最大的作为节点特征，同样是多叉树，即一个节点可以有多个分支。

CART，采用基尼指数（Gini index）来度量信息不纯度，选择基尼指数最小的作为节点特征，它是二叉树，即一个节点只分两支。

然后你认真阅读sklearn的DecisionTreeClassifier的帮助文档，可以发现，度量信息的方法默认是Gini，但可以改成entropy，请按需选择；构建的树是二叉树；可以通过设置max_deepth、max_leaf等来实现“剪枝”，这是根据CART的损失函数减少的理论进行的。

所以总结说，如果信息度量方法按照默认的设置，那么sklearn所用的决策树分类器就是CART，如果改成了entropy，那么只是使用了别的度量方法而已。其实两者差不多。

以上问题属网友观点，不代表本站立场，仅供参考！