随机森林importance在多少以上证明变量可用
推荐回答
随机森林是一种集成分类器,对影响随机森林性能的参数进行了分析,结果表明随机森林中树的数量对随机森林的性能影响至关重要。对树的数量的确定方法以及随机森林性能指标的评价方法进行了研究与总结。以分类精度为评价方法,利用UCI数据集对随机森林中决策树的数量与数据集的关系进行了实验分析,实验结果表明对于多数数据集,当树的数量为100时,就可以使分类精度达到要求。将随机森林和分类性能优越的支持向量机在精度方面进行了对比,实验结果表明随机森林的分类性能可以与支持向量机相媲美。R文件内容:library(randomForest)## 训练pos<-read.table("lncrna3k.pwm",header=T);rownames(pos)<-pos[,1]pos[,1]<-NULLneg<-read.table("cds3k.pwm",header=T);rownames(neg)<-neg[,1]neg[,1]<-NULLtest<-rbind(pos,neg)tY<-c(rep(1,dim(pos)[1]),rep(0,dim(neg)[1]))tY<-as.factor(tY)rf <- randomForest(test,tY,ntree=5000, keep.forest=TRUE, importance=TRUE);TP<-rf$confusion[4];TN<-rf$confusion[1];FN<-rf$confusion[2];FP<-rf$confusion[3];sen<-TP/(TP+FN)spe<-TN/(TN+FP)ACC<-(TP+TN)/(TP+FN+TN+FP)mcc=(TN*TP-FN*FP)/((TP+FN)*(TN+FN)*(TN+FP)*(TP+FP))^(1/2)c(TP,FN,FP,TN,sen,spe,ACC,mcc)## 测试## 补充读数据rfPred <- predict(rf,test,type="vote",norm.votes=TRUE, predict.all=FALSE, proximity=FALSE, nodes=FALSE);