机器学习实战3-随机森林算法

有时候方向比努力更重要！ / 2023-08-11 / 原文

概述

集成算法概述

对于随机森林这个集成算法来说，它的基评估器就是决策树，决策树长成的森林就是随机森林也就是集成评估器。

sklearn中的集成算法模块

sklearn中的集成算法模块是ensemble，写法：sklearn.ensemble

RandomForestClassifier

随机森林是非常具有代表性的Bagging集成算法，它的所有基评估器都是决策树，分类树组成的随机森林就叫做随机森林的分类器，回归树所集成的森林就叫随机森林回归器

重要参数

控制基评估器的参数

n_estimators

这时森林中树木的数量，就是基评估器的数量，这个参数对随机森林模型的精确性影响是单调的n_estimators越大，模型的结果往往越好，但是相应的任何模型都有决策边界，当n_estimators达到一定的数值之后，随机森林的精确性就不会再提升了

sklearn建模流程复习

#实例化
#训练集带入实例化后的模型去训练，使用的接口是fit
#使用其他接口将测试集导入我们训练好的模型去获取我希望获取的结果（score， Ytest是我们预测出来的标签）

sklearn中所有的属性和标签是分开导入的

# 实例化
clf = DecisionTreeClassifier(random_state=0)
rfc = RandomForestClassifier(random_state=0)
# 训练
clf = clf.fit(Xtrain, Ytrain)
rfc = rfc.fit(Xtrain, Ytrain)

score_c = clf.score(Xtest, Ytest)
score_r = rfc.score(Xtest, Ytest)
print(f"Single Tree score:{score_c}")
print(f"RandomForest score:{score_r}")

交叉验证

# 交叉验证
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
rfc = RandomForestClassifier(n_estimators=25)
rfc_s = cross_val_score(rfc, wine.data, wine.target, cv = 10)
clf = DecisionTreeClassifier()
clf_s = cross_val_score(clf, wine.data, wine.target, cv = 10)
plt.plot(range(1, 11), rfc_s, label="随机森林", color = 'red')
plt.plot(range(1, 11), clf_s, label="决策树", color = 'blue')
plt.legend()
plt.show()

这里在画图的时候也是出现了一点小插曲，我们matplotlib不能直接在图中出现中文，这里可以下载中文字体百度解决

我们进行10次交叉验证，观察随机森林和决策树的效果

rfc_l = []
clf_l = []

for i in range(10):
    rfc = RandomForestClassifier(n_estimators=25)
    rfc_s = cross_val_score(rfc, wine.data, wine.target, cv=10).mean()
    rfc_l.append(rfc_s)
    
    clf = DecisionTreeClassifier()
    clf_s = cross_val_score(clf, wine.data, wine.target, cv=10).mean()
    clf_l.append(clf_s)

plt.plot(range(1, 11), rfc_l, color = 'red', label = "随机森林")
plt.plot(range(1, 11), clf_l, color = 'green', label = "决策树")
plt.legend()
plt.show()

n_estimators学习曲线

superpa = []
for i in range(200):
    rfc = RandomForestClassifier(n_estimators=i+1, n_jobs=-1)
    rfc_s = cross_val_score(rfc, wine.data, wine.target, cv=10).mean()
    superpa.append(rfc_s)
print(max(superpa), superpa.index(max(superpa)))
plt.figure(figsize=[20, 5])
plt.plot(range(1,201), superpa)
plt.show()

可以从学习曲线中看到，在前期随机森林的精确度随n_estimators的增大而增大，后面随n_estimators的增大上下波动