Random forest

2025年9月24日

10:58

树模型很容易过拟合，具有高方差的特点，那么我通过bootstrap自助采样得到多个子数据集，用多个子数据集分别训练树模型，然后进行平均或投票，就可以降低整个模型的方差了，这就是随机森林的思想。

除了对行采样，为了保证每棵树和其他树的区别性，还对特征列进行采样，使得每棵树更加的unique。

所以，理论上，RF中每棵树需要是学习能力强一点的树，因为RF中的集成是降低模型的方差，无法影响模型的偏差，那么要想减少偏差，就得让每棵树的拟合能力强一些（比如深度大一些）。

而GBDT中每棵树需要是弱学习器，因为如果是强学习器，那么每次沿梯度方向更新的步子就迈得大，即使学习率设置地比较小。