Random forest
2025年9月24日
10:58
树模型很容易过拟合,具有高方差的特点,那么我通过bootstrap自助采样得到多个子数据集,用多个子数据集分别训练树模型,然后进行平均或投票,就可以降低整个模型的方差了,这就是随机森林的思想。
除了对行采样,为了保证每棵树和其他树的区别性,还对特征列进行采样,使得每棵树更加的unique。
所以,理论上,RF中每棵树需要是学习能力强一点的树,因为RF中的集成是降低模型的方差,无法影响模型的偏差,那么要想减少偏差,就得让每棵树的拟合能力强一些(比如深度大一些)。
而GBDT中每棵树需要是弱学习器 ,因为如果是强学习器,那么每次沿梯度方向更新的步子就迈得大,即使学习率设置地比较小。
已使用 OneNote 创建。