文章目录
0. 前言1. 随机森林算法如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
0. 前言
Bagging:对数据集进行有放回采样,采mmm次构成一个新的数据集,基于这个数据集训练基学习器,如此重复采样并训练直到达到指定学习器数目,将这些学习器集成
Bagging主要关注降低方差,因此在易受样本扰动的学习器(决策树、神经网络)上效果更佳。
随机森林是Bagging的扩展变体。
1. 随机森林算法
随机森林以决策树为基学习器,在引入Bagging随机数据集的同时引入随机属性集。
具体来说,每次划分节点的时候,先从该节点中候选属性中随机选择一个包含kkk个属性的属性子集,然后再从这个子集中选择最优属性作为划分。一般情况下,k=log2dk=\log_2dk=log2d。
随机森林基学习器的多样性不仅来自样本扰动,还来自属性扰动。
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~