随机森林步骤
- 构建多个数据集
在包括N个样本的数据集中,采用有放回的抽样方式选择N个样本,构成中间数据集,然后在这个中间数据集的所有特征中随机选择几个特征,作为最终的数据集。以上述方式构建多个数据集;
- 为每个数据集建立完全分裂的决策树
利用CART为每个数据集建立一个完全分裂的决策树,最终得到多个CART决策树;
- 预测新数据
得到每一个决策树对于这个新数据的预测值。回归问题:采用多棵树的平均值。分类问题:采用投票计数的方法,票数大的获胜,相同的随机选择。可以把树的棵树设置为奇数避免这一问题。
随机森林图示
随机森林文件说明
回归问题:北京市pm2.5预测
数据处理:pm25_RF_Data.py
结果图示
分类问题:成年人收入
数据处理:adult_RF_Data.py
模型建立:adult_RF_Classify.py
结果图示