Random Forest 实用经验
总结两条关于random forest的实用经验。给定数据和问题,对于算法选择有参考价值。
1. 小样本劣势,大样本优势
小样本情况下(1k~100k): RF相对与经典算法(SVM or Boosting)没优势,一般来说效果更差
大样本情况下(1M+): 这时候其他算法基本上跑不动了。RF凭借着快速的 training 和 testing,成为唯一能够实际操作的算法。 这也从一个侧面证明了工业界的哲学:数据第一,算法第二
如何针对不同问题,设计使用RF的方法,从而能够产生海量数据,是一门艺术
2. RF 与 KNN有相似的效果
RF 和 KNN 都可以看成对空间劈分的算法。RF 对空间的劈分是预计算的(在training过程中确定);而 KNN则是根据 testing sample adaptively劈分空间的。可以将RF视为KNN的一种快速算法。
KNN做不好的问题,RF也做不好
P. S.
个人观点,仅供参考
1. 小样本劣势,大样本优势
小样本情况下(1k~100k): RF相对与经典算法(SVM or Boosting)没优势,一般来说效果更差
大样本情况下(1M+): 这时候其他算法基本上跑不动了。RF凭借着快速的 training 和 testing,成为唯一能够实际操作的算法。 这也从一个侧面证明了工业界的哲学:数据第一,算法第二
如何针对不同问题,设计使用RF的方法,从而能够产生海量数据,是一门艺术
2. RF 与 KNN有相似的效果
RF 和 KNN 都可以看成对空间劈分的算法。RF 对空间的劈分是预计算的(在training过程中确定);而 KNN则是根据 testing sample adaptively劈分空间的。可以将RF视为KNN的一种快速算法。
KNN做不好的问题,RF也做不好
P. S.
个人观点,仅供参考
热门话题 · · · · · · ( 去话题广场 )
- 我是怎么拼命点亮人生至暗时刻的 新话题 · 1130次浏览
- 解锁我的夏日旅行足迹地图 活动 新话题
- 每天夸夸自己的三件小事 454次浏览
- 用对话体写日记 1014次浏览
- 日常生活里的健身实训 3529次浏览
- 遗落在草稿箱的过期日常 新话题 · 297次浏览