快速注册

Random Forest 实用经验

xudong 2012-04-30 21:24:22

总结两条关于random forest的实用经验。给定数据和问题，对于算法选择有参考价值。

1. 小样本劣势，大样本优势
小样本情况下（1k~100k）： RF相对与经典算法（SVM or Boosting）没优势，一般来说效果更差
大样本情况下（1M+）：这时候其他算法基本上跑不动了。RF凭借着快速的 training 和 testing，成为唯一能够实际操作的算法。这也从一个侧面证明了工业界的哲学：数据第一，算法第二
如何针对不同问题，设计使用RF的方法，从而能够产生海量数据，是一门艺术
2. RF 与 KNN有相似的效果
RF 和 KNN 都可以看成对空间劈分的算法。RF 对空间的劈分是预计算的（在training过程中确定）；而 KNN则是根据 testing sample adaptively劈分空间的。可以将RF视为KNN的一种快速算法。
KNN做不好的问题，RF也做不好
P. S.
个人观点，仅供参考

回应转发赞收藏

xudong (北京)

Random Forest 实用经验

热门话题 · · · · · · ( 去话题广场 )