随机森林就是通过集成学习的方法将多颗决策树集成的一种算法。每一颗决策树都是一个分类器,对于每一个输入样本,N棵决策树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。可见,这也是一种Bagging思想。同时,我们也会讲解Adaboost算法的原理和代码实现。

        决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处,熵值为0。其具有可读性、分类速度快的优点,是一种有监督学习。最早提及决策树思想的是Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,以及Breiman等人在1984年提出的CART算法。本篇文章主要介绍决策树的基本概念,以及上面这3种常见算法原理及其代码实现。