SVM是在1963年,由Vanpik领导的ATE-T Bell实验室研究小组提出来的。这种方法是基于模式识别方法和统计学习理论的一种分类技术,主要用于模式识别领域。SVM在解决小样本、非线性及高纬度的分类问题中,有许多优势。在文本分类、图像识别、生物信息学等领域中得到了成功的额应用。

随机森林就是通过集成学习的方法将多颗决策树集成的一种算法。每一颗决策树都是一个分类器,对于每一个输入样本,N棵决策树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。可见,这也是一种Bagging思想。同时,我们也会讲解Adaboost算法的原理和代码实现。

        决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处,熵值为0。其具有可读性、分类速度快的优点,是一种有监督学习。最早提及决策树思想的是Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,以及Breiman等人在1984年提出的CART算法。本篇文章主要介绍决策树的基本概念,以及上面这3种常见算法原理及其代码实现。

最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定。

        在《逻辑回归算法》一问中,我们介绍了逻辑回归算法的原理,这一篇文章,我们将通过逻辑回归算法的原理,动手用python实现一遍,以加深对逻辑回归算法的理解。同时跟scikit-learn的逻辑回归工具进行效果对比。

逻辑回归是机器学习中的一种分类模型,在现实中应用非常广泛。在这篇文章中,我们主要关注逻辑回归算法的模型、参数求解和公式推导,其中涉及到代价函数、最大似然估计、梯度下降等关键知识。同时讨论逻辑回归在多分类问题中的应用,以及过拟合问题的优化。

线性回归算法是机器学习里面最基础、最简单的算法,但是它在实际应用中非常广泛。在接下来的内容,我们将通过一个房价预测问题来引入探讨线性回归算法的数学原理、代价函数、梯度下降算法等。并在分析完原理之后,用python完全实现一遍,并和scikit-learn的机器学习库对比实际的预测效果。