本书前两部分主要探讨监督学习(supervised learning)。在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。
监督学习一般使用两种类型的目标变量:标称型和数值型。标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{爬行类、鱼类、哺乳类、两栖类、植物、真菌};数值型目标变量则可以从无限的数值集合中取值,如0.100、42.001、1000.743等。数值型目标变量主要用于回归分析,将在本书的第二部分研究,第一部分主要介绍分类。
本书的前七章主要研究分类算法,第2章讲述最简单的分类算法:k-近邻算法,它使用距离矩阵进行分类;第3章引入了决策树,它比较直观,容易理解,但是相对难于实现;第4章将讨论如何使用概率论建立分类器;第5章将讨论Logistic回归,如何使用最优参数正确地分类原始数据,在搜索最优参数的过程中,将使用几个经常用到的优化算法;第6章介绍了非常流行的支持向量机;第一部分最后的第7章将介绍元算法—AdaBoost,它由若干个分类器构成,此外还总结了第一部分探讨的分类算法在实际使用中可能面对的非均衡分类问题,一旦训练样本某个分类的数据多于其他分类的数据,就会产生非均衡分类问题。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !