电子说
随着互联网的高速发展,被收集并应用于分析的数据量呈现出爆发式增长,面对如此量级的数据,以及常见的实时利用该数据的需求,仅依靠人工处理难免力不从心,这就催生了所谓的大数据和机器学习系统。
机器学习是一门多领域的交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
通俗地讲,传统计算机工作时需要接收指令,并按照指令逐步执行,最终得到计算结果;机器学习是通过某种算法,将历史数据进行训练得出某种模型,当有新的数据提供时,可以使用训练产生的模型对未来进行预测。机器学习是一种能够赋予机器进行自主学习,不依靠人工进行自主判断的技术,它和人类对历史经验归纳的过程有着相似之处。
机器学习是一门能够让编程计算机从数据中学习的计算机科学(和艺术)。机器学习已经不仅仅只是一个未来幻想了,它已经存在了。事实上,在某些专门领域的应用中,例如光学字符识别(OCR),它甚至已经存在了几十年。
举例来说,垃圾邮件过滤器就是一个机器学习的程序,它通过垃圾邮件(比如用户手动标记的垃圾邮件)以及常规邮件(非垃圾邮件)的示例,来学习标记垃圾邮件。系统用来学习的这些示例,我们称之为训练集。每一个训练示例称为训练实例或者是训练样本。
本文整合自:语言中文网、传智播客
审核编辑:符乾江
全部0条评论
快来发表一下你的评论吧 !