天天看点

吴恩达机器学习(一) 介绍

一、机器学习定义

  • Arthur Samuel定义(1959):机器学习是研究使得计算机无需显示编程就能赋予计算机学习能力的学科。(Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.)
  • Tom Michell定义(1998):为完成任务T,计算机从经验E中学习,并用性能P来度量,并通过经验E来提高性能P。(A computer program is said to learnfrom experience E with respect to some task Tand some performance measure P, if itsperformance on T, as measured by P, improveswith experience E.)

举个例子,我们需要将邮件自动分类为垃圾邮件(Spam)和正常邮件(Not Spam),此时任务T指的就是邮件分类这项工作,经验E就是历史邮件数据,这些数据包含了邮件内容并标明是否为垃圾邮件,性能P指的是正确分类的数量,越高越准确。

二、机器学习分类

机器学习主要分为监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。此外,还有强化学习(Reinforcement Learning)和推荐系统(Recommender Systems)。

1.监督学习(Supervised Learning)

在监督学习中,数据所对应正确答案已经给出。

对于回归问题(Regression),给出数据的同时也给出的对应的值(正确答案)。例如房价预测,给出了房屋面积和价格,我们的任务是按照面积预测房价,此时给出的训练数据包含了房屋面积和价格,这些价格就是正确答案。机器学习算法需要找到一条曲线(或直线)来拟合这些数据,从而得到一个模型,这个模型接受房屋面积作为输入,根据模型输出预测价格。回归模型需要预测的数据是连续值。如图:

吴恩达机器学习(一) 介绍

除了回归问题,还有分类问题(Classfication)。例如,我们想要预测是否患乳腺癌,训练集给出了肿块大小与是否患癌的关系,这些是否患癌的数据称为标签(Tag)。分类问题的典型特征就是输出为离散值(Discrete valued output)。算法输出0表示未患癌,输出1表示患癌。如图:

吴恩达机器学习(一) 介绍

2.无监督学习(Unsupervised Learning)

对于监督学习,训练集包含了数据(特征向量)和正确答案(标签或值)。而无监督学习主要解决的问题是,当数据没有给出对应的正确答案时,我们需要将其分组(或分类),称为聚类(Clustering)。如下图:

吴恩达机器学习(一) 介绍
吴恩达机器学习(一) 介绍

其应用范围较广,例如网络上的新闻聚合,当程序搜索到多条新闻,这些新闻很多是报道同一件事的,此时使用聚类算法就可以将这些新闻归为一类,形成专题。例如报道华为的新闻通过聚类算法展示为一类。此外,其应用还有社交网络分析(分析出哪些人有联系并归类)、市场划分(根据客户数据分为不同种类的客户)。

除了聚类,还有鸡尾酒会算法、PCA(Principal Component Analysis,主成分分析)等无监督学习算法。

转载于:https://www.cnblogs.com/yayuanzi8/p/10971704.html