天天看点

机器学习中监督学习与无监督学习——有什么区别?

作者:秋叶Motivation

在机器学习领域,有两种方法:监督学习和无监督学习。这完全取决于您的数据是否被标记。标签决定了模型的训练方式,并影响我们从中收集见解的方式。

在本文中,我们将探讨监督学习和无监督学习的概念,并强调它们的主要区别。

机器学习中的学习类型

(更|多优质内|容:java567 点 c0m)

监督学习:以标记数据为指导

监督学习就像你身边有一位乐于助人的老师。在这种方法中,我们对数据进行了标记,这意味着每条数据都带有特殊的标签或标签。

可以把它想象成在大考试之前找到问题的答案。您可以从这些带标签的示例中学习,并对新的、未见过的数据进行预测或分类。

监督学习围绕标记数据的使用,其中每个数据点都与已知的标签或结果相关联。通过利用这些标签,模型学习对看不见的数据进行准确的预测或分类。

监督学习的一个典型例子是电子邮件垃圾邮件检测模型。在这里,模型在数据集上进行训练,其中每封电子邮件都被标记为“垃圾邮件”或“非垃圾邮件”。通过从这些标记的示例中学习,该模型可以概括其知识并准确地将传入电子邮件分类为垃圾邮件或合法邮件。

监督学习的另一个例子是手写识别模型。通过向模型提供手写数字及其相应标签的数据集,模型可以学习与每个数字相关的模式和变化。因此,它能够熟练地识别新的、看不见的样本中的手写数字。

分类标签和连续标签

当目标变量属于有限数量的不同类别或类时,使用分类标签。这些标签也称为名义标签或离散标签。

让我们分解一些术语以使其更容易理解。分类标签具有一组离散的可能值,例如“是一头牛”或“不是一头牛”。这就像说某件事只能是一件事或另一件事。

离散是一个取自统计学的术语,指的是只能采用有限数量的值的结果,例如一周中的几天。这就像可供选择的选项数量有限。

当目标变量表示连续或实值数量时,使用连续标签,也称为数字标签。这些标签可以采用一定范围内的任何数值。

这意味着连续标签没有一组离散的可能值。可以有无限多种可能性。将其视为滑动尺度而不是严格的类别。

值得注意的是,标签的类型决定了您正在处理的机器学习问题的类型。

分类标签与分类问题相关,其目标是将类别或类分配给给定的输入。

连续标签与回归问题相关,其目标是预测连续值。

但也存在涉及分类标签和连续标签的混合问题,例如多标签分类或多输出回归。

监督学习算法

以下是您应该了解的一些很棒的监督学习技术:

线性回归

线性回归是机器学习中的一项基本技术,用于对因变量与一个或多个自变量之间的关系进行建模。它的目的是找到代表变量之间线性关系的最佳拟合直线。

想象一下图表上有一堆点。每个点都有两个值:一个在 x 轴上,一个在 y 轴上。例如,假设我们有代表不同学生的学习小时数 (x) 和相应的考试成绩 (y) 的变量。

线性回归是一种绘制最能代表这两个变量之间总体趋势或关系的直线的方法。我们想要找到一条尽可能接近所有点的线。

显示线性回归的图表图像

线性回归用于许多现实世界的情况。例如,根据面积、房间数量和位置等因素预测房价。

房子和指南针的图像

逻辑回归

当目标变量是二元或分类变量时,采用逻辑回归。它预测实例属于特定类别的概率。它通常用于情感分析或垃圾邮件检测等任务。

为了理解逻辑回归,我们假设我们有一个包含一些特征和相应标签的数据集。例如,我们可能有关于学生的信息,例如他们的学习时间以及他们是否通过或未通过考试。

在逻辑回归中,我们感兴趣的是预测二元结果,例如“通过”或“失败”。目标是找到输入特征(例如,学习时间)和结果概率(例如,通过考试的概率)之间的关系。

逻辑回归不像线性回归那样使用直线,而是使用一种称为 sigmoid 或逻辑函数的特殊曲线。该曲线的范围在 0 和 1 之间,并且具有特征性的 S 形形状。它将任何输入值映射到 0 到 1 之间的概率值。

显示逻辑回归的图表图像

决策树

决策树是帮助根据一组条件做出决策或预测的图形结构。他们将数据分成多个分支,每个分支代表一个决策或结果。决策树广泛用于分类任务,可以处理分类数据和连续数据。

决策树从一个节点开始,称为根节点,代表整个数据集。树的每个内部节点代表基于特定特征的决策,每个分支代表该决策的可能结果。树的叶子代表最终的预测或结果。

决策树的插图

想象一下,您是一名试图解开谜团的侦探,并且您有一系列线索或特征需要考虑。每条线索都可以成为帮助您确定嫌疑人有罪或无罪的证据。

决策树就像一组问题,引导您完成调查过程,帮助您根据线索做出决策。

例如,假设您有以下线索:

  • 线索一:犯罪现场有武器吗?
  • 线索二:犯罪嫌疑人是否有作案动机?
  • 线索3:有目击者的叙述吗?

从根本问题开始,您会问犯罪现场是否有武器。如果答案是“是”,您将遵循决策树的一个分支。如果答案是“否”,您将遵循不同的分支。

让我们考虑“是”分支:

  • 如果犯罪现场有武器,你就会转向下一个问题:嫌疑人是否有动机?根据答案,您将遵循相应的分支。
  • 如果嫌疑人有动机,你就继续下一个问题:有目击者的证词吗?同样,您根据答案遵循适当的分支。

每个问题或线索都可以帮助您缩小可能性并在每一步中做出决定。最终,您到达一个叶节点,它代表您的最终决定或预测。

例如,如果您在犯罪现场发现武器,嫌疑人有动机,并且有目击者证词,那么决策树可能会引导您得出嫌疑人有罪的结论。另一方面,如果任何线索指向相反的方向,决策树可能会引导您得出嫌疑人无罪的结论。

在这个侦探类比中,决策树充当逻辑流程图,帮助您根据可用的证据或特征做出决策。

类似地,在机器学习中,决策树使用输入特征根据一组分层的 if-else 条件进行预测或分类。

Start
                |
          Is there a weapon at the crime scene?
                |
         /                  \
        /                    \
   Yes /                      \ No
      /                        \
     |                 Did the suspect have a motive?
     |                      |
    Yes                    No
     |                      |
     |                 Are there any eyewitness accounts?
     |                      |
     |                       \
    Yes                       No
     |                        |
    Guilty                 Not Guilty           

无监督学习:从未标记数据中提取隐藏模式

现在,准备好释放你内心的福尔摩斯吧,因为无监督学习就是揭开数据中隐藏的秘密。

在这种方法中,我们事先没有任何标签或答案。这就像面对一个谜题并试图自己找出其中的模式。

无监督学习处理未标记的数据,不提供预先存在的标签或结果。在这种方法中,目标是发现数据本身固有的隐藏模式或结构。

例如,聚类是一种流行的无监督学习技术,用于识别数据中的自然分组。

想象一下,您有一个包含各种客户属性(例如年龄、收入和购买行为)的数据集。通过对这些数据应用聚类算法,您可以根据相似性来识别不同的客户群。然后,这些信息可用于定制营销策略或针对每个细分市场提供个性化建议。

无监督学习的另一个引人注目的应用是异常检测。在网络安全中,无监督算法可以分析网络流量模式并识别偏离常态的异常或可疑活动。通过检测异常,可以先发制人地解决潜在的安全漏洞或网络攻击。

无监督学习算法

无监督学习算法可以分为两类问题:

无监督学习算法的类型:聚类和关联

聚类

一种流行的无监督学习技术是聚类。聚类就像一种超能力,可以帮助我们确定数据中是否存在任何自然发生的分组。这就像在不知道名字的情况下找到有相似兴趣的朋友一样。

通过聚类,您可以将相似的数据点分组在一起,并发现数据中有意义的模式或结构。

有多种可用的聚类算法,例如 k-means、层次聚类和 DBSCAN。这些算法的方法有所不同,但总体思路是测量数据点之间的距离或相似性并将它们分配给聚类。聚类的数量可以预先定义(k-means)或自动确定(分层聚类)。

聚类有许多应用,包括客户细分、图像识别、文档聚类、异常检测和推荐系统。

协会

关联是无监督学习中的另一种技术,专注于发现数据集中不同项目或变量之间有趣的关系或关联。它的目的是识别数据中经常一起出现的模式。

最著名的关联规则挖掘算法是 Apriori。给定一个交易数据集,Apriori 会找到经常一起出现的项目集,并从中导出关联规则。

关联规则由前件(或左侧)和后件(或右侧)组成,指示某些项目的存在暗示其他项目的存在。

例如,在购物篮分析中,可以导出关联规则来识别经常一起购买的商品。这些规则有助于提出建议、优化商店布局或了解客户行为。

关联分析还可以扩展到更复杂的场景,例如顺序模式,其中项目出现的顺序很重要。

聚类和关联都是无监督学习技术,有助于在不依赖预定义标签或类的情况下探索和分析数据。它们在模式发现、数据探索以及从未标记的数据集中获取见解方面发挥着至关重要的作用。

结论

监督学习和无监督学习代表了机器学习领域的两种不同方法,其中标签的存在或不存在是一个决定性因素。

监督学习利用标记数据的力量来训练可以做出准确预测或分类的模型。

相比之下,无监督学习侧重于使用聚类或异常检测等技术来发现未标记数据中隐藏的模式和结构。

无论您是在监督学习中使用标记数据(例如电子邮件垃圾邮件检测或手写识别),还是在客户细分或异常检测中探索无监督学习的潜力,了解这些方法的基本原理都可以让您获得有价值的见解并做出明智的决策。广泛应用中的决策。

(更|多优质内|容:java567 点 c0m)

继续阅读