机器学习教程

2025年7月10日 | 阅读9分钟
Machine Learning Tutorial

机器学习教程涵盖了机器学习的基础知识和更复杂的概念。在职学生和专业人士都可以从我们的机器学习教程中受益。

机器学习是一个快速发展的技术领域,它允许计算机自动从之前的数据中学习。为了构建数学模型并根据历史数据或信息进行预测,机器学习采用了各种算法。目前,它被用于各种任务,包括语音识别、电子邮件过滤、Facebook上的自动标记、推荐系统和图像识别。

在本机器学习教程中,您将学习到许多不同的机器学习方法,包括强化学习、监督学习和无监督学习。将涵盖回归和分类模型、聚类技术、隐马尔可夫模型以及各种序列模型。

什么是机器学习

在现实世界中,我们周围的人可以通过学习能力从经验中学习一切,而我们有计算机或机器,它们按照我们的指令工作。但是机器也能像人类一样从经验或过去的数据中学习吗?这就是机器学习的作用。

Introduction to Machine Learning

机器学习简介

机器学习是人工智能的一个子集,主要关注算法的创建,使计算机能够独立地从数据和过去的经验中学习。亚瑟·塞缪尔于1959年首次使用“机器学习”一词。它可以概括如下:

无需显式编程,机器学习使机器能够自动从数据中学习,从经验中提高性能,并进行预测。

机器学习算法创建一个数学模型,在没有显式编程的情况下,借助样本历史数据或训练数据,帮助进行预测或决策。为了开发预测模型,机器学习将统计学和计算机科学结合在一起。机器学习中构建或利用从历史数据中学习的算法。性能将随着我们提供的信息量的增加而提高。

如果一台机器能够获得更多数据以提高其性能,那么它就能学习。

机器学习如何工作

机器学习系统构建预测模型,从以前的数据中学习,并在收到新数据时预测新数据的输出。数据量有助于构建一个更好地准确预测输出的模型,这反过来又会影响预测输出的准确性。

假设我们有一个复杂的需要进行预测的问题。我们只需将数据提供给通用算法,这些算法会根据数据构建逻辑并预测输出,而无需编写代码。机器学习改变了我们看待问题的方式。机器学习算法的操作如下图所示:

Introduction to Machine Learning

机器学习的特点

  • 机器学习使用数据来检测给定数据集中的各种模式。
  • 它可以从过去的数据中学习并自动改进。
  • 它是一种数据驱动的技术。
  • 机器学习与数据挖掘非常相似,因为它也处理大量数据。

机器学习的必要性

对机器学习的需求正在稳步上升。由于它能够执行对人来说过于复杂的任务,因此需要机器学习。人类受限于无法手动访问大量数据;因此,我们需要计算机系统,而机器学习的作用就在于简化我们的生活。

通过为它们提供大量数据并允许它们自动探索数据、构建模型并预测所需的输出,我们可以训练机器学习算法。成本函数可以用来确定数据量和机器学习算法的性能。通过使用机器学习,我们可以节省时间和金钱。

人工智能的重要性可以从其应用案例中轻松感知,现在,人工智能被用于自动驾驶汽车、数字欺诈检测、人脸识别和Facebook的推荐好友等。其他顶级公司,例如Netflix和亚马逊,已经构建了人工智能模型,利用大量数据来分析客户兴趣并相应地推荐产品。

以下是一些显示机器学习重要性的关键点:

  • 数据产量的快速增长
  • 解决对人类来说困难的复杂问题
  • 包括金融在内的各个部门的决策制定
  • 从数据中发现隐藏模式并提取有用信息。

机器学习的分类

从广义上讲,机器学习可以分为三种类型:

  1. 监督学习
  2. 无监督学习
  3. 强化学习
Introduction to Machine Learning

1) 监督学习

在监督学习中,向机器学习系统提供带标签的样本数据进行训练,然后系统根据训练数据预测输出。

系统使用带标签的数据构建一个模型,该模型理解数据集并学习每个数据集。完成训练和处理后,我们用样本数据测试模型,以查看它是否能准确预测输出。

将输入数据映射到输出数据是监督学习的目标。管理式学习依赖于监督,它类似于学生在老师的指导下学习。垃圾邮件过滤是监督学习的一个例子。

监督学习可以进一步分为两类算法:

  • 分类
  • 回归

2) 无监督学习

无监督学习是一种机器在没有任何监督的情况下学习的方法。

向机器提供一组未标记、未分类或未分类的数据进行训练,算法需要在此数据上操作而无需任何监督。无监督学习的目标是将输入数据重构为具有相似模式的新特征或对象组。

在无监督学习中,我们没有预定的结果。机器试图从大量数据中发现有用的见解。它还可以进一步分为两类算法:

  • 聚类
  • 关联 (Association)

3) 强化学习

强化学习是一种基于反馈的学习方法,其中学习代理对每个正确行为获得奖励,对每个错误行为获得惩罚。代理通过这些反馈自动学习并提高其性能。在强化学习中,代理与环境交互并探索环境。代理的目标是获得最多的奖励点,从而提高其性能。

自动学习其手臂运动的机器狗是强化学习的一个例子。

注意:我们将在后面的章节中详细了解上述机器学习类型。

机器学习历史

几年前(大约40-50年前),机器学习还是科幻小说,但今天它已成为我们日常生活的一部分。从自动驾驶汽车亚马逊虚拟助手“Alexa”,机器学习正在让我们的日常生活变得轻松。然而,机器学习背后的思想是如此古老,并且具有悠久的历史。下面列出了一些机器学习历史上的里程碑事件:

History of Machine Learning

机器学习的早期历史 (1940年之前)

  • 1834年:1834年,计算机之父查尔斯·巴贝奇构想了一种可以用打孔卡编程的设备。然而,该机器从未建成,但所有现代计算机都依赖其逻辑结构。
  • 1936年:1936年,艾伦·图灵提出了机器如何确定和执行一组指令的理论。

存储程序计算机的时代

  • 1940年:1940年,第一台手动操作计算机“ENIAC”被发明,它是第一台电子通用计算机。之后,存储程序计算机如1949年的EDSAC和1951年的EDVAC被发明。
  • 1943年:1943年,人类神经网络被建模为电路。1950年,科学家们开始将他们的想法付诸实践,并分析人类神经元可能如何工作。

计算机机械与智能

  • 1950年:1950年,艾伦·图灵发表了一篇关于人工智能的开创性论文,“计算机机械与智能”。在他的论文中,他问道:“机器能思考吗?”

游戏中的机器智能

  • 1952年:机器学习的先驱亚瑟·塞缪尔创建了一个程序,帮助IBM计算机下跳棋游戏。它玩得越多,表现越好。
  • 1959年:1959年,“机器学习”一词首次由亚瑟·塞缪尔提出。

第一次“人工智能”寒冬

  • 1974年至1980年是人工智能和机器学习研究人员的艰难时期,这段时间被称为人工智能寒冬
  • 在此期间,机器翻译失败,人们对人工智能的兴趣减弱,导致政府对研究的资助减少。

机器学习从理论到现实

  • 1959年:1959年,第一个神经网络被应用于解决现实世界问题,通过自适应滤波器消除电话线上的回声。
  • 1985年:1985年,特里·塞吉诺夫斯基和查尔斯·罗森伯格发明了一个神经网络NETtalk,它能够在一周内自学如何正确发音20,000个单词。
  • 1997年:IBM的深蓝智能计算机在国际象棋比赛中战胜了国际象棋专家加里·卡斯帕罗夫,成为第一台击败人类国际象棋专家的计算机。

21世纪的机器学习

2006:

  • 杰弗里·辛顿和他的团队提出了利用深度信念网络进行深度学习的理念。
  • 亚马逊推出了弹性计算云 (EC2),提供可伸缩的计算资源,使创建和实施机器学习模型变得更容易。

2007:

  • Netflix奖竞赛开始时,参赛者的任务是提高Netflix推荐算法的准确性。
  • 当一群专家利用支持学习训练计算机以一流水平玩西洋双陆棋时,支持学习取得了关键进展。

2008:

  • 谷歌发布了Google Forecast Programming Interface,这是一种基于云的服务,允许开发人员将人工智能集成到他们的应用程序中。
  • 受限玻尔兹曼机(RBMs),一种生成式神经网络,因其建模复杂数据分布的能力而受到关注。

2009:

  • 深度学习取得了进展,研究人员证明了其在语音识别和图像分类等各种任务中的有效性。
  • “大数据”一词越来越流行,突出了处理大型数据集所面临的挑战和机遇。

2010:

  • ImageNet大规模视觉识别挑战赛(ILSVRC)的引入推动了计算机视觉的进步,并促成了深度卷积神经网络(CNN)的发展。

2011:

  • 在《危险边缘!》节目中,IBM的沃森击败了人类冠军,展示了问答系统和自然语言处理的潜力。

2012:

  • Alex Krizhevsky开发的深度卷积神经网络AlexNet赢得了ILSVRC,显著提高了图像分类的准确性,并确立了深度学习作为计算机视觉领域的主导方法。
  • 由Andrew Ng和Jeff Dignear领导的Google Brain项目利用深度学习训练神经网络,从未标记的YouTube视频中识别猫。

2013:

  • 伊恩·古德费洛推出了生成对抗网络(GAN),这使得创建逼真的合成数据成为可能。
  • 谷歌后来收购了专注于深度学习和人工智能的初创公司DeepMind Technologies。

2014:

  • Facebook推出了DeepFace系统,在人脸识别方面达到了接近人类的准确率。
  • 谷歌DeepMind开发的AlphaGo程序击败了世界围棋冠军,展示了强化学习在挑战性游戏中的潜力。

2015:

  • 微软发布了认知工具包(之前称为CNTK),一个开源深度学习库。
  • 注意力机制概念的引入增强了序列到序列模型在机器翻译等任务中的性能。

2016:

  • 可解释人工智能的目标是使机器学习模型更容易理解,并受到了一些关注。
  • 谷歌DeepMind创建了AlphaGo Zero,它在没有人为知识的情况下,仅利用强化学习就达到了超人的围棋水平。

2017:

  • 迁移学习获得了显著的地位,允许预训练模型用于有限数据的各种任务。
  • 变分自编码器(VAEs)和 Wasserstein GANs等生成模型的引入使得复杂数据的更好合成和生成成为可能。
  • 这些只是指定时期内人工智能的一些显著进展和成就。该领域在2017年之后继续快速发展,出现了新的突破、技术和应用。

机器学习现状

近年来,机器学习领域取得了显著进展,其应用范围广泛,包括自动驾驶汽车、亚马逊Alexa、聊天机器人和推荐系统。它融合了聚类、分类、决策树、SVM算法和强化学习,以及无监督和监督学习。

现代人工智能模型可用于进行各种预测,包括天气预测、疾病预测、股票市场分析等。

前提条件

在学习机器学习之前,您必须具备以下基本知识,以便轻松理解机器学习的概念:

  • 概率论和线性代数的基础知识。
  • 能够用任何计算机语言(尤其是Python语言)进行编码。
  • 微积分知识,尤其是单变量函数和多变量函数的导数。

目标受众

我们的机器学习教程旨在帮助初学者和专业人士。

问题

我们保证您在学习我们的机器学习教程时不会遇到任何困难。但如果本教程有任何错误,请在联系表中发布问题或错误,以便我们进行改进。