当前位置：首页 > news >正文

人工智能与深度学习入门

news 2024/10/27 20:06:18

人工智能与深度学习入门

一、人工智能的发展历程
二、人工智能三种主要学派
三、人工智能的定义
四、人工智能，机器学习，深度学习，三者的区别与联系？
- 一、联系
- 二、区别
五、深度学习的应用
- 一、深度学习之计算机视觉应用
- 二、深度学习之语音等应用
六、神经网络
- 一、神经网络的发展，感知器，多层感知器
  - 1、MP神经元模型
  - 2、感知机模型
  - 3、多层感知机-MLP

一、人工智能的发展历程

一是起步发展期：1956年—20世纪60年代初。人工智能概念提出后，相继取得了一批令人瞩目的研究成果，
- 如机器定理证明、跳棋程序等，掀起人工智能发展的第一个高潮。
二是反思发展期：20世纪60年代—70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望，人们开始尝试更具挑战性的任务，并提出了一些不切实际的研发目标。然而，接二连三的失败和预期目标的落空
- 例如，无法用机器证明两个连续函数之和还是连续函数
- 机器翻译闹出笑话等，使人工智能的发展走入低谷。
三是应用发展期：20世纪70年代初—80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题，实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。
- 专家系统在医疗、化学、地质等领域取得成功，推动人工智能走入应用发展的新高潮。
四是低迷发展期：20世纪80年代中—90年代中。
- 随着人工智能的应用规模不断扩大，专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来
五是稳步发展期：20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展，加速了人工智能的创新研究，促使人工智能技术进一步走向实用化。
- 1997年国际商业机器公司（简称IBM）深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫
- 2008年IBM提出“智慧地球”的概念。
六是蓬勃发展期：2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展，泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展，大幅跨越了科学与应用之间的“技术鸿沟”。
- 诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破，迎来爆发式增长的新高潮。

二、人工智能三种主要学派

符号主义学派：

基本观点：又称逻辑主义、心理学派或计算机学派。该学派认为人工智能源于数学逻辑，人类认知和思维的基本单元是符号，智能是符号的表征和运算过程，计算机也是一个物理符号系统。所以主张将智能形式化为符号、知识、规则和算法，并用计算机实现其表征和计算，从而模拟人的智能行为。
发展历程：其首个代表性成果是启发式程序 LT（逻辑理论家），此后走过了启发式算法、专家系统、知识工程的发展道路。专家系统是该学派的典型应用，能够依据专业知识推演出的逻辑规则在特定领域回答或解决问题，曾有过辉煌时期，但也存在局限，如仅限于特定情景、知识采集难度大等。
应用领域：在自然语言处理中的机器翻译、智能问答系统，以及各种需要逻辑推理和知识表示的专家决策系统等方面有应用。比如医疗诊断专家系统，可根据患者的症状、检查结果等信息，利用知识库中的医学知识进行推理诊断。

连接主义学派：

基本观点：又称仿生学派或生理学派。强调智能活动是由大量简单单元（神经元）通过复杂连接后并行运行的结果，主张通过人工方式构造神经网络，再训练人工神经网络产生智能。
发展历程：1943 年形式化神经元模型（M-P 模型）被提出，之后经历了起伏发展。在 20 世纪 80 年代后随着深度学习理论的突破、大数据技术和图形处理器（GPU）的发展，该学派开始大放光彩。
应用领域：在语音识别、图像识别、自然语言处理等领域取得了显著成果，如谷歌的语音识别助手、基于深度学习的图像识别系统用于安防监控和自动驾驶、智能聊天机器人等。

行为主义学派：

基本观点：又称进化主义或控制论学派，思想来源是进化论和控制论。该学派认为智能取决于感知和行为，取决于对外界复杂环境的适应，而不是表示和推理，强调通过与环境的交互作用来学习和适应，关注构建感知-动作型的控制系统。
发展历程：早期有六足行走机器人等代表作，近年来波士顿动力机器人和波士顿大狗等也备受关注。
应用领域：适用于机器人的自主控制、智能体的自主决策等场景，比如机器人在复杂环境中的自主行走、执行任务，以及多智能体系统在物流、交通等领域的应用。

此外，机器学习领域还有其他一些流派划分，如贝叶斯派、进化主义、行为类比主义等，但这些相对前三个学派来说，在人工智能的整体研究中并非处于主流地位。

三、人工智能的定义

人工智能是指由人工制造出来的系统所表现出来的智能。具体来说：

一、技术角度

人工智能是计算机科学的一个分支，致力于研究和开发能够模拟、延伸和扩展人类智能的技术和方法。它利用算法和数据，让计算机能够进行学习、推理、决策、感知、理解自然语言、识别图像等智能任务。例如，深度学习算法通过构建多层神经网络，可以自动从大量数据中学习特征，实现图像分类、语音识别等任务。

二、能力表现角度

能够表现出类似于人类的智能行为。这包括理解语言并进行对话交流，如智能客服可以回答用户的问题、解决问题；识别和理解图像及视频内容，如人脸识别技术用于安全系统；进行逻辑推理和决策制定，如医疗辅助诊断系统根据患者的症状和检查结果给出诊断建议。

三、目标导向角度

其目标是使计算机能够执行通常需要人类智能才能完成的任务。随着技术的不断进步，人工智能在越来越多的领域发挥作用，如金融领域的风险评估和欺诈检测、交通运输领域的自动驾驶、制造业的智能质量检测等，旨在提高效率、降低成本、改善人类生活质量。

四、人工智能，机器学习，深度学习，三者的区别与联系？

一、联系

从属关系

机器学习是人工智能的一个重要分支，深度学习又是机器学习的一个子集。人工智能的目标是实现智能行为，机器学习为实现这一目标提供了一种重要的方法，而深度学习则在机器学习的基础上进一步发展，提供了更强大的工具。
例如，在一个智能医疗系统中，人工智能是整个系统的目标，即实现疾病诊断和治疗建议等智能行为。机器学习算法可以用于分析大量的医疗数据，以建立疾病预测模型，而深度学习模型可以更深入地挖掘医疗图像数据中的特征，提高疾病诊断的准确性。

共同目标

三者的共同目标都是使计算机能够模拟人类的智能行为，解决实际问题。无论是人工智能的广泛应用，还是机器学习的各种算法，以及深度学习的复杂模型，都是为了让计算机能够更好地理解和处理数据，做出更准确的决策。
比如在图像识别领域，人工智能系统旨在准确识别图像中的物体，机器学习算法通过学习大量标注图像来实现这一目标，而深度学习中的卷积神经网络则能够自动提取图像特征，提高识别准确率。

二、区别

概念范围

人工智能是一个最广泛的概念，涵盖了所有试图让计算机模拟人类智能的技术和方法。它包括自然语言处理、计算机视觉、机器人技术、专家系统等多个领域。
机器学习是一种实现人工智能的方法，它使计算机能够自动从数据中学习规律和模式，而无需明确编程。机器学习算法包括监督学习、无监督学习、强化学习等。
深度学习是机器学习中的一种特定方法，它利用深度神经网络进行学习。深度神经网络具有多层结构，可以自动学习数据中的高层次特征。

技术方法

人工智能涉及多种技术，如规则推理、专家系统、机器学习等。它可以通过预先定义的规则和知识来解决问题，也可以通过学习数据来提高性能。
机器学习主要依赖于算法和数据，通过训练模型来学习数据中的模式和规律。常见的机器学习算法有决策树、支持向量机、随机森林等。
深度学习则专注于构建深度神经网络，通过大量的数据和强大的计算资源进行训练。深度学习模型通常具有很高的复杂性和参数数量，可以处理大规模的数据。

应用场景

人工智能的应用场景非常广泛，包括智能客服、自动驾驶、智能家居、医疗诊断等。它可以解决各种复杂的问题，需要综合运用多种技术。
机器学习在数据分析、预测建模、图像识别、语音处理等领域有广泛应用。例如，银行可以使用机器学习算法来预测客户的信用风险，企业可以利用机器学习进行市场趋势分析。
深度学习主要应用于图像识别、语音识别、自然语言处理等领域，其中在图像和语音领域的表现尤为突出。例如，深度学习模型可以实现高精度的人脸识别、语音助手可以准确理解用户的语音指令。

五、深度学习的应用

一、深度学习之计算机视觉应用

一、图像分类

图像分类是计算机视觉中最基础的任务之一。通过深度学习算法，能够自动对输入的图像进行分类，确定图像所属的类别。例如，将图像分为动物、植物、风景等不同类别。深度学习模型如卷积神经网络（CNN）在图像分类任务中表现出色，通过对大量标注图像的学习，能够提取出图像中的特征，并进行准确的分类。

二、目标检测

目标检测旨在识别图像中的特定目标，并确定其位置和边界框。深度学习技术使得目标检测的准确性和效率得到了极大提升。例如，在安防领域，可以检测出监控画面中的人员、车辆等目标；在自动驾驶中，检测道路上的行人、车辆、交通标志等。常用的目标检测算法有 Faster R-CNN、YOLO 等。

三、图像分割

图像分割将图像分割成不同的区域，每个区域具有相似的特征。深度学习在图像分割任务中也取得了显著成果。例如，医学图像分割可以将人体器官或病变区域从医学影像中分割出来，为疾病诊断和治疗提供帮助。语义分割将图像中的每个像素分配到特定的类别，实例分割则进一步区分不同的实例对象。

四、人脸识别

人脸识别是计算机视觉中的重要应用之一。深度学习算法可以准确地识别图像中的人脸，并进行身份验证。人脸识别技术广泛应用于安防、金融、门禁等领域。通过深度学习模型，可以提取人脸的特征，进行人脸比对和识别，具有较高的准确性和鲁棒性。

五、图像生成

深度学习还可以用于图像生成任务。例如，生成对抗网络（GAN）可以生成逼真的图像，包括人脸、风景、动物等。图像生成技术在艺术创作、游戏设计、虚拟现实等领域具有广阔的应用前景。

六、视频分析

深度学习在视频分析中也发挥着重要作用。可以对视频中的目标进行检测、跟踪和行为分析。例如，在智能监控中，分析视频中的人员行为，检测异常事件；在体育赛事中，分析运动员的动作和表现。

二、深度学习之语音等应用

一、语音识别

在智能语音助手（如 Siri、小爱同学、小度等）中，语音识别是关键技术。用户可以通过语音输入查询信息、发送指令等，语音识别将语音转换为文字后，系统再进行后续处理。
在语音转录领域，例如将会议、讲座等语音内容转换为文字记录，深度学习 - 语音识别技术大大提高了转录的速度和准确性。

二、语音合成

在有声读物制作中，语音合成可以快速将文字内容转换为语音，节省人力成本。
在智能导航系统中，语音合成用于将导航信息以语音的形式播报给用户，提供更加便捷的导航体验。

三、语音情感识别

在客服中心，语音情感识别可以帮助客服人员了解客户的情绪状态，从而采取更合适的应对策略，提高客户满意度。
在心理健康监测方面，可以通过分析患者的语音情感状态来辅助诊断心理疾病或监测病情发展。

四、语音增强

在移动通讯设备中，语音增强可以提高通话质量，减少环境噪声对语音通话的影响。
在语音识别系统中，语音增强可以提高语音输入的质量，进而提高语音识别的准确性。

六、神经网络

一、神经网络的发展，感知器，多层感知器

在这里插入图片描述

1、MP神经元模型

M-P 神经元模型（McCulloch-Pitts neuron model）是由美国神经生理学家沃伦・麦卡洛克（Warren McCulloch）和数学家沃尔特・皮茨（Walter Pitts）于 1943 年提出的。它是一种对生物神经元的结构和工作原理进行抽象和简化后得到的计算模型，是神经网络的基础。

在这里插入图片描述

主要特点：

输入信号的加权连接：M-P 神经元模型接收来自其他多个神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递。每个输入信号都有一个对应的权重，权重的大小反映了该输入信号对神经元的影响程度。
阈值比较：神经元会将接收到的总输入值与一个特定的阈值进行比较。如果总输入值大于或等于阈值，神经元就会被激活；否则，神经元不会被激活。
激活函数处理：当神经元被激活时，会通过一个激活函数来产生输出。理想的激活函数是阶跃函数，它将输入值映射为输出值 “0” 或 “1”，“1” 表示神经元兴奋，“0” 表示神经元抑制。然而，阶跃函数具有不连续、不光滑等不太好的性质，因此在实际应用中常使用 sigmoid 函数等作为阶跃函数的近似。

2、感知机模型

感知机模型是美国学者罗森勃拉特（Rosenblatt）1957 年提出的一种具有自学习能力的神经网络模型。它是机器学习二分类问题中的一个简单模型，也是第一个机器学习模型。最大的贡献是解决了M-P模型中参数W的学习问题

在这里插入图片描述

特点：
- 简单直观：感知机的结构和算法相对简单，易于理解和实现。
- 可用于二分类问题：能够对输入数据进行二分类，区分两个不同的类别。
局限性：
- 只能处理线性可分问题：对于线性不可分的数据集，感知机无法找到一个合适的超平面将不同类别的样本完全分开。
- 学习能力有限：对于复杂的分类问题，感知机的性能可能不够理想。

在这里插入图片描述

3、多层感知机-MLP

多层感知机（Multilayer Perceptron，MLP）是一种前馈人工神经网络模型，它在单层感知机的基础上增加了多个隐含层，从而具有更强的学习能力和表达能力。

一、结构组成

多层感知机由输入层、多个隐含层和输出层组成。

输入层：接收来自外部的输入信号，其神经元数量与输入特征的数量相对应。
隐含层：位于输入层和输出层之间，可以有一个或多个。每个隐含层包含多个神经元，这些神经元通过权重与上一层的神经元连接，并对输入信号进行非线性变换。
输出层：产生最终的输出结果，其神经元数量取决于具体的任务需求，例如对于二分类问题，输出层通常只有一个神经元；对于多分类问题，输出层的神经元数量与类别数量相等。

二、工作原理

信号前向传播：
- 输入信号首先进入输入层，然后通过权重与隐含层的神经元连接。每个隐含层神经元对输入信号进行加权求和，并通过激活函数进行非线性变换，得到该层的输出。
- 隐含层的输出作为下一层的输入，依次传递，直到到达输出层。输出层神经元根据输入信号和权重计算输出结果。
激活函数：
- 在多层感知机中，常用的激活函数有 sigmoid 函数、tanh 函数和 ReLU 函数等。这些激活函数能够引入非线性因素，使得多层感知机能够学习到复杂的非线性关系。
- 例如，sigmoid 函数将输入值映射到到之间，tanh 函数将输入值映射到到之间，ReLU 函数在输入值大于时输出原值，在输入值小于等于时输出。
- Sigmoid 函数：
  $f(x)=\frac{1}{1+e^{-x}}$
  - 将输入值映射到区间，具有良好的可解释性，输出可以看作是神经元的激活概率。
  - 在输入值较大或较小时，函数的斜率趋近于零，容易导致梯度消失问题，使得网络训练变得困难。
  - 应用场景：在早期的神经网络中较为常用，尤其适用于二分类问题。
- Tanh 函数：
  $f(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$
  - 将输入值映射到区间，相比 Sigmoid 函数，它的输出中心为零，在一些情况下可以加快网络的收敛速度。
  - 同样存在梯度消失问题。
  - 应用场景：在一些需要输出中心对称的场景中使用。
- ReLU 函数（Rectified Linear Unit）：
  $f(x)=\max(0,x)$
  - 计算简单，在正区间上是线性的，在负区间上输出为零。
  - 有效地缓解了梯度消失问题，能够加速网络的训练。
  - 可能会出现 “神经元死亡” 问题，即当输入为负数时，神经元的输出始终为零，一旦某个神经元在训练过程中进入这种状态，它可能永远无法恢复。
  - 应用场景：目前在深度学习中广泛应用，尤其是在图像识别等领域。
- Softmax 函数：
  
  $f(x_i)=\frac{e^{x_i}}{\sum_{j = 1}^{n}e^{x_j}} 其中x_i是输入向量中的第个i元素。$
  - 通常用于多分类问题的输出层，将输出值转换为概率分布，使得每个输出值在区间内，且所有输出值之和为。
  - 具有良好的数学性质，方便计算交叉熵损失等。
  - 应用场景：多分类问题的神经网络输出层。

三、学习过程

多层感知机的学习过程通常采用反向传播算法（Backpropagation Algorithm）。

初始化权重和偏置：将权重和偏置初始化为较小的随机值。
前向传播：根据输入信号和当前的权重、偏置，进行信号的前向传播，计算输出层的输出结果。
计算误差：将输出结果与真实标签进行比较，计算误差。

损失函数在机器学习和深度学习中用于衡量模型预测值与真实值之间的差异。它的作用是指导模型通过优化算法不断调整参数，以最小化损失函数，从而提高模型的性能。
- 常用的误差函数有均方误差（Mean Squared Error，MSE）和交叉熵误差（Cross Entropy Error）等。
反向传播：从输出层开始，依次计算每个神经元的误差对权重和偏置的梯度，并根据梯度下降法更新权重和偏置。
- 对于每个权重，更新规则为，其中是学习率，是误差对权重的梯度。
- 对于每个偏置，更新规则为。
重复上述步骤，直到误差达到一个可接受的水平或者达到预设的迭代次数。