当前位置: 首页 > news >正文

人工智能ACA(六)--计算机视觉基础

一、计算机视觉概述

1. 计算机视觉定义

  • 人工智能(AI)的一个重要分支
  • 旨在使计算机和系统能够从图像或多维数据中“理解”和“解释”视觉世界
  • 通过模拟人类视觉系统,计算机视觉技术能够自动执行诸如识别、分类、检测和跟踪等任务。

2. 计算机视觉与人类视觉


二、计算机视觉的基本原理

1. 计算机视觉的处理对象

1-1 数字图像的定义及数字图像处理的任务

1-2 数字图像中一个像素点可能有的颜色种类

在彩色图像中,如果每个像素的颜色由 RGB(红、绿、蓝)三种颜色通道表示,并且每个通道的值范围是 0-255(即8位表示),那么一个像素的颜色总数可以通过以下公式计算:

计算公式:颜色总数=16,777,216

解释:

  • 每个通道的值范围

    • 每个通道(红、绿、蓝)可以取 256 种不同的值(从0到255)。
    • 例如:
      • 红色通道值为0表示没有红色,255表示红色最强。
      • 绿色和蓝色通道的值类似。
  • 组合方式

    • 每个像素的颜色是由红、绿、蓝三种颜色通道的值组合而成。
    • 因此,所有可能的颜色组合总数是 256×256×256=16,777,216256×256×256=16,777,216。
  • 结果

    • 一个像素在RGB颜色模型中可以表示 16,777,216种颜色,也就是通常所说的 “1600万种颜色”

2. 计算机视觉的工作原理

2-1 图像数字化的两个过程
  • 采样

    • 将连续的模拟图像转换为离散的数字表示。具体来说,是将图像分成一个个像素网格,每个像素对应图像中的一个固定位置。
  • 量化

    • 将每个像素的颜色和亮度信息转换为有限的离散值。例如,在RGB颜色模型中,每个颜色通道通常使用8位(0-255)的整数表示。

 2-2 计算机视觉的基础工作原理

将图像或视频中的视觉信息转化为计算机可以处理的数字数据,并通过算法和模型进行分析和理解。

3. 计算机视觉的关键技术

任务类型定义输出形式常用方法应用场景
图像分类将整张图像分配到预定义的类别标签中,例如识别一张图片是“猫”还是“狗”。单一类别标签

- 卷积神经网络(CNN)如AlexNet、ResNet 

 - 传统方法如SIFT + SVM

- 图像搜索引擎 

 - 医疗影像诊断

 - 自动标签生成

目标检测识别图像中的多个对象类别,并确定每个对象的位置,通常以边界框表示。多个类别标签及其边界框坐标

- 单阶段检测器:YOLO、SSD 

 - 双阶段检测器:Faster R-CNN

- 自动驾驶

- 视频监控

- 零售业库存管理

语义分割将图像中的每个像素分类为特定类别,关注“什么”而不是“在哪”。与输入图像尺寸相同的分类图,每像素一个标签

- 全卷积网络(FCN)

 - U-Net 

 - DeepLab系列

- 医学影像分析

 - 农业作物识别

- 自动驾驶

实例分割不仅进行语义分割,还需区分同一类别的不同实例,为每个对象的每个像素赋予唯一标识。每个实例的精确分割掩码及类别标签

- Mask R-CNN

- PANet 

- YOLACT

- 增强现实(AR)

- 机器人导航 

 - 视频编辑

任务类型复杂性所需信息
图像分类最基础整张图像的整体信息
目标检测中等多个对象的类别及其位置信息
语义分割较高每个像素的类别信息
实例分割最高每个像素的类别及实例唯一标识

4. 计算机视觉技术的应用

三、图像分类基础

1. 图像分类的定义

1-1 图像分类的定义

图像分类的核心是从给定的分类集合中给图像分配一个标签。

主要特点
  • 输入:一张未经分割的完整图像。
  • 输出:一个或多个类别标签,表示图像所属的类别。
  • 任务类型
    • 单标签分类:每张图像仅属于一个类别。
    • 多标签分类:每张图像可以属于多个类别。

2. 图像分类的类别

2-1 单标签与多标签

2-2 跨物种语义级别的图像分类

2-3 子类细粒度图像分类

2-4 多标签图像分类

3. 图像分类遇到的挑战

4. 图像分类的常用数据集与网络


5. 图像分类的典型应用


四、目标检测基础

1. 目标检测的定义

1-1 目标检测

  • 识别图中有哪些物体
  • 确定他们的类别
  • 标出各自在图中的位置

 1-2 图像分类与目标检测的区别

2. 目标检测的评估指标

2-1 交并比:IoU
2-2 精确度(Precision)和召回率(Recall)
 2-3 平均精度值:mAP
  • AP:在不同召回率阈值下,Precision 的平均值。指标总结模型在特定类别上的综合性能。
  • mAP:对所有类别的 AP 取平均值,作为整体模型性能的指标。

3. 目标检测遇到的挑战

4. 目标检测的常用数据集与网络


5. 目标检测的典型应用

五、图像分割基础

1. 图像分割的定义

  • 目标是将图像划分为多个具有语义意义的区域或对象,以实现对图像内容的精细理解。
  • 与图像分类和目标检测不同,图像分割关注于图像中每个像素的具体归属,提供更高层次的图像解析。

2. 图像分割的类别

2-1 语义分割
  • 定义:将图像中的每个像素分类到预定义的类别中,但不区分同类别的不同实例
  • 应用:自动驾驶中的道路和行人识别、医学影像中的器官分割。
  • 同一类的像素都被归为一类
  • 像素级,背景分割(感兴趣区域和不感兴趣区域也做分割)

2-2 实例分割
  • 定义:不仅进行语义分割,还区分同类别的不同实例,为每个对象提供唯一的标识。
  • 应用:增强现实(AR)、视频编辑、机器人导航。
  • 物体分割

2-3 全景分割
  • 定义:结合语义分割和实例分割,既区分不同类别的像素,又区分同类别的不同实例,提供一份完整的图像解析。
  • 应用:复杂场景理解,如城市街景的全面解析。
  • 背景分割 + 物体分割

3. 图像分割遇到挑战

4. 图像分割常用的数据集和网络

5. 图像分割的典型应用


http://www.mrgr.cn/news/81387.html

相关文章:

  • Vue + ECharts 实现山东地图展示与交互
  • 基于卷积神经网络融合Inception模块的人脸识别
  • 《Vue进阶教程》(11)watch的实现详细教程
  • 继承详细总结
  • 120km/h柱碰不起火、不爆炸,宁德时代磐石底盘正式发布
  • 第一部分:mybatisPlus
  • js版本之ES6特性简述【Proxy、Reflect、Iterator、Generator】(五)
  • 时钟芯片入门指南:从原理到实践
  • 消息队列(一)消息队列的工作流程
  • 【老白学 Java】HashMap 的基本使用
  • 项目代码第6讲:UpdownController.cs;理解 工艺/工序 流程、机台信息;前端的“历史 警报/工艺 记录”;每个机台各个管道的数据(温度、压力、气体)
  • 【python】银行客户流失预测预处理部分,独热编码·标签编码·数据离散化处理·数据筛选·数据分割
  • postman http请求正常,使用前端代理服务器报403
  • 使用Qwen2-VL模型批量标注图像内容(图像理解)
  • YOLOv11模型改进-模块-引入多尺度大核注意力Multi-scale Large Kernel Attention
  • 【阅读记录-章节6】Build a Large Language Model (From Scratch)
  • 机器学习2-NumPy
  • 使用RabbitMQ
  • ABAP开发-权限控制
  • I.MX6U 启动方式详解
  • 解读1:TwinLiteNet论文中基础模块及其他相关模块总结
  • Centos7.9安装openldap+phpldapadmin+grafana配置LDAP登录最详细步骤 亲测100%能行
  • 基于ceres优化的3d激光雷达开源算法
  • EMS从0到1之数据采集
  • Issac ROS navigation测试
  • Vivado 编译(单核性能对比+高性能迷你主机+Ubuntu20.04/22.04安装与区别+20.04使用远程命令)