当前位置：首页 > news >正文

jpeg学习

news 2025/4/10 13:45:55

相关最全的一篇文章链接：https://www.cnblogs.com/wtysos11/p/14089482.html

YUV基础知识

Y表示亮度分量：如果只显示Y的话，图像看起来会是一张黑白照。
U（Cb）表示色度分量：是照片蓝色部分去掉亮度（Y）。
V（Cr）表示色度分量：是照片红色部分去掉亮度（Y）。

YUV Formats分成两个格式：

紧缩格式（打包格式）（packed formats）：将Y、U、V值储存成Macro Pixels阵列，和RGB的存放方式类似。
平面格式（planar formats）：将Y、U、V的三个分量分别存放在不同的矩阵中。

YUV422平面：

在这里插入图片描述

YUV420平面格式：

在这里插入图片描述

YUV420内存布局：

在这里插入图片描述

转到YCbCr色彩空间后，就可以将 Cb（U) 和 Cr(V) 这两个通道进行降采样，这里一般是将 22 个像素变为 11 个像素，虽然分辨率下降到了四分之一，但对于人眼来说差别是不大的。

YUV422sp（Semi-Planar Semi）半平面模式：

在这里插入图片描述

RGB24一帧的大小size＝width×heigth×3 B，RGB32的size＝width×heigth×4，YUV标准格式4：2：0 的数据量是 size＝width×heigth×1.5 B

平面格式与交错格式内存存储：

在这里插入图片描述

YUV与RGB变换

在这里插入图片描述

YUV编码例子

https://zhuanlan.zhihu.com/p/106355033

Level Offset 零电平偏置下移

该步骤的作用是，图像内容平均亮度较高，将0电平移到中间，平均亮度降低，便于DCT变换量化后直流的系数大大降低，也就降低了数据量。

将灰度级 $2^n$ 的像素值，全部减去 $2^{n-1}$ ，数据形式由无符号数变为有符号数(补码)，单极性数据变为双极性数据。

Z形编码

在这里插入图片描述

DCT变换

将图像分为8×8的像块；对于宽（高）不是8的整数倍的图像，使用图像边缘像素填充，以不改变频谱分布。然后对每一个子块进行DCT（Discrete Cosine Transform，离散余弦变换）

在这里插入图片描述
其中，C是8x8的DCT变换二维核矩阵，F ( u , v ) 是原始的数据。由于DCT变换是一个正交变换，故 $C^T = C^{-1}$

变换核矩阵如下所示：

在这里插入图片描述

量化

JPEG系统分别规定了亮度分量和色度分量的量化表，色度分量相应的量化步长比亮度分量大。

对亮度和色度分量的DCT系数进行量化，使用如下量化表，该量化表是从广泛的实验中得出的。当然，也可以自定义量化表。

//标准亮度分量量化表
static const unsigned int std_luminance_quant_tbl[DCTSIZE2] = {16,  11,  10,  16,  24,  40,  51,  61,12,  12,  14,  19,  26,  58,  60,  55,14,  13,  16,  24,  40,  57,  69,  56,14,  17,  22,  29,  51,  87,  80,  62,18,  22,  37,  56,  68, 109, 103,  77,24,  35,  55,  64,  81, 104, 113,  92,49,  64,  78,  87, 103, 121, 120, 101,72,  92,  95,  98, 112, 100, 103,  99
};//标准色度分量量化表
static const unsigned int std_chrominance_quant_tbl[DCTSIZE2] = {17,  18,  24,  47,  99,  99,  99,  99,18,  21,  26,  66,  99,  99,  99,  99,24,  26,  56,  99,  99,  99,  99,  99,47,  66,  99,  99,  99,  99,  99,  99,99,  99,  99,  99,  99,  99,  99,  99,99,  99,  99,  99,  99,  99,  99,  99,99,  99,  99,  99,  99,  99,  99,  99,99,  99,  99,  99,  99,  99,  99,  99
};

对DCT变换进行量化后，得到的量化结果，会出现大量的0，使用Z形扫描，可以将大量的0连到一起，减小编码后的大小。越偏离左上方，表示频率越高，通过量化，将图像的高频信息干掉了。

编码

直流编码：DPCM + VLC 可变长熵编码（采用Huffman）

8×8图像块经过DCT变换之后得到的DC直流系数有两个特点：

系数的数值比较大
相邻8×8图像块的DC系数值变化不大，冗余

根据这个特点，JPEG算法使用了差分脉冲调制编码(DPCM)技术，对相邻图像块之间量化DC系数的差值DIFF进行编码：

在这里插入图片描述

对DPCM后算出的DIFF差值使用Huffman编码。所以，DC系数会产生一张长度为16的Huffman码表。

在这里插入图片描述

交流：ZigZag Scan + Run Length Encoding+VLC

对于量化后的数据，我们将其分为两路进行处理。一路是AC通路，一路是DC通路。

ZigZag Scan+RLE是用于AC通路的，这是因为AC分量出现较多的0。JPEG采用对0系数的游程长度编码。而对非0值，则要保存所需数和实际值。
在编码之前，需要把二维的变换系数矩阵转换为一维序列，由于量化之后右下角高频系数大部分为零，采用ZigZag Scan读取可以制造较长的零游程，提高编码效率。在扫描中，如果后续的系数全部为零，则用“EOB”表示块结束。

在这里插入图片描述

RLE编码的过程：

例：例如，现有一个字符串，如下所示：
57,45,0,0,0,0,23,0,-30,-8,0,0,1,000…
经过RLE之后，将呈现出以下的形式：
(0,57) ; (0,45) ; (4,23) ; (1,-30) ; (0,-8) ; (2,1) ; (0,0)
注意，如果AC系数之间连续0的个数超过16，则用一个扩展字节(15,0)来表示16连续的0。

在这里插入图片描述

所以，最后总共有4张Huffman码表（亮度DC，亮度AC，色度DC，色度AC）。

那么，这些码表如何存储？源数据又放在哪里？针对这些未解之谜，接下来我们就分析JPEG的存储结构。

JPEG编码示例

1.1 分块

某个图象的一个8*8方块的亮度值：

在这里插入图片描述

1.2 Level Offset

Level Offset 后（每个点值减去128）：

在这里插入图片描述

1.3 DCT变换

DCT变换后：

在这里插入图片描述

1.4 量化

在这里插入图片描述

其中，参照的量化表是：

在这里插入图片描述

量化时，使用量化前的值除以量化表中相应位置的值。具体计算公式如下：

$\frac{B[i] + 0.5}{Q[i]}$

在可以损失一部分精度的情况下，如何用更少的空间存储这些浮点数？答案是使用量子化（ Quantization ），简称量化。比如把要量化值分成16个区间，用0到16这样的整数来表示，这样只用4个bit就足够了。

随后，对于这个8*8方块的亮度量化后的数据分别进行AC和DC两路的编码。

量化过程可以参看如下网址的说明：
https://blog.csdn.net/weixin_43876729/article/details/121733344

1.5 编码

1.1 建立哈夫曼树

1）第一个码字必定为0。
如果第一个码字位数为1，则码字为0；
如果第一个码字位数为2，则码字为00；
如此类推。

2）从第二个码字开始，
如果它和它前面的码字位数相同，则当前码字为它前面的码字加1；
如果它的位数比它前面的码字位数大，则当前码字是前面的码字加1后再在后边添若干个0，直至满足位数长度为止。

由于没有1位的码字，所以第一个码字的位数为2，即码字为00；
由于2位的码字有两个，所以第二个码字位数仍为2，即码字为00+1=01；
第三个码字为3位，比第二个码字长1位，所以第三个码字为：01+1=10，然后再添1个“0”，得100；

如此类推，最后得到这个哈夫曼树如下：
在这里插入图片描述

哈夫曼表ID和表类型

这个字节的值为一般只有四个0x00、0x01、0x10、0x11。
0x00表示DC直流0号表；
0x01表示DC直流1号表；
0x10表示AC交流0号表；
0x11表示AC交流1号表。

在这里插入图片描述

查阅标记SOF0，可以得到图像不同颜色分量的采样因子，即Y、Cr、Cb三个分量各自的水平和垂直采样因子。

大多图片的采样因子为4：1：1或1：1：1。

4：1：1 即（22）：（11）：（1*1）

1：1：1 即（11）：（11）：（1*1）

记三个分量中水平采样因子最大值为Hmax，垂直采样因子最大值为Vmax，那么单个MCU矩阵的宽就是Hmax8像素，高就是Vmax8像素。

JPEG的压缩方法与BMP文件有所不同，它不是把每个像素的颜色分量连续存储在一起的，而是把图片分成Y，Cr，Cb三张子图，然后分别压缩。

解压缩实现细节：https://www.cnblogs.com/leaven/archive/2010/04/06/1705846.html

JPEG文件

JPEG的文件格式一般有两种文件扩展名：.jpg和.jpeg。严格来讲，JPEG的文件扩展名应该为.jpeg，由于DOS时代的8.3文件名命名原则，就使用了.jpg的扩展名，这种情况类似于.htm和.html的区别。

1992年颁布了JPEG File Interchange Format（JFIF），目前在互联网上用的最多的jpeg格式，接着又出现了EXIF格式，主要用于数码产品，记录了媒体的时间地点信息。

JPEG文件由一系列字段组成，每个字段都有marker（标记），由0xff开头。

在这里插入图片描述

（1）SOF marker（Start of Frame），这个字段定义了文件的起始

在这里插入图片描述
颜色分量信息字段解析
分量ID：1＝Y, 2＝Cb, 3＝Cr, 4＝I, 5＝Q
水平垂直采样因子：0－3位：垂直采样系数，4－7位：水平采样系数。采样系数是实际采样方式与最高采样系数之比，而最高采样系数一般＝0.5（分数表示为1/2）。比如说，垂直采样系数＝2，那么2×0.5＝1，表示实际采样方式是每个点采一个样，也就是逐点采样；如果垂直采样系数＝1，那么：1×0.5＝0.5（分数表示为1/2），表示每２个点采一个样
量化表ID：即使用的量化表的序号

（2）APP0(Application-specific)，这个字段定义了JFIF格式

在这里插入图片描述

注意：
如果“缩略图X像素数目”和“缩略图Y像素数目”的值均＞0，才有下面的
“RGB缩略图”，并且大小为 3×"缩略图X像素数目"×"缩略图Y像素数目"

（3）APPn(Application-specific)，定义了其它格式，如APP1表示exif格式

在这里插入图片描述

（4）DQT（Define Quantization Table(s)），定义了量化表

在这里插入图片描述

（4）哈夫曼表

在这里插入图片描述

一般有４个表：亮度的DC和AC，色度的DC和AC。
表ID和类型：0-3位是HT号，4位是HT类型(0=DC表，1＝AC表)，5-7位必须为0。一般值为00，10，11，01

在这里插入图片描述

紫线16个字节的含义是：1-16bit长度的每个哈夫曼节点的个数，比如上图中1-16bit的哈夫曼节点个数分别是1，0，1，3，5，1，1，0，0，0，0，0，0，0，0，0
也就是说，1bit的节点个数是1，2bit的节点个数是0，3bit节点个数是1，4bit节点个数是3, …
黄线字节分别解释了上述范式哈夫曼编码的权重。
此处难以理解的是，此处的哈夫曼编码是范式哈夫曼编码，具有固定格式，因此可以使用此处的描述找到相应的编码。

范式哈夫曼编码：

最小编码长度的第一个编码必须从 0 开始。
相同长度编码必须是连续的。
$C_j=2(C_{j-1} + 1)$

Symbol (十六进制) |  Code  (二进制)
-----------------+---------------
0x01             | 00
0x02             | 01
0x00             | 100
0x03             | 101
0x04             | 1100
0x11             | 1101
0x21             | 11100
0x05             | 111010
...              | ...
0xf0             | 111111111110
0x24             | 11111111111100
0x62             | 11111111111101
0xf1             | 11111111111110

编码是按照固定格式规定的，具体编码可以查看如下网址：https://blog.csdn.net/xiaoyafang123/article/details/120370880

以下图为例，介绍哈夫曼编码的生成过程。

在这里插入图片描述

规则：

第一个编码的数字必定为0；如果第一个编码的位数为1，就被编码为0；如果第一个编码的位数为2，就被编码为00；如果第一个编码的位数为3，就被编码为000
从第二个编码开始，如果它和它前面编码具有相同的位数，则当前编码是它前面的编码加1；如果它的编码位数比它前面的编码位数大，则当前编码时它前面的编码加1之后再在后面添加若干个0，直到满足编码位数的长度为止。

哈夫曼表值：哈夫曼编码：权值
00：：
01：00 ： 00
05：010，011，100，101，110 ： 01，02，03，04，05
01：1110： 06
01：11110： 07
01：111110： 08
01：1111110： 09
01：11111110： 0a
01：111111110： 0b

最终生成的哈夫曼树：

在这里插入图片描述

后面的权值字段，因为长度为1的编码为0，所以必然以0开始。

（5）SOS（start of scan) 扫描行

标志：FF DA
长度：12
扫描行内组件长度：3

接下来的组件结构体：

struct Part{
byte id;		//组件ID
byte tn;		//Huffman表号
};

剩余3个字节：00 3F 00

图像数据：紫色线框内的数据

注意：

组件ID值：1 = Y, 2 = Cb, 3 = Cr, 4 = I, 5 = Q
哈夫曼表号：0-3位：AC表号 (其值＝0-3)，4-7位：DC表号(其值＝0-3)
最后３个字节00 3F 00用途不明，忽略

在这里插入图片描述

使用哈夫曼表，实现对数据的解析。

以下图为例。

在这里插入图片描述

紫色线框中的二进制，解析为：

11110 0101111 0101 0110 1010

首先从DC的哈夫曼表中，读出11110，权值为7，接着从AC的哈夫曼表中读7位值2F，作为DC值。接着从AC表中，读出。

需要注意的问题

jpeg文件使用网络字节顺序
段之间的"FF"可以有无限多个

参考链接

https://blog.csdn.net/weixin_44874766/article/details/117444843
https://blog.csdn.net/yun_hen/article/details/78135122

查看全文

原文地址:https://blog.csdn.net/m0_37567738/article/details/144770024
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mrgr.cn/news/81958.html 如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！