音视频基础知识
前置阅读
1.视频基础知识阅读
2.音频基础知识阅读
1 音视频录制原理
图片概述:
音频录制原理
- 声音捕捉:
使用麦克风将声音(压力波)转换为电信号。不同类型的麦克风(如动圈式、电容式)基于不同原理捕捉声音。 - 模拟信号放大:
电信号通常非常微弱,需要通过前置放大器进行放大,以便于后续处理。 - 模数转换(ADC):
放大的模拟信号通过模数转换器(ADC)转换为数字信号。ADC 以固定频率(采样率)对模拟信号进行采样,并将其量化为数字值。 - 音频编码:
数字音频信号通过编码器进行压缩,以减少数据量。常见的音频编码格式包括 PCM(脉冲编码调制)、MP3、AAC 等。 - 存储:
编码后的音频数据被写入存储介质,如硬盘、SSD 或闪存。
视频录制原理
- 图像捕捉:
使用摄像头的图像传感器(如 CMOS 或 CCD)捕捉光线,并将其转换为电信号。 - 信号处理:
电信号经过图像处理器进行处理,包括色彩校正、白平衡调整、锐化等。 - 模数转换(ADC):
处理后的模拟信号通过 ADC 转换为数字信号。视频信号通常包含亮度(Y)和色度(U、V)信息。 - 视频编码:
数字视频信号通过编码器进行压缩,以减少数据量。常见的视频编码格式包括 H.264、H.265、MPEG-2 等。编码过程包括帧内预测、帧间预测、变换编码和熵编码等步骤。 - 存储:
编码后的视频数据被写入存储介质,通常与音频数据一起封装在一个多媒体文件中。
封装格式
- 封装:
音频和视频数据被封装在一个容器格式中,如 MP4、AVI 或 MKV。封装格式定义了数据流的组织方式和文件结构。 - 元数据:
封装格式通常包含元数据,如文件的时长、编解码器信息、分辨率、帧率等。 - 索引和同步:
封装格式包含索引信息,支持快速定位到文件中的任意位置。音视频同步信息确保播放时能够正确对齐。
2 音视频录制原理
音频播放原理
- 读取音频数据:
播放器软件从存储介质中读取音频文件,这可能涉及到文件系统的访问和数据的缓冲。 - 解码音频数据:
播放器使用相应的音频解码器将压缩的音频数据(如 MP3、AAC)解码回未压缩的 PCM(脉冲编码调制)数据或其他原始格式。
解码过程可能包括熵解码、逆变换编码、滤波等步骤,以还原出接近原始声音的数字信号。 - 数模转换(DAC):
解码后的数字音频信号通过数模转换器(DAC)转换为模拟电信号。DAC 按照音频的采样率和位深进行转换。 - 放大和输出:
模拟电信号通过放大器放大,然后通过扬声器或耳机转换成声音波形,从而被人耳听到。
视频播放原理
- 读取视频数据:
播放器软件从存储介质中读取视频文件,这可能涉及到文件系统的访问和数据的缓冲。 - 视频解码:
播放器使用相应的视频解码器将压缩的视频数据(如 H.264、H.265)解码回未压缩的原始视频帧。
解码过程可能包括逆预测、逆变换、量化逆操作等步骤,以还原出原始的图像数据。 - 图像处理:
解码后的视频帧可能需要进一步处理,如色彩空间转换、缩放、滤镜应用等,以适应不同的显示设备。 - 显示输出:
处理后的视频帧通过显示接口(如 HDMI、DisplayPort)发送到显示设备,如显示器或电视屏幕,转换成图像。
同步控制
使用音频来控制音视频同步是一种常见的技术,特别是在处理视频信号和音频信号时。以下是详细解释:
- 音频信号的稳定性:音频流通常具有较低的延迟和较高的同步精度,这使得音频信号成为同步控制的理想选择。因为音频信号处理的复杂度通常低于视频信号处理,所以音频信号更容易实现精确的同步控制。
- 时间信息控制:一种方法是采用时间信息来控制模拟视频和音频信号的同步。这涉及到生成和输出具有预定时间周期的参考时钟,以及在数字视频数据和数字音频数据的预定区域上记录相应于参考时钟的时间信息。
- 延迟补偿:在对视频信号或音频信号进行信号处理时,可能会产生延迟。通过测量输入和输出信号之间的延迟时间,并计算两者之间的差值,可以求出相对于视频信号或音频信号的延迟补偿量。基于这个延迟补偿量,可以对应该输出的视频信号或音频信号进行延迟补偿,以实现同步。
- 精确同步:通过记录时间信息并同时输出具有相同时间信息的视频信号和音频信号,可以在信号处理完成后精确控制模拟视频和音频的同步。
- 系统延迟:由于音频流通过系统时出现的延迟极低,因此无需添加音频延迟补偿措施。而视频处理所需的时间和计算能力都大大超过音频,因此视频信号相对于音频信号会出现延迟。音视频同步控制的目标之一是减少这种延迟,确保音频和视频在播放时能够保持同