本书基于MATLAB编程以及实践案例,介绍多媒体(图像、音频、视频)处理的概念和原理及其在模式识别中的应用,帮助读者掌握读取、修改和写入图像、音频和视频文件的工具和技术。本书内容覆盖广泛全面,包括MATLAB/Simulink基础知识、各类绘图函数,以及图像处理、信号处理、小波、音频系统、信号处理系统、计算机视觉系统、统计和机器学习、网络工具箱等。
本书可作为多媒体处理、统计分析和数据可视化等MATLAB相关课程的教材,也可作为模式识别、计算机视觉和基于内容的检索领域的科研人员和工程技术人员的参考书。
第3章视频处理 3.1引言 视频是图像和音频的组合,因此一般而言,只要对图像和音频有效的理论和应用,通常也对视频有效。视频由一组称为帧的静止图像组成,这些图像以称为帧率的特定速度一个接一个地显示给用户,以每秒帧数为单位,缩写为fps。如果以足够快的速度显示,人眼无法将单幅图像区分为单独的实体,而是将连续图像合并在一起,从而产生活动图像的错觉,这种现象称为视觉暂留(PoV)。已经观察到帧率应该在25~30fps,以便让人眼感知没有间隙或抖动的平滑运动。添加音频并与图像的活动同步可以创建完整的视频序列。因此,一个视频文件是由多个图像帧和一个或多个音轨组成。同时处理如此多信息的一个缺点是文件大小增加,需要大量处理资源来处置它们。例如,一个一分钟的视频文件由30帧组成,每帧大小为640×480像素,并使用24位彩色信息,则占用的空间超过1582MB。以44100Hz采样的音频每分钟为文件增加10MB。此外,播放视频文件需要大约30MB/s的带宽。因此,压缩方案对于视频处理如此大的开销非常重要。 为了创建数字视频,我们首先需要将视觉和音频信息以电信号的形式记录在磁带或磁盘上。用于指定这种表示形式的术语是运动视频,以将其与电影院中使用的另一种称为运动图片的表示形式区分开,后者在电影院中使用光化学过程将视频帧记录到赛璐珞胶片上。电子信号形式的运动视频由模拟摄像机生成并存储在磁带(如录像带)中,然后使用录像带播放器(VCP)进行播放。电视传输也是运动视频显示的流行示例。早期的模拟摄像机使用称为阴极射线管(CRT)的真空管来生成这些信号,然后可以将这些信号馈送到监视器以显示视频,而音频则使用麦克风单独录制并馈送到扬声器以生成声音。单色或灰度视频需要来自摄像机的单个强度信号作为视觉信息以及一两个音频信号,具体取决于播放的声音是单声道还是立体声。为了在CRT监视器屏幕上显示图像,来自阴极的电子束被激活并聚焦在涂有荧光粉的屏幕上发光。磷光体是一种化学物质,当它与电子等带电粒子接触时会发出光芒。为了在屏幕上生成图像,电子束从屏幕的左上角开始,从左到右依次扫描第一行荧光点。在每条水平线的末尾,光束对角移动到下一行的开头并开始跟踪操作。在右下角,光束对角移动到左上角的起点,并再次重复该操作。这个过程称为光栅扫描,通常每秒需完成大约60次以获得屏幕上稳定的画面,这称为显示器的刷新率,屏幕上产生的每幅图像称为一帧。支持60帧/秒的监视器会产生不闪烁的图像,称为逐行扫描监视器。另一种技术,主要用于刷新率较低的监视器,称为隔行扫描,相应的监视器称为隔行扫描监视器。在该情况下,一帧被分成两半,每一半称为一个场。第一个由奇数行组成的场称为奇数场,第二个由偶数行组成的场称为偶数场。每个场只包含一半的行数,每秒扫描60次,从而将有效刷新率降低到30帧/秒。由于PoV,这种处理可使每个场中的行平滑混合,并有助于在低刷新率下生成不闪烁的图像。字母“p”和“i”用于区分逐行扫描和隔行扫描监视器,例如720p和1080i,数字表示监视器中水平行的总数。 新一代摄像机用称为电荷耦合器件(CCD)的电子光电传感器取代CRT,CCD产生的电信号大致与落在CRT上的光强度成正比。将来自CCD阵列的信号按顺序收集并发送到监视器进行显示。现代显示器使用液晶显示器(LCD)器件代替CRT和电子束。LCD器件是一种小的透明块,填充有由长棒状分子组成的液态有机化学物质,具有操纵光线通过该物质的方向的特性。LCD器件和一对偏振滤光片允许光线从背光源(如LED)流向前方的观察者,从而产生发光像素的感觉。流过LCD器件的电流可改变分子的方向,阻止光线到达观察者。打开和关闭特定点有助于在屏幕上创建图像。对于彩色摄像机,三个单独的RGB信号对应于红色、绿色和蓝色这三种基色,用于在屏幕上创建合成彩色,这些信号通过三条单独的电缆馈送到彩色监视器,这一方案被称为分量视频。在显示器内部,这些信号用于激活彩色生成系统,如CRT电子枪或用于彩色再现的LCD器件。 用于彩色再现的RGB信号在短距离传输时效果很好,典型情况是若干米。然而,当这些信号需要像电视传输那样跨越几千米的远距离传输时,工程师遇到了一些问题。首先,三根独立的铜缆运行数千米,使系统成本高昂。其次,即使忽略成本,由于衰减系数不同,沿三根电缆传输的三个独立信号也不会在同一时刻到达接收端,经常导致图像不同步和扭曲。再次,当彩色电视刚开始在几个国家传输时,早期的黑白(B/W)电视的单色系统也还在继续使用,因此工程师不得不想出一个系统,以便相同的传输信号可以满足同时连接到黑白电视机和彩色电视机,这是使用现有的RGB信号格式无法实现的。为了解决所有这些问题,开发了一种称为复合视频的新信号格式,它使用一种形式不同的称为YC的信号,这里,Y表示亮度或强度信号,C表示色度或彩色信号。这种格式相对于RGB格式的优点为Y和C都可以通过单个电缆或通道传
Copyright 版权所有 © jvwen.com 聚文网