什么是H.264？

JVT(联合视频小组)于2001年2月在泰国芭提雅成立。它由ITU-T和ISO的视频编码专家组成。JVT的目标是制定新的视频编码标准，以达到高压缩比、高图像质量和良好的网络适应性的目标。目前JVT的工作已经被ITU-T接受，新的视频压缩编码标准叫做H.264标准，也被ISO接受，叫做AVC(高级视频编码)标准，也就是MPEG-4的10部分。

H.264标准可分为三个等级:

基础级(其版本简单，应用广泛)；

主要档次(采用了多项改善画质、提高压缩比的技术措施，可用于SDTV、HDTV、DVD等。);

扩展级(可用于各种网络的视频流传输)。

H.264不仅比H.263和MPEG-4节省了50%的码率，而且对网络传输的支持功能也更好。它引入了面向IP分组的编码机制，有利于网络中的分组传输，支持网络中视频的流媒体传输。H.264具有很强的抗误码能力，能够适应丢包率高、干扰严重的无线信道中的视频传输。H.264支持不同网络资源下的分层编码传输，从而获得稳定的图像质量。H.264可以适应不同网络的视频传输，具有良好的网络亲和力。

I. H.264视频压缩系统

H.264标准压缩系统由视频编码层(VCL)和网络抽象层(NAL)组成。VCL包括VCL编码器和VCL解码器。它的主要功能是视频数据压缩编码和解码。它包括运动补偿、变换编码和熵编码等压缩单元。NAL被用来为VCL提供一个与网络无关的统一接口。它负责将视频数据打包并在网络中传输。它采用统一的数据格式，包括单字节头信息、多字节视频数据和成帧、逻辑通道信令、定时信息、序列结束信号等。数据包报头包含存储标志和类型标志。存储标志用于指示当前数据不属于参考帧。类型标志用于指示图像数据的类型。

VCL可以发送根据当前网络条件调整的编码参数。

二、H.264的特点

H.264和H.261、H.263一样，也采用DCT变换编码和DPCM差分编码，即混合编码结构。同时，H.264在混合编码的框架下引入了新的编码方式，提高了编码效率，更贴近实际应用。

H.264没有复杂的选项，力求简单的“返璞归真”。它比H.263++具有更好的压缩性能，并具有适应各种信道的能力。

H.264应用对象广泛，可以满足不同速率、不同场合的各种视频应用，具有良好的误码弹性和丢包弹性。

H.264的基本体系不需要使用版权，是开放的，可以适应IP和无线网络的使用，对互联网上多媒体信息的传输和移动网络中宽带信息的传输具有重要意义。

虽然H.264编码的基本结构与H.261和H.263相似，但在很多方面都有所改进，列举如下。

1.各种更好的运动估计

高精度估计

H.263采用半像素估计，H.264进一步采用1/4像素甚至1/8像素的运动估计，即真实运动矢量的位移可能基于1/4甚至1/8像素。显然，运动矢量位移精度越高，帧间的残差越小，传输速率越低，即压缩比越高。

在H.264中，使用6阶FIR滤波器的插值来获得1/2像素位置的值。当获得1/2的像素值时，可以通过线性插值获得1/4的像素值。

对于4:1:1的视频格式，亮度信号的1/4像素精度对应于色度部分的1/8像素的运动矢量，因此需要对色度信号进行1/8像素的插值。

理论上，如果运动补偿的精度加倍(例如，从整数像素精度到1/2像素精度)，可以有0.5比特/样本的编码增益。但发现运动矢量精度超过1/8像素后，系统基本没有明显增益。所以在H.264中，只采用1。

多宏块分割模式估计

在H.264的预测模式中，宏块(MB)可以被分成七种不同的模式。这种多模式灵活微妙的宏块划分更符合图像中实际运动物体的形状，因此每个宏块可以包含1、2、4、8或16个运动矢量。

多参数帧估计

在H.264中，可以使用多个参数帧的运动估计，即编码器的缓存中有多个刚编码的参数帧，编码器选择其中一个作为给出更好编码效果的参数帧，并指出使用哪一帧进行预测，这样比只使用最后一个刚编码的帧作为预测帧可以获得更好的编码效果。

2.小号4码？4的整数变换

视频压缩编码中常用的单位是8？八美元。然而在H.264中，小尺寸的4？4块，因为变换块的尺寸变小了，运动物体的划分更加准确。在这种情况下，图像变换过程中的计算量较小，在运动物体边缘的收敛误差也大大减小。

当图像中存在较大的平滑区域时，为了不产生小尺寸变换造成的块间灰度差异，H.264可以计算出16 4的亮度数据？第二次4块DCT系数4？4块变换，4 4？4个块的DC系数(每个小块一个，***4个DC系数)是2？两个街区的变换。

H.263不仅使图像变换块大小更小，而且变换是整数运算，不是实数运算，即编码器和解码器的变换和逆变换精度相同，不存在“逆变换误差”。

3.更精确的帧内预测

在H.264中，每4？4个块中的每个像素可以用最接近先前编码像素的17个像素的不同加权和进行帧内预测。

4.统一的VLC

在H.264中有两种熵编码方法

统一的VLC(即UVLC:通用VLC)。UVLC使用相同的码表进行编码，解码器可以很容易地识别出字的前缀，因此当出现比特错误时，UVLC可以快速获得重新同步。

内容自适应二进制算术编码(CABAC)。其编码性能略好于UVLC，但复杂度较高。

第三，性能优势

与MPEG-4和H.263++相比，H.264采用了以下六种测试速率:32kbit/s、10F/s和QCIF；；64kbit、15F/s和QCIF；；128kbit/s，15F/s和CIF；256kbit/s，15F/s和QCIF；；512kbit/s，30F/s和CIF；1024kb/s，30F/s和CIF。测试结果表明，H.264比MPEG和H.263++具有更好的PSNR性能。

H.264的PSNR比MPEG-4高2dB，比H.263++高3dB。

第四，一种新的快速运动估计算法

快速运动估计新算法UMHexagonS(中国专利)是H.264中相对于原有快速全搜索算法可以节省90%以上计算量的新算法，全称是“非对称交叉多六边形搜索”，是一种整数像素运动估计算法。H.264标准正式采用了它，因为它的计算复杂度低，同时在以高比特率编码大的运动图像序列时保持良好的率失真性能。

ITU和ISO联合制定的H.264(MPEG-4部分10)有可能被广播、通信和存储媒体(CD-DVD)接受为统一标准，最有可能成为宽带交互新媒体的标准。中国的源码编码标准还没有制定。密切关注H.264的发展，我国信源编码标准的制定工作正在加紧进行。

H264标准使运动图像压缩技术上升到一个更高的阶段，在更低的带宽下提供高质量的图像传输是H.264应用的亮点。H.264的推广应用对视频终端、网守、网关、MCU等系统提出了更高的要求，这将有效促进视频会议软硬件设备在各方面的不断完善。