yuv分别代表什么意思,yuv分别代表什么( 二 )


在YUV这种方式里面 , 加入了亮度这一概念 。
在最近十年中 , 视频工程师发现 , 眼睛对于亮和暗的分辨要比对颜色的分辨更精细一些 , 也就是说 , 人眼对色度的敏感程度要低于对亮度的敏感程度 。
所以 , 工程师认为 , 在我们的视频存储中 , 没有必要存储全部颜色信号 。我们可以把更多带宽留给黑—白信号(被称作“亮度”) , 将稍少的带宽留给彩色信号(被称作“色度”) 。于是 , 就有了YUV 。
YUV里面的“Y” , 就是亮度(Luma) , “U”和“V”则是色度(Chroma) 。
YUV码流的存储格式其实与其采样的方式密切相关 。(采样 , 就是捕捉数据 。)
主流的采样方式有三种 , YUV4:4:4 , YUV4:2:2 , YUV4:2:0 。
具体解释起来有点繁琐 , 大家只需记住 , 通常用的是YUV4:2:0的采样方式 , 能获得1/2的压缩率 。
这些预处理做完之后 , 就是正式的编码了 。
编码的过程和原理我们就不解释了 。目前比较流行的编码格式有H.264 , H.265 。
这些编码格式有着非常惊人的压缩率 。以2013年推出的H.265为例 , 压缩率能够达到300~500:1(包括前面的视频输入信号YUV重采样) 。
也就是说 , 刚才那个1080p的视频 , 我们要直播的话 , 如果采用H.265编码格式(按300:1算) , 码流就是:
1,194,393,600?bit ÷ 300 = 3,981,312 bit/s
码流(Data rate)是视频文件在单位时间内使用的数据流量 , 我们可以理解为视频文件大小除以视频时长 。一般来说 , 码流越大 , 视频的压缩比就越小 , 画面质量就越好 。
是不是这样就算完啦?当然没有 , 我们还有音频没有计算呢 。
音频的计算相对来说要简单一点 。
声音是连续的模拟信号 , 我们对声音进行采样、量化、编码 , 最终变成数字信号 , 然后在网络中传输 。
采样的指标是采样率 , 也就是单位时间内(每秒)用多少个数据来描述声音波形 。
采样率越高 , 波形越接近 , 音质越好 。
采样率通常有24KHz、44.1KHz、48KHz等 。
常见的数字音频采样率
现在视频直播基本上都是用44.1KHz或48KHz采样率 。
然后是采样位数 , 也称为位深、精度、比特 。
这个值有点像前面所说的图像位色 。它可以理解数字音频设备处理声音的解析度 , 即对声音的辨析度 。这个数值越大 , 解析度就越高 , 录制和回放的声音就越真实(声音越细腻) 。
声音的采样位数有8bit , 16bit , 24bit等 。
一个bit数据大约可以记录6dB的声音 , 故定义0dB为峰值 。常见的16bit(CD音质) , 可以记录大概96分贝的动态范围 。24bit的声音动态范围-144dB(24×6)—0dB 。
人耳的无痛苦极限声压是90分贝 , 所以 , 一般来说数字音频基本上都会采用16bit的采样位数 。
声音通常会分为单声道或多声道(双声道、四声道等 , 两个以上的声道就属于立体声) 。双声道的话 , 就是×2 。
所以 , 在无损无压缩格式(例如wav格式)中 , 音频的码率=采样率(48k)× 位深度(16)× 通道数(2)= 1,536 kbps 。
注意 , 如果是有损压缩(例如mp3格式) , 音频的码率不等于这个格式 , 因为原始信息已经被破坏了 。
Mp3通过抽取音频中的一些频段来达到提高压缩比 , 降低码率 , 减少所占空间 , 但同时声音的细节如人声的情感、后期的混响等等都已经发生变形 。盲听的话也很难较快地分辨出wav和mp3 , 需要借助设备 。
Mp3目前是最为普及的声频压缩格式 , 可以最大程度地保留压缩前的音质 。Mp3常见码率是128kbps、192kbps、224kbps、256kbps 。320kbps是mp3格式的最高码率 。
我们一般都是用有损压缩格式 , 192kbps已经够用了 , 我们以192kbps为例吧 。
视频加音频 , 就是 3,981,312 bps + 192 kbps = 4,080 kbps 。
一般来说 , 考虑到一些抖动和冗余 , 网络需求带宽≈视频码率×1.3 。所以 , 带宽需求大约是 5,304 kbps 。也就是说 , 差不多6Mbps的带宽 , 就可以满足了 。