即时通讯中音频编码标准发展现状及发展趋势

一、概述
音频信号数字化之后所面临的一个问题是巨大的数据量 , 这为存储和传输带来了压力 。例如 , 对于CD音质的数字音频 , 所用的采样频率为44.1 kHz , 量化精度为16bit;采用双声道立体声时 , 其数码率约为1.41 Mbit/s;1秒的CD立体声信号需要约176.4KB的存储空间 。因此 , 为了降低传输或存储的费用 , 就必须对数字音频信号进行编码压缩 。到目前为止 , 音频信号经压缩后的数码率降低到32至/s , 语音低至8kbit/s以下 , 个别甚至到2kbit/s 。
为使编码后的音频信息可以被广泛地使用 , 在进行音频信息编码时需要采用标准的算法 。因而 , 需要对音频编码进行标准化 。MPEG4 BSAC工具中则使用了效率更高的算术编码 。AVS)目前正在研究制定AVS第2部分音频标准 , 并已经申请了部分专利 。AVS音频标准的指导原则是:在基本解决知识产权问题的前提下 , 制定具有国际先进水平的中国音频编码/解码标准 , 使AVS音频编码的综合技术指标基本达到或超过 MPEG AAC编码技术的指标 。目前正在开展移动部分AVS-M的音频标准制定工作 。
本文从介绍音频技术入手 , 介绍音频编码标准的发展现状以及发展趋势 。
二、音频编码技术和应用
2.1音频信号
通常将人耳可以听到的频率在20Hz到20KHz的声波称为为音频信号 。人的发音器官发出的声音频段在80Hz到之间 , 人说话的信号频率在300到 , 有的人将该频段的信号称为语音信号 。在多媒体技术中 , 处理的主要是音频信号 , 它包括音乐、语音、风声、雨声、鸟叫声、机器声等 。
表1数字音频等级
2.2音频编码技术
对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度 。音频信息在编码技术
中通常分成两类来处理 , 分别是语音和音乐 , 各自采用的技术有差异 。现代声码器的一个重要的课题是 , 如何把语音和音乐的编码融合起来 。
语音编码技术又分为三类:波形编码、参数编码以及混合编码 。
波形编码:波形编码是在时域上进行处理 , 力图使重建的语音波形保持原始语音信号的形状 , 它将语音信号作为一般的波形信号来处理 , 具有适应能力强、话音质量好等优点 , 缺点是压缩比偏低 。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术 。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点 , 通过为小信号分配小的量化阶 , 为大信号分配大的量阶来减少总量化误差 。我们最常用的G.711标准用的就是这个技术 。自适应差分编码是利用过去的语音来预测当前的语音 , 只对它们的差进行编码 , 从而大大减少了编码数据的动态范围 , 节省了码率 。自适应量化技术是根据量化数据的动态范围来动态调整量阶 , 使得量阶与量化数据相匹配 。G.726标准中应用了这两项技术 , G.722标准把语音分成高低两个子带 , 然后在每个子带中分别应用这两项技术 。
参数编码:利用语音信息产生的数学模型 , 提取语音信号的特征参量 , 并按照模型参数重构音频信号 。它只能收敛到模型约束的最好质量上 , 力图使重建语音信号具有尽可能高的可懂性 , 而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别 。这种编码技术的优点是压缩比高 , 但重建音频信号的质量较差 , 自然度低 , 适用于窄带信道的语音通讯 , 如军事通讯、航空通讯等 。美国的军方标准LPC-10 , 就是从语音信号中提取出来反射系数、增益、基音周期、清 /浊音标志等参数进行编码的 。MPEG-4标准中的HVXC声码器用的也是参数编码技术 , 当它在无声信号片段时 , 激励信号与在CELP时相似 , 都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合 , 它是将基音和谐音的正弦振荡按照传输的基频进行综合 。