音频质量评价

yinpin zhiilang pingjia

音频质量评价(audio quality evaluation)

对各类音频处理技术、设备或系统的输出声音质量进行测试和评判的技术，属于音频处理技术领域。广义上的“音频”，英文为“Audio”，包括人类能够听到的所有声音，“音频质量”，英文为“Audio Quality”，指的是音频信号经过传输、处理后保真程度，音频质量评价的范畴通常包括语音（Speech）、音乐（Music）、或其它可能形式的声音信号质量的评价。广泛用于语音和音频信号的编码、存储、广播、通信、娱乐等应用领域，是推动音频技术进步及提升人类的听觉体验的重要保障。

标准

国际标准组织如动态图像专家组（MPEG）、国际电信联盟（ITU）、第三代移动通信合作伙伴项目（3GPP），以及欧洲电信标准化协会（ETSI）等都非常重视语音和音频质量评价方法研究及标准化方面的工作，而且已经采纳或推出了一系列测试方法和测试标准。其中，ITU在音频质量评价标准制定中发挥了尤为重要作用，针对语音和音频不同应用场景给出了声音质量评价中的关键技术。例如1996年提出的针对语音编码和传输质量的ITU-T P.800/P.810/P.830，亦即语音通信中普遍使用的主观平均意见分（MOS，Mean Opinion Score）测试。由于主观测试是一种非常昂贵并很消耗时间的过程，1998年以后，ITU-T针对各种类型的语音传输应用提出一系列语音质量客观评价标准，P.861是ITU-T通过的第一个用于窄带话音的语音质量客观评价标准，后续的P.862系列标准提出语音质量感知评价(PESQ，Perceptual Evaluation of Speech Quality ) 算法至今被广泛应用，PESQ目前正在被2011年提出的ITU-T P.863标准，即下一代语音质量客观评价算法（POLQA，Perceptual Objective Listening Quality Analysis）所替代，POLQA适用于更广泛的固定网络、移动网络和IP网络通话质量评价。数字音频技术广泛应用于消费电子、广播影视、计算机网络和移动多媒体通信等诸多信息技术领域，但与数字音频技术的发展相比，数字音频评价方法的发展较为缓慢，尤其是包含宽带和三维音频的应用场合。在目前的技术水平下，主观评价是对音频质量进行测试的最可靠方法。1994年以来， ITU-R发布了一些针对音频质量主观评价的标准，其中包括ITU-R BS.1116针对小损伤音频的双盲三激励评价方法和ITU-R BS.1543针对中等音频质量的带隐藏参考和基准的多激励测试方法(MUSHRA，MUlti Stimulus test with Hidden Reference and Anchor)。音频质量客观评价方法发展较晚，直到20世纪70年代末，一些针对感知音频质量的客观评价方法才陆续提出。ITU-R BS.1387音频质量感知评价标准（PEAQ，Perceptual Evaluation Of Audio Quality）是迄今为止唯一的音频质量的客观评价国际标准，但是PEAQ还存在一些局限，需要原始音频信号作为参考，在较低编码速率下评价性能表现不佳，且算法的复杂度较高，不支持多声道音频测试。总而言之，ITU-T P系列测试标准在偏重语音信号的场合应用较多，而偏重音频（大多以宽带音乐为主）信号的场合可以使用ITU-R BS系列建议的测试方法，对于使用场合更为广泛的数字音频系统也可以使用多种测试方法，从而获得不同测试条件下的测试结论。

分类

音频质量评价根据评价主体可分为两大类：主观评价和客观评价，它们分别涉及多种评价方法，不同的音频应用场景或不同的音频编码格式所使用的评价方法也有所不同。主观评价方法是基于大量听音人对原始声音信号和失真声音信号（指经过音频处理后回放出来的声音信号）进行对比测听的基础上，根据某种预先规定的尺度对失真信号进行质量等级划分，它反映了听音人员对声音质量好坏程度的一种主观印象。音频质量主观评价是一项相当复杂的过程，涉及到心理学、生理学和专业人员的经验素养等。主观评价以人为主体来评价声音质量，该方式虽然较为繁杂，比较费时费力，并且具有人为的主观性及不稳定性，但由于用户是声音的最终接受者，因此这种评价是音频质量的真实反映，直观可行，需要具备科学的测试设计和数据分析以及严格规范的测试流程，在国际上被广泛使用。随着社会信息化的发展进程，人们日益迫切地需要简单、实用的音频质量客观评价方法。客观评价必然要借鉴主观评价的高度智能和人性化的过程，但是不可能找到一个绝对完善的测度和十分理想的测试方法，只能尽量利用所获得的信息做出正确的评价。客观评价方法多采用某个特定的参数去表征声音通过音频系统后的失真程度，并以此来评估处理系统的性能优劣。一般来说，一种客观评价方法的优劣取决于它与主观评价结果在统计意义上的相关程度。但研究客观评价的目的不是要用客观评价来完全替代主观评价，而是使客观评价成为一种能简捷准确预测主观评价质量的手段。在大多数情况下，主观评测相对于客观评测而言，更能全面、有效地反映音频处理技术的性能，而客观评测多用于音频系统中声音信号相关参数的性能评测。

主观评价方法分类

音频质量主观评价有多种分类方法，根据音质在主观感觉上的特性可分为可懂度评价和音质评价等；根据测试范围可分为现场（field）评测和实验室评测；根据声音信号传输方向可分为交谈意见测试（双向系统）和听音意见测试（单向系统）；根据音频信号种类可分为语音评价和音乐评价。目前主观MOS测试是国内外较为典型和常用的语音质量主观评价方法，MOS评分等级如表1所示，其它测试方法中所使用的评分等级可能有所不同。例如用于高质量音频评价的 BS.1116标准，其评分等级从1到5，精度保留一位小数，而用于中低质量音频评价的MUSHURA标准，其评分等级范围是0-100。实际测试中，很多因素都会影响到评价方法的选择，如测试内容，环境条件，信道条件，测试目的和费用限制等。实际工作中，主观评价测试过程还涉及很多细节问题，如测试环境参数校准、测试人员选择、测试材料录制、测试方案设计，测试执行过程、数据收集处理，数据分析方法等等。不管怎样的主观测试工作，首先应当明确测试目的，从而选取合适的测试方法。

表1 MOS评分标准

ITU-T 中建议的音质主观评价标准主要是ITU-T P系列关于语音系统性能评价的标准，偏重于语音信号的编解码和话音传输质量测试，例如电话系统、语音即时通讯、音频交互等。根据适用场合以及测试目的的不同，语音质量主观评价标准可以分为单向MOS测试和双向对话测试（也称交谈意见测试）。①ITU-T P.800语音质量的主观评价方法。该标准是对电话传输系统中声音质量主观评价的概述，其本质是平均意见分MOS，同时给出了语音质量主观评价的普遍方法和普遍测试环境，其他所有的测试都遵循该建议，特别是测试环境（在所有的主观评价方法中基本相同）。②ITU-T P.830 电话带宽和宽带数字语音编码器的主观评价方法。该标准对语音编解码器主观质量评价进行了概述，给出了基本的评测流程。③ITU-T P.805(04/2007) 对话质量的主观评价。该标准中提出的评价方法由两名被测者在交谈过程中感受通话质量并给出相应评测分数。由对话测试得到的评测结论，是对双向交互通讯系统质量的最有效的评估，多用于测试VoIP 系统。双向测试可以提供一个更为接近电话用户使用的真实条件的环境。 ITU-R发布了一些关于音频质量主观评价的标准，偏重于测试带宽较高的音乐信号，多用于数字音频存储、音频娱乐体验、音频流媒体等场合，对于高保真音频质量的测试环境和测试人员要求更高，在测试流程和数据分析上与常用的MOS测试有类似。①ITU-R BS.1116 多声道音频系统中小损伤主观评价方法，即通常所说的带隐藏基准的双盲三激励测试方法。该建议用来评价质量高，信号劣化十分小的音频系统，需要邀请有经验的音频专家来进行评测。②ITU-R BS.1285 音频系统中小损伤主观评价的预选方法，该标准提出了一种相比BS.1116更为简洁的预选方法，能够判断出一个音频系统是否是小损伤系统，如果是再使用ITU-R BS.1116-1标准来进行评价。③ITU-R BS.1534 中等质量音频系统的主观评价方法，即带隐藏参考和基准的多激励测试(MUSHRA)，是一种双盲的多激励音频信号听音比较测试方法。

客观评价方法分类

根据评价对象的不同，音频质量的客观评价方法主要有基于输入-输出和基于输出两种结构方式，如图1所。基于输入-输出的评价是指系统同时具备输入音频（一般为原始未失真的）和输出音频（经过音频系统处理的），再通过提取两种信号的特征参数来建立评价模型并给出客观评价结果。基于输出的评价是指在没有原始信号的条件下，仅根据系统的输出信号进行质量评价的方法。基于输入-输出的评价方法研究较多，产生的标准也较多，基于输出的评价方法因其实用性和可操作性也逐渐成为国内外学者研究的重点，但研究难度较大，产生的标准也少。

图 1 客观评价的两种结构方式

ITU-T中建议的音质客观评价方法侧重于评价话音信号质量，并逐步从窄带向宽带语音发展。①ITU-T P.861 电话带宽(300~3400Hz)语音编解码器的客观质量测试。P.861规定了用于客观质量测试的源语音产生过程以及基于感知语音质量测试(PSQM，Perceptual Speech Quality Measure)的客观评价方法，从而根据客观测试结果分析并估计出主观语音质量。PSQM以MOS的5个级别作为评价结果，但其与主观结果的相关度不及后来的PESQ算法，所以目前已使用不多。②ITU-T P.862 语音质量感知评价方法。该建议是基于输入-输出方式的典型算法，其中使用的（PESQ，Perceptual Evaluation of Speech Quality）算法将感知分析测试系统法（PAMS，Perceptual Analysis Measure System）的时间排列技术和PSQM的精确感知模型相结合，成为一种更为精确的评价方法。该标准主要用于窄带电话网络端到端语音质量和话音编解码器质量的客观评价。为了将PESQ评分与MOS分之间进行更接近的映射，ITU-T于2003年形成了P.862.1标准，实现将P.862原结果转换成客观听音质量平均意见分（MOS-LQO，Mean Opinion Score-Listening Quality Objective）（ITU-T P.800.1）的映射功能。2007年补充形成了P.862.2标准，用于宽带电话网络和语音编解码器的评估，是对P.862的宽带扩展。③ITU-T P.563 窄带电话应用中语音质量客观评估的单端方法。该方法是ITU-T产生的第一个不需要参考语音的客观评价方法，被建议作为单端型非插入式的测量方法，即基于输出的评价方法。与P.862相比，P.563能够在没有给定参考信号的情况下预测失真语音信号的质量。但P.563由于没有输入语音作参考，与主观结果的相关度没有PESQ高。④ITU-T G.107 用于传输规划的计算模型：E-模型（E-model）。为了克服PSQM和PESQ不能用于在数据网络上分析语音质量的缺点，该标准提出E模型算法作为通用的ITU-T传输性能等级模型，成为VoIP的语音质量评价标准。E-model将语音信号传输过程中若干因素（编解码、丢包、延时、回音等）对音质的负面影响综合为参数R值，被称为全面的网络传输等级要素，即用户满意等级，取值范围从0到100（与MOS的1-5分相对应），用以评估该语音呼叫的主观品质。⑤ITU-T P.863 感知客观听音质量分析方法。该标准提出了下一代语音质量客观评价算法—POLQA（Perceptual Objective Listening Quality Analysis），设计了更先进的心理声学模型，性能超越PESQ，它能够覆盖最新的语音编码和网络传输技术，对于3G，4G/LTE和VoIP网络有了更高的准确度。迄今为止ITU-R 发布的唯一的音频质量客观评价方法是ITU-R BS.1387，即PEAQ感知音频质量的客观测试算法，其利用了心理声学模型和人工神经网络，需要输出信号作参考。针对不同的实际应用场合，PEAQ算法给出了基本版本（BV，Basic Version）和高级版本（AV，Advanced Version）两种版本，前者适用于对实时性要求高的用户，后者适用于对精度要求高的用户。目前，PEAQ的使用还有局限性，与主观的相关度有待提高。