研究文章|开放获取
Stuart Cunningham,Iain McGregor, "与ACER编解码器压缩的音乐的主观评估与AAC,MP3和未压缩PCM相比“,国际多媒体广播杂志, 卷。2019年, 文章的ID8265301., 16 页面, 2019年. https://doi.org/10.1155/2019/8265301
与ACER编解码器压缩的音乐的主观评估与AAC,MP3和未压缩PCM相比
摘要
音频数据压缩彻底改变了音乐行业和音乐家销售和分销产品的方式。我们之前的研究提出了一种新的编解码器,名为ACER(音频压缩利用重复),它通过利用音乐结构中的不相关性和冗余来实现数据缩减,同时在客观评估中一般保持可接受的噪声和失真水平。然而,以前的工作没有使用主观听力测试来评估ACER,留下了一个空白,以证明其在人类音频感知测试中的适用性。在本文中,我们提出了一个双盲听力测试,该测试在一系列听众(N=100)中进行。目的是确定ACER编解码器的有效性,在可感知噪声和空间失真伪影方面,相对于音频数据压缩和未压缩参考的实际标准。结果显示,在未压缩、MP3、AAC、宏碁高质量和宏碁中等质量压缩音频的噪音和失真方面,参与者没有感觉到差异,但宏碁低质量格式被认为质量较低。然而,在参与者对立体场的感知方面,所有被测试的格式都表现得一样好,没有统计学上的显著差异。对听众反馈的定性、主题性分析显示,宏碁技术产生的噪声伪影不同于比较器编解码器,这反映了它的新方法。结果表明,当代音频压缩系统的质量已经达到了一个阶段,其性能被认为与未压缩的音频一样好。宏碁格式可以作为一种替代,结果显示宏碁中等质量版本优于WAV、MP3和AAC。 The ACER process itself is viable on its own or in conjunction with techniques such as MP3 and AAC.
1.介绍
在本工作中,我们评估了ACER(音频压缩利用重复)编解码器的性能[1].在过去的25年中,音频压缩已经发达剧烈,在多媒体广播,内容分发,消费者娱乐和视频游戏等领域中实现了许多显着的进步。在此期间,一系列面向的精神声学损失编解码器导致了这一变化,最符合最大的是MPEG 1/2音频层3(MP3)及其继承高级音频编码(AAC)的引入。有损压缩技术的一般趋势继续遵循这种方法,增强了支撑的心理声音模型以及对多个渠道的支持和流媒体[2- - - - - -4].弗劳恩霍夫,MP3编解码器的创造者,宣布终止许可MP3技术在2017年支持其继任者AAC, MPEG-H,和增强的语音服务(EVS),对MP3的能力产生了怀疑与替代音频编码方案从夫琅和费和其他供应商(5].
在以前的工作中,提出了宏碁音频编码方案。宏碁通过能够利用基于字典的方法利用音频文件中包含的音乐结构来不同地接近音频压缩的任务。宏碁方法在音频压缩域中是不寻常的,其中更传统的方法是利用人类听力的心理声学模型,并以跨频谱分配比特的方式反射这些方法。这主要通过专注于可以识别的音乐的感知特征来实现,以便在底层音频信号中利用冗余和无关紧要的音乐1].宏碁方案被设想为一个独立的编码方案,或作为可能先于其他编解码器(如MP3、AAC或Ogg Vorbis)的额外处理步骤。然而,宏碁现有的评价只注重客观的质量评价[1]及在不受控制的环境下进行的试验性主观评估[6].
在本研究中,我们针对两种流行的音频编解码器(MP3和AAC)以及未压缩波(WAV)版本的音频对ACER方案进行了大规模评估。由于我们感兴趣,在这项研究中,在人类对音频压缩方案的感知,我们关注于评估关键的感知质量。因此,我们旨在研究以下零假设:H1未压缩的WAV、AAC、MP3和ACER音乐样本在噪音和失真方面的感知差异不显著。H2:在未压缩的WAV,AAC,MP3和宏碁音乐样本之间的音频立体化成像方面,音频质量的感知差异是微不足道的。
我们建议,如果这些假设得到维持,那么使用ACER编解码器可以被认为是一种适当的音频编码替代方法,以独立的形式,或者与现有的心理声学编码技术集成,以提高可以实现的数据减少量。宏碁编解码器的使用有可能扩大可用音频压缩技术的范围,提供一个替代的数据还原法在心理声学的压缩的情况下,减少光谱分辨率,可能不合适,比如在某些音频分析任务或高保真音频回放。
本文的其余部分组织如下:下一节通过提供对最近在音频压缩领域和相关的感知测试方法领域的研究的关键讨论提供了背景技术。之后,提出了宏碁压缩方案的概述。部分4描述以前主观听力测试的方法和刺激因素。部分5探索兼职音频编解码器的宏碁方案的结果和分析。部分6探讨参加者对每个编解码器的经验的定性描述。最后,我们提供了结论,并结合本研究的局限性和未来工作领域的讨论。
2.相关工作
音频压缩方案从开始到评估的发展是一个涉及多个学科的领域,包括计算机科学、音频工程、听力测试和评估。在本节中,我们的目标是为读者提供一个广泛的、信息丰富的音频数据压缩相关方面的描述,这将上下文化并支持本文所述的工作。
2.1.音频编码
与其他形式的数字媒体信息一样,音频在如何减少存储和传输所需的比特数方面受到了极大的关注。在模拟到数字转换(采样)的过程中,我们必须决定后续音频的采样率和比特深度,以确保原始声音的期望频率和水平动态能够被呈现出来。这通常是在创建必要的压缩脉冲编码调制(PCM)表示时完成的,PCM本身可以描述为数据压缩的一种形式。为了给听众提供高保真(Hi-Fi)音频复制,成功地复制频率和动态是至关重要的。然而,人类听觉系统(已经)不是线性的频率和振幅的解释听起来了,这意味着人类感知的声音并不总是要求的所有潜在的声音频率和动态品质的声音存在,当听觉刺激。频率和时间掩蔽现象[7,8]通常用于有损的音频压缩方法。大多数现代编解码器是混合的,增强语义方法,如与HAS相关的感知冗余,与传统的语法方法,如Huffman [9]和米[10]代码。
音频的无损编码方法虽然有效,但就可获得的数据量而言,却基本上停滞不前[11].无损音频编码领域的一个例外是Free无损音频编解码器(FLAC),它能够在不丢失数据的情况下实现2:1的压缩比[12].在音频压缩方法中,FLAC产生无损音频的能力是相对的新颖性,尽管它不能产生类似的压缩比率,其有损的同时瓦通常在4:1和15:1之间。在使用线性预测器的这些原则上,其他当代无损技术已经扩展,达到压缩比的边际增加[13,14].重要的是,任何音频压缩方法都能有效地减少用于表示声音的比特数。在无损技术中,原始信号的保存是至关重要的。
然而,通常需要使用有损技术来实现更高的压缩比,这通常是通过利用心理声学特性和HAS的局限性来实现的。至关重要的是,解码过程不会抑制声音的流畅播放,这要求它是快速的,需要少量的CPU处理时间,并产生相对准确的结果。因此,音频编码技术是不对称的,在压缩过程中有可容忍的延迟,只要解压过程尽可能接近实时[15].有损的技术在数字媒体内是司空见惯的,特别是关于音乐,并通过诸如OGG Vorbis(ogg Vorbis)的方法而举例说明[16],mp3和aac [17].这些方法实现了可伸缩的数据缩减,取决于使用应用程序,并能够获得与未压缩音频高度相似的感知结果[18- - - - - -20.].
最近在音频压缩领域的发展已经看到了一些工作,以提高在非常低的比特率(如24、48、64或92 kbps)下操作的编解码器产生的音频保真度。21,22]而且可以考虑约120至256 kbps的编码典型,旨在实现极高的“感知透明”数据减少编码。工作还专注于高质量电信和多通道系统的音频压缩系统,设计用于空间音频再现,通常为6或8个通道,但很容易扩展到更大的数字[23].
2.2.感知音频评估
在处理音频时,在测量编解码器的性能时包括感知评估是关键。根据要被广泛采用的数据减少过程,根据数据减少过程的结果确定如何对侦听器的声音是必不可少的。可感知评估可以使用目标和/或主观机制进行。
客观评估依赖于被分析音频的信号特征,并与已知的参考或基准进行比较。这个过程可以使用简单的机制,如信噪比(SNR)或更复杂的算法,基于人类听觉系统的模型,如音频质量的感知评估(PEAQ)指标[24].这两种方法通常是快速方便的实现,实现并评估大量的音频样本。然而,更简单的音频质量测量可能不一定反映对信号的实际人类感知。由于人对其独特的听觉系统的人员的差异,更复杂的模型可能无法完全一致[25,26].
客观测试是一种方便和资源高效的方法来测量特定音频编解码器的有效性。特别是由于进行主观测试的典型障碍是时间、设备资源和获得足够数量的参与者,因此有限的证据表明,较高比特率音频编解码器的客观测量产生的结果与主观评价相当[27].然而,人们认识到,任何新的编码技术的引入都应该辅以主观测试,以获得对知觉效果的更全面的了解[24,28].
就这种音频质量评估使用的理想参与者而言,如果使用专家侦听器,如果使用NOTExpert侦听器,则国际电信联盟无线电通信(ITU-R)机构最少地倡导10,如果使用专家侦听器,或者至少20名29].现有的主观音频评估研究倾向于采用小样本量,平均参与人数为26人[30.- - - - - -33].
2.3.当代编解码器的性能
在进行的一项主观评价中[22),它是发现,在低比特率不同24 kbps至64 kbps, MP3,高效率AAC、低AAC格式,其他5个编码方案中常用广播应用程序收到一组不同的主观质量分数23参与者的退化中音频。然而,在较高的比特率下,这些方案在分数之间表现出更大的一致性,并且降低了退化程度,“……所有编解码器都提供了近乎透明的音频质量”。这项工作表明,在相对较高的比特率(在128kbps和320kbps之间变化)下,心理声学编解码器在感知上表现相似。
另一项研究[20.]评估在一系列比特率,96,128,192,256和320 kbps的MP3音乐编码,采用共压低的CD质量音频,使用共13个培训的侦听器,包括一系列背景,包括音乐员和音乐家。他们研究中的五个音乐样本是从两个类型中抽出的:摇滚和古典。每个剪辑持续时间在5到11秒之间,涵盖来自各个歌曲的不同音乐短语。参与者在每个音乐样本的六个表示中进行了一系列AB比较。在所有参与者和音乐曲目中,他们的调查结果表明,与96,128和192 kbps MP3版本相比,对未压缩的CD质量音频有统计上显着的偏好。但是,在将CD质量音频与256和320 kbps MP3版本比较时,鉴定了没有显着差异。本研究的参与者也被要求提供他们在音频中感知的人工制品和扭曲的定性描述。作者确定了以下类别的人工制品,按其发生实例:高频伪影,一般畸变,混响,瞬态人工制品,立体图像,动态范围和背景噪声。这项工作是有意义的,因为它表明参与者不能轻易区分超过256kbps的阈值的MP3和未压缩的音频,以及呈现用于测量可能在编码音频样本中被感知的人工制品的潜在框架。
3.宏碁编解码器方法摘要
宏碁方法的主要宗旨是利用当代音乐中存在的结构组成冗余,以实现数据减少,而不是依赖于其所产生的感知的缺陷。特别是流行音乐利用重复作为有意识的工具来接合听众并将形式和结构带到一块。在大量情况下,这意味着在音乐播放期间的若干实例中重复相同的内容而不是相同音乐序列的人类性能,这将易于对时序和动态的微妙差异。这种重复的存在引发了检测冗余的机会,并利用来实现数据压缩。宏碁方法借鉴了基于无损词典的方案的原则[15来实现这一点。这些原则可以很容易地通过图中C大调的短序列乐谱来说明1.
这个例子展示了一个简单的音乐旋律,包含八个小节,总共使用了30个明确编码的音符。很明显,在这种表示中存在冗余,可以利用这些冗余来实现块的缩小尺寸表示,这些冗余对象可以用不同大小的窗口(持续时间)检测到。例如,序列中的第一个音符总共出现了13次(每个音符在图表中用箭头突出显示);然而,字典索引和符号的开销使这种方法效率低下。在更大的范围内,第一个完整的音乐条出现了4次(由阴影矩形突出显示),这可能节省了30个音符中的8个,外加少量的编码开销。还可以观察到,进一步按比例放大,乐曲的前三小节与第五、第六和第七小节相同(用虚线突出),呈现出另一种冗余,节省了30个音符中的12个,加上一个小的编码开销,因为第一行(第1至第4小节)和第二行(第5至第6小节)只有最后两个音符不同。
宏碁技术采用上述方法,并执行相同的原则,正如在符号级上讨论的,但在信号级。这带来了额外的挑战,因为许多因素,如噪音,复调,和缺乏量化,以及表演和表达的因素。ACER在音乐音频片段中进行搜索,以检测在感知上相同或相似的音乐片段,并提取冗余片段。
宏碁编码过程始于建立一个搜索块,其具有使用要编码的音乐轨道的速度导出的尺寸。通过轨道信号的节拍检测分析,可以使用元数据来获得使用元数据来获取速度,或者如果没有可用元数据。然后将曲目分为连续目标相同大小的块和线性搜索被执行,以识别那些感知上相似的块。在比较搜索和目标块时,对每个块进行加窗傅里叶变换,并从两者计算出差分谱。然后将这个差谱的平均值与一个阈值进行比较,以确定这两个块在感知上是否相似。阈值是在搜索之前定义的,具有操纵质量设置和宏碁将实现的压缩量的效果[1].当所有当前目标块都与搜索块进行比较后,搜索块继续递增,直到搜索空间耗尽。将匹配搜索的索引位置和识别出的相应目标块存储起来,以便以后从轨迹中删除。因此,当宏碁编码阶段完成时,最终用户将得到音频块和索引的集合,从这些集合中可以重建原始音轨的表示。算法的这些步骤在我们之前的工作中有更详细的定义[1].
感知类似的定义是基于使用人类听众开发的回归模型,其形成了宏碁压缩过程和算法的前面技术描述的一部分[1].在该研究中,进行了宏碁系统的客观质量评估,其中客观差异等级(ODG)[24]和信噪比(SNR)研究了宏碁音频质量(保真度)的五个不同级别。在压缩的43个音轨中,平均比特率达到如下:1037 kbps(最低质量)、1118 kbps(低质量)、1218 kbps(中等质量)、1298 kbps(高质量)和1352 kbps(最高质量)。宏碁质量的两个最低水平被认为表现不佳,平均落在ODG描述的“令人讨厌”和“非常令人讨厌”之间。相比之下,高质量的ACER编码在“不可感知”和“可感知但不烦人”的描述符之间得分最高,在“可感知但不烦人”和“略烦人”之间得分第二,在“略烦人”和“略烦人”之间得分第三。在这些发现之后,对ACER方案进行了小规模的主观评估,其中对每个编码水平进行了调查,以确定每个[6].因此,对于在此处进行的研究,只采用了宏碁方案的质量水平的上部三个,现在重命名如下:宏碁高,宏碁介质和宏碁低。
我们以前的研究缺乏任何深入和持续的主观性主观,感知评估宏碁方案的功效与未压缩和压缩的替代格式(MP3和AAC)相比。这是由于缺乏时间和访问专家听力套件资源。这是在这项工作中解决的这种缺陷。
4.材料和方法
4.1.方法
与未压缩的WAV,MP3和AAC编码的音频相比,进行了一个听力测试研究以确定宏碁方法的感知质量和性能。使用听诊方法,如ITU-R BS-1116 [34]或多种刺激隐藏参考和锚(麦呵)[35是一个可行的方法。然而,这种方法要求研究参与者是精通于检测音频质量细微差异的专业听众。虽然使用专业听众是为了确保可靠的结果,但它并不能准确地反映更广泛的人群,他们对音频质量的感知有更大程度的差异。基于此,我们采用了一种定制的方法,并决定在研究中使用未经训练的听众。
参与者有机会听到10首精选歌曲中的一小段(20秒)。每一个都被重复播放,直到参与者完成他们的回答或希望继续。他们能够听到每首歌的六个版本:未压缩的WAV、MP3 192kbps CBR、AAC 192kbps CBR、宏碁低质量、宏碁中等质量和宏碁高质量。每个样本同时播放,并随机输入Canford源选择器HG8/1硬件开关,允许参与者使用一个简单的旋转开关自由选择他们正在听的样本流。
根据制造商的规格,封闭式Beyer动态DT770M 80-欧姆耳机被选择用于研究,因为它们具有35 dB的被动环境降噪。设置RANE HC6S耳机放大器,使得RMS水平为82 DBC,符合ITU-R推荐的参考水平[29,34],峰值为95 dBC。音乐是最流行的媒体形式的耳机使用,采用和经常使用的高水平[36,37].耳机据报道,计算机扬声器用于消耗音乐后的第二个等于最流行的方法[38].
使用耳机还能最大限度地减少任何房间的声学色彩的影响,众所周知,声学色彩会影响听力研究[39].由于驾驶员的接近和最小的串音,它们也可能促进更大程度的细节。众所周知,当使用耳机时所体验到的立体声图像将不同于扬声器。然而,当使用耳机时,听者感觉声音来自外部世界[40].研究发现,在音频评估情况下,演播室扬声器与演播室质量耳机之间的差异不大;两个MUSHRA [41]听取测试的ITU-R标准通过耳机或扬声器的使用方式[29,34].
对于每首歌,参与者被邀请用纸质的记分表对两个问题做出回答。第一个与样本中是否存在噪声有关,第二个与他们所经历的立体声图像的质量有关。这两个问题所用的措辞是根据ITU-R BS.1284中推荐的术语选择的[29].评分表上的每个问题都清楚地阐述了分级规模的每一端使用的评分标准和双极描述符。
参与者被要求根据噪音和失真程度对每个片段的音频质量进行评分,评分标准为5分,具体如下:1 =难以察觉的噪声和扭曲;5 =可察觉的噪音和扭曲.这个问题将允许参与者参考样本中存在的任何类型的噪声或人工制品,为捕获线性和非线性失真因素提供了范围。然后,参与者被要求对每一段视频的立体声图像质量进行评分,使用的是以下五点语义差异量表:1 =狭窄和不精确;5 =宽而精确.同样地,这个问题让参与者有机会描述立体声传播以及他们在音乐中定位不同声源的能力。当参与者听十首歌曲样本中的每一首的六种编解码版本时,他们被要求指明六个片段中他们最喜欢的和最不喜欢的。
4.2。参与者
来自爱丁堡纳皮尔大学默奇斯顿校区的100名参与者参与了听力测试。在背景方面,28%为大学学生,33%为学术或教职员,39%为行政及支援人员。参加者没有获得任何形式的酬金或任何其他形式的诱因。
在其他人口统计细节方面,55名参与者是女性,45名是男性。平均年龄40岁(SD=12),最低年龄20岁,最高年龄68岁。所有的参与者都认为自己的听力在他们的年龄中是正常的。17%的人表示他们接受过某种形式的专业音频训练,37%的人表示他们接受过某种形式的音乐训练。最后,参与者被要求说明他们通常每天花多少时间听音乐。72%的人回答说他们每天听音乐1到3个小时,8%的人根本不听任何音乐。
4.3。测试材料
评估中共使用10个音乐摘录。从英国当代流行音乐的双CD专辑汇编随机选择了这些歌曲:这就是我所谓的音乐!90[42].之所以选择它,是因为它代表了抽样人群中当代流行音乐的广泛样本。选择用于评估的轨道见表1.
|
由于样本是从一张商业CD中提取的,每首歌都以CD音频质量表示(Red Book) [43]:两种补体二元44.1 kHz采样率,16位字长,2个通道(立体声)和PCM录制。从每首歌,提取持续时间20秒的样本。每个样品的开始具有1.5秒的线性淡化,并且在每个样品的末端施加等效的1.5秒淡出。此修改旨在使您对参与者突然突然听到每个剪辑的经验,并使每个样本开始和完成时更容易确定。
为了制作每首歌的压缩版本,这些片段经过了各自的压缩处理,随后提取了相同的20秒长的摘录。然后根据ITU-R关于音乐样本持续时间和呈现方式的建议,应用渐入和渐出[29].由于评估将以双盲方式进行,因此随后将所有样本重新置为CD质量PCM并分配随机生成的四字符串的名称。然后将这些材料传递给进行听力评估的第二作者。
获得的比特率为每六个版本的歌曲显示在表中2.值得注意的是,除了ACER方法外,其他方法提供固定的比特率,而不管音频内容如何。在本实验中使用的10个轨道中,ACER高质量编解码器的平均尺寸减少了12.60%;宏碁中等质量产品的尺寸平均减少了19.92%;而宏碁的低质量则平均减少了27.53%的规模。
|
由于ACER技术通过去除特定音乐音频中的冗余来操作,压缩量(即降低比特率)直接受到音频文件本身的音频内容的影响。例如,在音乐演奏、发音和配器中具有大量重复和少量变化的音乐将在ACER方案中实现更低的比特率,而那些可能被认为更前卫的音乐,具有非常规的结构或在演奏、发音方面有很大的变化,而编排,则会实现更少的比特率降低。宏碁方案的质量设置限制了编码器容忍的感知相似性的数量:高质量设置对哪些序列被认为是匹配的严格,而低质量设置则不那么严格,更有可能导致感知异常。
5.结果:定量措施
虽然有100人参加了听力测试,但他们并没有义务为每个音频刺激提供评级,以适应听者的不确定性或无法选择偏好。这种不强迫参与者提供回答的要求也是获得听力研究所在的爱丁堡纳皮尔大学(Edinburgh Napier)伦理批准的要求。因此,并不是所有的参与者都对所有的刺激提供了一套完整的评级,这使得完整的、重复测量的评级比较不可能使用完整的100名参与者。那些没有为每一个音轨提供评级的人被排除在后面小节的分析之外,这些小节处理从听力测试中评估的噪音和立体声场因素的定量评分。然而,如果参与者回答了接下来的问题,关于他们最喜欢和最不喜欢的版本,他们的回答将被包含在接下来的小节中,并且任何收到的定性反馈也会被使用。这被认为是一个合适的策略,因为参与者可能没有错误地对每个曲目的某些版本进行评级,考虑到相对较多的比较(6 10)进行。
5.1。噪音和失真的感知
100名实验参与者中有68人提供了一套完整的分数(n = 68)。在听诊实验中使用的10首歌曲中的每一个获得的结果概述如图所示2(歌曲1至5)和Figure3.(第6至第10首歌)。这些图表显示了每个编解码器的平均得分,误差柱状图显示了一个标准差。
从这些数字可以看出,在感知噪声和失真方面,六种编码变异的平均值和标准差(SD)分数似乎是相似的。这些描述性统计具体显示在表中3.和4.实验包含两个自变量:六种用于编码音乐的方法和十种被编码的音乐曲目。为了解决零假设H1,在这篇文章的介绍中所述的,一个双向重复测量的方差分析被执行,从所有68个有效回答有关噪音和扭曲的问题的分数收到。这样做的预期是,如果每一种编码机制在质量上是相同的,那么听力测试参与者的分数就不应该有显著差异。重复测量的方差分析与Greenhouse-Geisser校正显示,噪声和扭曲的分数在六种编解码器之间存在显著差异F(3.829,256.516)= 5.988,P <0.001.使用Bonferroni校正的事后成对测试显示,这一结果是由于宏碁低质量编码导致的,除了宏碁高质量编解码器得分外,其他所有编解码器的噪声和失真得分都有显著差异。
|
|
其余五个编解码器之间没有统计学上的显著差异。每个编解码器两两比较得到的p值说明了这一点,如表所示5,具有重要值(p < 0.05)以粗体突出显示。这部分听力测试的结果表明,除了ACER低质量编解码器外,其他编解码器在噪声和失真方面的表现与未压缩的WAV音乐样本一样好。
|
5.2。立体图像感知
通过100个实验参与者的63个(n = 63)提供了一套完整的分数。在听诊实验中使用的10首歌曲中的每一个获得的结果概述如图所示4(歌曲1至5)和Figure5(第6至第10首歌)。这些图表显示了每个编解码器的平均得分,误差柱状图显示了一个标准差。对这一描述性信息的初步视觉检查显示,在分析的每首歌曲中,总体上是一致的,在审查下的每一个编解码器的性能方面,没有特定的趋势。这表明,在他们所感知的立体图像方面,每种编码方法之间没有显著差异。
从这些数字可以看出,在感知立体图像方面,六种编码变异的均值和标准差(SD)得分似乎是相似的。这些描述性统计具体显示在表中6和7.
|
|
实验包含两个自变量:六种用于编码音乐的方法和十种被编码的音乐曲目。为了解决零假设H2在引入本文中表示,对从所有63个有效答案的分数对与立体声图像相关的问题的分数进行了双向重复措施Anova。这样做的预期是,如果每一种编码机制在质量上是相同的,那么听力测试参与者的分数就不应该有显著差异。具有温室揭示校正的重复措施Anova在六个编解码器之间的立体图像中没有显着差异F(4.097, 254.019) = 1.116, p > 0.05.这部分听力测试的结果表明,在实验参与者感知到的立体声图像质量方面,所有编解码器都表现得与未压缩的WAV音乐样本一样好。
5.3.音频编解码器的偏好
与这部分测试的参与很高,几乎所有参与者都针对至少指定给他们的10首歌曲中的至少一个的最喜欢的编码版本(97名参与者表达了936个可能的1000偏好)和最不喜欢的版本(96名参与者表示907可能的1000偏好)。50名参与者为每首歌提供了最爱,而46则提供了不完整的最爱。鉴于这个问题的重复性,并充分利用所获得的数据,决定包括在一次或多次表达最爱的参与者,而不是排除任何没有100%完成的数据。在所有十首歌曲样本中聚合这些分数以产生六个编解码器音频样本的分数分配。桌子8显示所获得的最喜爱和最不喜爱编解码器的比例。
|
用Chi-Square测试仔细检查显示,最喜欢的编解码器的分布以非均匀的方式分配χ2(5) = 13.744, p < 0.02,与参与者最不喜欢的编解码器的分配一样χ2(5)= 62.956,P <0.00001.提供对最喜欢的均衡分析与最不喜欢最不喜欢的数字6显示对两组结果之间的差异的分析,以帮助说明编解码器偏好的总方向(正面或负)和这种偏好的强度。
数据显示在图中6表示未压缩的WAV、MP3 192kbps、AAC 192kbps、中等质量的ACER和高质量的ACER编解码器都收到了积极的偏好,其中未压缩的WAV表现最好,其次是AAC和中等质量的ACER。从这个分析中最显著的结果是对低质量的ACER编解码器的强烈反感,这是唯一一个总体上有负面偏好的。这一结果支持了参与者对噪声和失真的评分结果,这表明只有低质量的ACER编解码器在统计上与其他编解码器不同,其余五个编解码器在感知的音频质量方面是相似的。
6.结果:定性的措施
以前概述的定量措施为每个调查的编码计划提供了倾听者的看法和偏好的强大且可靠的指标。如前所述,这种方法是评估受控情况中音频质量的常用方式。为了提高这些调查结果的有效性,并为听众经验提供更详细的探索和理解,是一个主题分析[44请描述一下你在任何音频片段中听到的任何噪音或异常情况。
这些定性指标的使用有助于了解参与者在听力测试期间分配的定量值背后的一些推理,特别是因为宏碁计划以前没有经历过此类详细评估。由于宏碁方法不会降低压缩期间保留的音频的分辨率,因此不应有任何添加的失真或背景噪声。然而,预期在某些情况下,特别是以较低比特率,宏碁可以在播放时产生“跳跃”或“跳跃”效果,因为在音乐中匹配块之间的相似性阈值的降低。
6.1。方法
在一系列场景中遇到了在音频评估中使用主题分析和定性调查。它允许研究人员更了解音频人工制品的确切性质和他们的听众可能经历的其他感知物品。例如,最近的研究[45]对听众评论进行主题分析,同时评估媒体设备编排方法以沉浸式空间音频体验。这允许作者在其设计的系统中对特定的正和负特征进行分类。该领域的其他作品利用定性流程来识别音频分散组中的突出功能[46或验证声音合成技术的设计[47].
使用Nvivo 11进行专题分析[48这款软件被用来编写和组织在过程中出现的主题。对所有评论进行了初步研究,随后形成了初始的、高级别的主题(失真和噪声),并应用了一组初始编码。随后,使用这两个初始主题编码的数据将被重新读取,从而增加粒度,识别出更多特定类型的噪声和失真,从而产生副主题并产生一个额外的顶级主题(时间)。这是一个迭代过程,直到没有明确的主题。
6.2。分析
生成的主题和子主题如表所示9,在示例响应列中的每个语句中都附有参与者编号。这些显示了与描述损伤相关的三个主要主题的形成,以及少量相关的副主题。
|
提供三个主题的更广泛的背景,并从听众,数字引发的描述7,8, 和9提供单词云表示,使用Nvivo 11创建,最多100个最常用的单词。在制作这些图形描述时,停止词(描述中使用的不相干的词,如“那”、“似乎”和“听起来”)被删除了。此外,还采用了词干提取法,使“fuzz”和“fuzziness”等相关词被认为属于同一描述符。每个单词的大小代表了它出现的相对频率。
6.3。结果
收到的大多数响应描述了失真的存在,特别是与振幅相关的效应,如谐波失真,以及对频带的操纵。这并不奇怪,考虑到与ACER一起评估的心理声学编解码器的性质,将每一帧音频的频域转换分成子频带并分配比特的方法是常见的。这就解释了图中许多常见的单词7,如“扭曲”和“模糊”。然而,值得注意的是,在实验中使用的一些歌曲利用了失真作为一种艺术手段,这可能解释了所引出的一些描述性反馈。这一点可以从一个参与者的陈述中得到例证,他似乎确认了这一事实:
“我发现很难知道它是否是失真或音乐风格。我发现我可能已经说过第一次听到音乐是扭曲的。扭曲更像是语气而不是不应该在那里的噪音。所以通过倾听更多 - 失真不存在。“
虽然失真可能故意出现在歌曲中,但这种技术的存在应该被减轻,因为它会出现在每个编解码器的音乐表现在某种程度上。
参与者报告的不需要噪声的经验可能会导致类似的问题,作为失真,其中帧之间的比特的可变分配可能导致更高的噪声底板。这种结果令人惊讶,因为使用了192 kbps音频剪辑。注意图中的响应集特别有趣8与“噼啪声”和瞬变有关,不太可能是由任何被仔细审查的编解码器引入的。
由于宏克剪辑版本,所假设的时序主题出现。在该技术的发展期间,遇到了这种人工制品,它是下比特率Acer音频的已知方面,它可以使音乐声音剧本。除了这个主题中的少数描述符不同,与阶段和频率相关,所引出的大多数术语与我们的经验一致,通过图中的术语可以明显9,比如“跳过”和“结巴”。
当然,就这三个顶级主题及其各自的副主题而言,产生的描述可能是由于主题期望效应[49].这是一种现象,受试者在潜意识中发音障碍,因为提出的问题都是关于噪音和异常的。虽然这可能是真实的扭曲和噪音主题,当问及剪辑的时间方面没有具体的措辞。这一分析使我们得出结论,宏碁能够与它的同时代人进行比较,它在低质量水平上的局限性可以被感知,我们的参与者产生的结构是有效的。
7.结论与未来工作
宏碁媒介和高质量的方法不仅表现得像当代的心理声学代码,MP3和AAC在192kbps CBR,但也产生类似的分数,未压缩WAV PCM音频。低质量的宏碁编解码器在噪音和失真方面与其他产品有显著差异,但在它所描绘的立体声图像质量方面没有差异。这些发现通过提供参与者偏好编解码器的分析得到支持,其中大多数负面偏好表达的是低质量的ACER编解码器。这种评价编解码器的第二种方法保证并增加了这些结论的可靠性。结果突出表明,在那些能够感知宏碁低质量版本和其他版本之间差异的参与者之间存在一致性,使用另一种评估方法,这是演示项目间准确性的常见做法。
所有编解码器在呈现给听众的感知立体图像方面表现相似。这表明立体声场在所有版本的音乐中都得到了成功的维护。考虑到使用的歌曲来自流行音乐的汇编,立体声平移是一种常用的混音技术,用于增加录音的宽度,这是一个值得注意的发现。编码过程中发生的任何错误或异常都应该是显而易见的,听众应该很容易察觉,特别是因为他们使用耳机,他们所感知到的立体声图像不会受到房间里的因素或他们自己头部运动的影响。
虽然宏碁低质量版本导致评估结果差,但在噪音和扭曲方面,结果在研究的更广泛背景下是有益的。它有助于整体结果的可靠性,因为它表明,参与部分的听众群体能够感知和表达宏碁低质量和其他编解码器之间的质量差异。相比之下,如果结果表明了完全的同质性,这可能表明了宏碁低质量版本的成功,但也会提出了关于听众在音频样本之间差异的能力的问题,从而使结果的可信度有问题。37%的参与者表示,他们有某种形式的音乐训练,17%的专业音频训练,两组之间的重叠重叠,这意味着大多数都没有听众。这些侦听器号码不仅仅符合ITU-R指南[29并证明非专家听众的有效性。接下来对ACER编解码器的开发将是进行更多听力测试的合适时机。根据在这项工作中报道的未经训练的听众的结果,这将是特别合适的。使用专业听众可以提供一个更批判性的评价,任何差异的音频质量可能是没有被发现。这种未来的调查将提供ITU-R BS.1116等方法的使用[34或MUSHRA [35].
对于MP3和AAC编解码器来说,选择192kbps的比特率可能是本研究的一个感知约束。我们决定利用这个比特率来反映消费者音频市场事实上的标准做法。因此,研究中的每首歌都是使用苹果的iTunes软件从未压缩的WAV格式压缩成MP3和AAC格式的,该软件称MP3 192“质量更高”,因此选择它作为压缩基准比特率。我们发现宏碁的高质量和中质量版本在噪音、失真和立体声场方面没有差异,这导致这些宏碁版本产生的音乐音频在感知质量上与192kbps压缩版本相当。更有趣的是192kbps的MP3和AAC版本,以及宏碁的高质量和中等质量的歌曲,在未压缩的WAV版本中显示出类似的结果。这一结果与[20.],之前讨论过的,发现MP3比特率必须大于或等于256 kbps,以引出这种结果。但是,在[中的样本大小(n = 13)20.比我们的研究要小得多,这可能解释了这个结果。此外,MP3和AAC编码变异在192kbps或以上的评分同质性与[22].这表明宏碁对更高比特率MP3和AAC的比较将是一个冗余锻炼。
对编解码器进行定性评价的一个限制是,听众没有被要求为他们所听的每个编解码器留下关于噪音和人工制品的评论。由于实验的双盲特性,这就要求参与者对他们听到的每一个音频样本都留下评论。因此,不可能知道哪个编解码器与从定性反馈中设计的每个主题明确相关。这样的分析将增加进行现有研究的大量时间和完成费用;因此,有人建议,这类调查将适合于将来的一项单独工作。在这样的调查中,参与者可以被要求描述他们在一系列编码音频样本中感知到的质量,而不必生成定量分数或听这么多片段。这将进一步验证本文提出的初步结论,即MP3和aac编码的音频会出现失真和基于噪声的损害,而ACER压缩则会出现暂时的小故障。
宏碁编解码器可用于听觉界面提示,具有感知的音乐元素,例如耳根[50].虽然耳环并不是剧情,但它们分享许多相同的属性,因此这将是这种压缩形式的合适候选者。具有重复元素的其他形式的听觉界面提示,例如Spearcons [51也可能是合适的。虽然压缩方法最初是为较长的音频文件设计的,但其原理仍然适用于较短的剪辑。长形式的音频,如有声书,也可能受益于这一技术,因为许多声音元素,尤其是停顿和呼吸,往往表现出相似之处。这种技术也可以用于降噪软件和游戏音频软件,以突出差异,强调它们,以保持声音的兴趣。
这项研究的结果表明,在中等和高质量的设置下,宏碁编解码器作为当代MP3和AAC技术的替代方法具有很高的功能,可能使其适合作为独立的编解码器,具有适度的数据缩减,或者作为心理声学方法的潜在合作伙伴来实现更低的比特率。结果表明,宏碁在音乐结构和模式中寻找冗余是一种可行的技术,听众无法检测出它、其他编解码器和未压缩音频之间的显著差异。虽然在宏碁编码过程中会出现人工干扰和缺陷,这些缺陷表现在时域,而不是振幅相关的失真或噪声,但宏碁音频保留了完整的频谱和分辨率,使其有别于MP3和AAC。
使用ACER编解码器实现的比特率比使用WAV实现的比特率提供了边际增益。这可能是适当的情况下,降低数据速率是可取的,但绝对音频保真度的损失,由于频率操纵和量化,是不允许的。这在音频分析任务、电脑游戏声音、取证分析和多通道格式等场景中可能是正确的,这些场景中高度重复的元素被限制在单个通道中,如5.1、7.1或Atmos系统中的LFE或存档音频。此外,宏碁的表现依赖于被编码的音乐作品中的音乐重复水平。这意味着在相同的宏碁设置下,高度重复的音乐将产生更大的比特率降低。考虑到这一点,这是可能的宏碁设置本身可以被调整到音乐被压缩,这是目前还没有尝试。然而,最终,我们提出宏碁最适合的应用是在使用心理声学方法(如MP3或AAC)压缩音乐之前作为预处理步骤,以增强当前的艺术状态[52].这将提高使用这些技术本身就可以获得的压缩比,并且可能对听力体验的感知质量没有什么影响。
宏碁的下一个发展阶段将集中于改进回归模型,该模型用于确定宏碁文件的质量,使用的相似性音频片段内的歌曲。创建一个完善的模型将涉及一系列集中的听力测试,让我们确定这些差异是在什么时候被感知到的,以及它们何时成为问题或令人分心。预计一个精致的模型可以实现更高的比特率降低,提高感知相似性剪辑的质量,这可能会导致宏碁劣质版本能够与中期和高质量的版本,以及MP3, AAC和未压缩的WAV。
数据可用性
用于支持本研究结果的听力测试数据可根据要求从通讯作者处获得。
的利益冲突
提交人声明有关本文的出版物没有利益冲突。
参考文献
- S. Cunningham和V. Grout,“通过利用音乐的重复来减少音频的数据”,多媒体工具及应用第72卷第2期3, pp. 2299-2320, 2014。查看在:出版商的网站|谷歌学者
- G. G. Rogozinsky, D. R. Fadeyev,和D. A. Podolsky,“在有损音频编码中的心理声学分析对小波域的适应”,刊于2017年信号同步系统的程序,电信中的生成和处理(池HORINFO),第1-5页,喀山,俄罗斯,2017年7月。查看在:出版商的网站|谷歌学者
- T. S. Gunawan, S. A. Rashid,和M. Kartiwi,“关于多通道音频压缩的各种算法的研究”,刊于2017 IEEE第四届智能仪表、测量与应用国际会议论文集,第1-5页,马来西亚布城,2017年11月。查看在:出版商的网站|谷歌学者
- M. Sandler和D. Black,“用于压缩和损失弹性流的可伸缩音频编码”,视觉,图像和信号处理,第153卷,第153期3,页331-339,2006。查看在:出版商的网站|谷歌学者
- I. I. S. Fraunhofer,“Alive and Kicking - mp3软件,专利和许可| Fraunhofer Audio Blog,”2017,http://www.audioblog.iis.fraunhofer.com/mp3-software-patents-licenses/.查看在:谷歌学者
- S. Cunningham,J. Weinel,S. Roberts,V.灌浆和D. Griffiths,“基于相似性的音频压缩技术的初步客观和主观评估”第八届音频主要会议论文集,pp.1-6,Piteå,瑞典,2013年9月。查看在:出版商的网站|谷歌学者
- w·约斯特听力基础:导论, 2013年第5版。
- D. M. Howard和J. A. S. Angus,声学和心理声学, Focal Press, 2017年第5版。
- D. A. Huffman,“一种建造最小冗余码的方法,”IRE的程序,第40卷,第5期。9,第1098-1101页,1952年。查看在:出版商的网站|谷歌学者
- R. F. Rice,“一些实用的通用无噪声编码技术”,技术代表,NASA技术报告,帕萨迪纳,加州,美国,1979。查看在:谷歌学者
- M. Hans和R. Schafer,“数字音频的无损压缩”,IEEE信号处理杂志第18卷第2期4, 21-32页。查看在:出版商的网站|谷歌学者
- j . CoalsonFLAC -免费无损音频编解码器,xiph.org基金会,2014年,https://xiph.org/flac/index.html.
- F. Ghido和I. Tabus,《无损音频压缩的稀疏建模》,IEEE音频,语音和语言处理汇刊第21卷第2期1, pp. 14-28, 2013。查看在:出版商的网站|谷歌学者
- H. Huang, H. Shu, R. Yu,“先进音频编码的IEEE新标准中的无损音频压缩”ICASSP 2014 - 2014年IEEE关于声学,言语和信号处理国际会议的常规(ICASSP),pp.6934-6938,佛罗伦萨,意大利,2014年5月。查看在:出版商的网站|谷歌学者
- D. Salomon和G. Motta,数据压缩手册,Springer Science&Business Media,第5版,2010年。
- J. Moffitt,“Ogg vorbisopen, free audio-set your media free,”Linux日志第81卷第1期9日,2001年。查看在:谷歌学者
- “MP3和AAC解释说,”勃兰登堡在音频工程协会会议课程:17国际会议:高质量的音频编码,音频工程学会,1999。查看在:谷歌学者
- K. Brandenburg和R. Henke,“高质量数字音频的近无损编码:第一个结果”,发表于icassp'93的诉讼程序,PP。1993年4月,Mn,Minneapolis 193-196 Vol.1。查看在:出版商的网站|谷歌学者
- G. A. Soulodre, T. Grusec, M. Lavoie和L. Thibault,“最先进的双通道音频编解码器的主观评价”,作者:王莹,中国音频工程学报第46卷,第46期3,页164-174,1998。查看在:谷歌学者
- A. PRA,R. Zimmerman,D. Levitin和C. Guastavino,“对不同音乐类型的MP3压缩的主观评估”2009年第127届音频工程学会大会论文集,第459-465页,美国,2009年10月。查看在:谷歌学者
- A. Hines, E. Gillen, D. Kelly, J. Skoglund, A. Kokaram,和N. Harte,“ViSQOLAudio:低比特率编解码器的客观音频质量度量”,美国声学学会杂志,卷。137,没有。6,pp。el449-el455,2015。查看在:出版商的网站|谷歌学者
- P.Pocta和J.G啤酒,“目前数字音频广播系统和网络铸造应用的感知音频质量的主观和客观评估”IEEE广播汇刊第61卷第1期3, pp. 407-415, 2015。查看在:出版商的网站|谷歌学者
- K. Brandenburg, C. Faller, J. Herre, J. D. Johnston,和W. B. Kleijn,“高质量数字音频的感知编码”,IEEE论文集,卷。101,没有。9,pp。1905-1919,2013。查看在:出版商的网站|谷歌学者
- ITU-R,“感知音频质量的客观测量方法”国际电信联盟的诉讼程序建议, 2001年。查看在:谷歌学者
- M. BODDEN,“健全评估的仪器”,Acta acustica团结一致,第83卷,第83期5,第775-783页,1997。查看在:谷歌学者
- D. Campbell,E. Jones和M.Glavin,“音频质量评估技术 - 评论和最近的发展”信号处理,卷。89,没有。8,pp。1489-1500,2009。查看在:出版商的网站|谷歌学者
- G.Vercellesi,M. Zerbini和A. L.Vitali,“客观和主观评估MPEG层III感知质量”第十四届欧洲信号处理会议论文集,EUSIPCO 2006, 5, 1页,意大利佛罗伦萨,2006。查看在:谷歌学者
- W. Hoeg, L. Christensen, R. Walker,《音频质量的主观评估——EBU内部的手段和方法》,欧洲广播联盟技术评论, 不。274,pp。40-50,1997。查看在:谷歌学者
- ITU-R,“音质的主观评估的一般方法”国际电信联盟的诉讼程序建议,2003年。查看在:谷歌学者
- B. Defraene,T. Van Waterschoot,M.Iehl和M. Moinen,“基于嵌入式优化的失真预支持算法的主观音频评估”,美国声学学会杂志号,第140卷。1, pp. EL101-EL106, 2016。查看在:出版商的网站|谷歌学者
- J. C. Garcia-Alvarez, S. E. Aguirre,和P. C. Diaz-Solarte,“用于编码器评估的感知音频质量评估”,刊于2014年IEEE第四届柏林国际消费电子会议论文集,pp.408-410,柏林,德国,2014年9月。查看在:出版商的网站|谷歌学者
- L. Gaston和R. Sanders,“He-AAC,AC-3和E-AC-3编解码的评估”,作者:王莹,中国音频工程学报第56期3, pp. 140 - 155,2008。查看在:谷歌学者
- J. Villegas, T. Stegenborg-Andersen, N. Zacharov, and J. Ramsgaard, "陈述方法修改对标准化听力测试的影响",发表于第141届音响工程学会大会论文集,洛杉矶,加利福尼亚州,美国,2016年。查看在:谷歌学者
- ITU-R,“音频系统中小损伤的主观评估方法”,“国际电信联盟的诉讼程序建议, 2015年。查看在:谷歌学者
- A. J. Mason,“MUSHRA音频主观测试方法”,研发白皮书WHP038,英国广播公司(BBC),2002年研发。查看在:谷歌学者
- Statista GmbH,“美国2017年耳机使用量|美国2017年耳机使用量”,2018,https://www.statista.com/statistics/283620/us-consumer-purchase-plans-smartphone-accessories-2010/.查看在:谷歌学者
- Statista GmbH,“美国2017年的耳机用法|目的耳机用于美国2017年,“2018https://www.statista.com/statistics/696862/uses-of-headphones-in-the-us/.查看在:谷歌学者
- D. Watkins,“电脑扬声器现在是人们听音乐最流行的方式”Strategy Analytics, 2019,https://www.strategyanalytics.com/strategy-analytics/news/strategy-analytics-press-releases/2015/12/17/computer-speakers-now-most-popular-way-people-listen-to-music.查看在:谷歌学者
- S. Bech,“小房间复制声音的Timbral方面。一世,”美国声学学会杂志,卷。97,没有。3,PP。1717-1726,1995。查看在:出版商的网站|谷歌学者
- M. Velmans,理解意识劳特利奇,2009年。
- A. Hines,J.Skoglund,E.Gillen,A. Kokaram,D. Kelly和N. Harte,“媒体媒体的音频质量”在第22届ACM多媒体国际会议论文集, pp. 1173-1176, 2014。查看在:谷歌学者
- 各种艺术家,“”现在这就是我所说的音乐!90“。编译[Double Audio CD]。现在!音乐,“2015。查看在:谷歌学者
- “音频录制—光盘数字音频系统”,IEC 60908, 1999-2002。查看在:谷歌学者
- G. Guest,K. M. Macqueen和E. E. Namey,应用主题分析,Sage Publication,Rus,加利福尼亚州,美国,2012年。查看在:出版商的网站
- J. Francombe, J. Woodcock, R. J. Hughes等人,“沉浸式空间音频再现的媒体设备编排的定性评价”,作者:王莹,中国音频工程学报,卷。66,没有。6,PP。414-429,2018。查看在:出版商的网站|谷歌学者
- J. Francombe,R. Mason,M. Dewhirst和S. Bech,“音频节目材料的音频干扰情况下的分心模型”,作者:王莹,中国音频工程学报,第63卷,第2期1-2, pp. 63-77, 2015。查看在:出版商的网站|谷歌学者
- S.Conan,O. Derrien,M. Aramaki,S. Ystad和R. Kronlland-Martinet,“一种用于滚动声音的直观控制能力的合成模型”,“AUEE / ACM交易在音频,语音和语言处理第22卷第2期8, pp. 1260-1273, 2014。查看在:出版商的网站|谷歌学者
- QSR International,“NVivo定性数据分析软件|”,2018,https://www.qsrinternational.com/nvivo/home.查看在:谷歌学者
- d·j·斯坦,《论新奇与复杂之间的关系》心理学杂志:跨学科和应用第95卷第1期2,页317-323,1977。查看在:出版商的网站|谷歌学者
- M.布拉特纳,D. Sumikawa和R.格林伯格,《Earcons和图标:它们的结构和通用设计原则》,人机交互,第4卷,第4期。1,第11-44页,1989。查看在:出版商的网站|谷歌学者
- B. N. Walker, J. Lindsay, A. Nance等人,“Spearcons(基于语音的earcons)改善高级听觉菜单的导航性能,”人为因素:人类因素和人体工程学社会杂志,第55卷,第55期1, pp. 157-182, 2013。查看在:出版商的网站|谷歌学者
- V. Rao和K. Pohlmann,“使用重复结构的音频压缩”,美国专利申请, 2006年。查看在:谷歌学者
版权
版权所有©2019 Stuart Cunningham和Iain McGregor。这是分布下的开放式访问文章创意公共归因许可证如果正确引用了原始工作,则允许在任何媒体中的不受限制使用,分发和再现。