IJDMB 国际期刊的数字多媒体广播 1687 - 7586 1687 - 7578 Hindawi 10.1155 / 2019/8265301 8265301 研究文章 主观评价与宏碁的音乐压缩编解码器和AAC格式相比,MP3和未压缩的PCM https://orcid.org/0000 - 0002 - 5348 - 7700 坎宁安 斯图尔特 1 https://orcid.org/0000 - 0002 - 0230 - 9007 麦格雷戈 伊恩• 2 Wanggen 1 先进的计算科学中心 曼彻斯特城市大学 曼彻斯特M1 5 gd 英国 mmu.ac.uk 2 学校的计算 爱丁堡纳皮尔大学 爱丁堡EH10 5 dt 英国 napier.ac.uk 2019年 11 7 2019年 2019年 03 02 2019年 30. 05年 2019年 17 06 2019年 11 7 2019年 2019年 版权©2019斯图亚特·坎宁安和伊恩•麦格雷戈。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

音频数据压缩的音乐产业带来了革命性的变化和音乐家销售和分发他们的产品。我们先前的研究提出了一种新颖的编解码器命名宏碁(音频压缩重复利用),达到数据减少利用不合时宜和冗余在音乐结构时一般维持可接受的水平噪声和失真的客观评价。然而,以前的工作没有评估宏碁使用主观听力测试,留下一个缺口来证明其适用性在人类感知音频测试。在本文中,我们提出一个双盲听测试,进行了一系列的听众(N = 100)。目的是确定宏碁编解码器的疗效,明显的噪声和空间扭曲的文物,对音频数据压缩和未压缩的事实上的标准参考。结果表明,参与者报告没有未压缩感知差异,MP3, AAC、宏碁高质量和宏碁中等品质压缩音频噪声和失真,但宏碁低质量的格式被认为是低质量的。然而,参与者的看法的音响领域,所有格式在测试执行以及彼此,没有显著差异。定性、主题分析听众的反馈显示,噪音文物,宏碁生产技术不同于那些比较器编解码器,反映了它的新方法。结果表明,当代音频压缩系统的质量已达到一个阶段,他们的表现被认为是未压缩的音频。宏碁格式能够竞争作为一种替代方法,结果显示偏好宏碁介质质量版本在WAV, MP3, AAC。 The ACER process itself is viable on its own or in conjunction with techniques such as MP3 and AAC.

1。介绍

在这项工作中,我们评估的性能宏碁(音频压缩利用重复)编解码器( 1]。音频压缩急剧发展在过去的25年里,使多媒体广播等领域内许多显著的进步,内容分布、消费娱乐,和视频游戏。在此期间,一系列psychoacoustic-oriented有损编解码器使这种变化,特别是MPEG音频1/2的引入第三层(MP3)及其继任者高级音频编码(AAC)。有损压缩技术的一般趋势,继续遵循这一方法,以增强的基础心理声学模型以及支持多种渠道和流 2- - - - - - 4]。弗劳恩霍夫,MP3编解码器的创造者,宣布终止许可MP3技术在2017年支持其继任者AAC, MPEG-H,和增强的语音服务(EVS),对MP3的能力产生了怀疑与替代音频编码方案从夫琅和费和其他供应商( 5]。

在之前的工作中,给出了宏碁音频编码方案。宏碁音频压缩的任务不同于现有方法能够利用音乐结构中包含音频文件使用一个基于字典的方法。宏碁的做法是不寻常的在音频压缩域,在更传统的方法是利用人类听觉心理声学模型和反映这些比特分配的频谱。这主要是通过聚焦在听众感知音乐的特征,可以确定为了利用冗余和不合时宜的底层音频信号( 1]。宏碁计划被设想为一个独立的编码方案或者可能先于其他编解码器的一个额外的处理步骤,如MP3, AAC格式,或Ogg Vorbis。然而,宏碁只集中在现有的评价客观质量评价( 1)和一名飞行员主观评价,进行了在一个不受控制的环境中( 6]。

在这项研究中,我们进行了一项大规模评估宏碁计划对两种流行的音频编解码器(MP3, AAC),以及一个未压缩波(WAV)版本的音频。因为我们有兴趣,在这项研究中,在人类感知的音频压缩方案,我们聚焦于评估关键知觉品质。因此,我们的目标是调查以下零假设:

H1:感知差异的音频质量,噪音和失真,在未压缩的WAV, MP3, AAC格式,和宏碁音乐样本是无关紧要的。

H2:在音频质量的感知差异,在音频方面立体成像,在未压缩的WAV, MP3, AAC格式,和宏碁音乐样本是无关紧要的。

维护我们建议,如果这些假设,然后用宏基的编解码器可以被认为是一个适当的替代方法的音频编码以独立的形式或集成现有的心理声学的编码技术来增强的数据量减少,可以实现。宏碁编解码器的使用有可能扩大可用音频压缩技术的范围,提供一个替代的数据还原法在心理声学的压缩的情况下,减少光谱分辨率,可能不合适,比如在某些音频分析任务或高保真音频回放。

本文的其余部分组织如下:第二部分提供背景对我们的工作提供了一个关键的讨论最近的研究领域的音频压缩和知觉测试方法有关。在那之后,宏碁压缩方案的概述。部分 4描述了主观听力测试方法和刺激之前使用。部分 5探讨了宏碁的结果和分析方案和备用音频编解码器。部分 6探讨了定性的描述与每个编解码器的参与者的经验。最后,我们提供的结论,将讨论本研究的局限性和未来的工作领域。

2。相关工作

音频压缩方案从《盗梦空间》的发展评价是利用多个学科领域,包括计算机科学,音频工程和听力测试和评估。在本节中,我们的目标是为读者提供一个广泛的、丰富的音频数据压缩,放到和支撑的相关方面提出了本文的工作。

2.1。音频编码

与其他形式的数字媒体信息,音频已经对方法中引起相当大的关注减少存储和传输所需的比特数。analogue-to-digital转换(采样)的过程本身就是一个必须做出的决定,随后的音频的采样率和比特深度将可靠地允许所需频率和水平动态原始声音的代表。这通常是在创建一定的压缩脉冲编码调制(PCM)表示,它本身可以被描述为一种数据压缩。成功繁殖频率和动力是非常重要的为了给听众提供高保真音频生殖(高保真)。然而,人类听觉系统(已经)不是线性的频率和振幅的解释听起来了,这意味着人类感知的声音并不总是要求的所有潜在的声音频率和动态品质的声音存在,当听觉刺激。频率和时间掩蔽的现象 7, 8)通常利用在有损音频压缩方法。大多数现代编解码器是混合动力车,增加语义方法,如感知冗余相关,与传统的句法方法如霍夫曼( 9和大米 10)代码。

无损音频编码方法,同时有效,很大程度上一直停滞不前的减少获得的数据量( 11]。一个例外无损音频编码领域的自由无损音频编解码器(FLAC),这是能够实现按压2:1的比率在该地区没有丢失数据通过使用预测模型( 12]。FLAC的能力生产无损音频相对小说在音频压缩方法,虽然它不能产生有损同时代相似的压缩比,这通常是4:1的范围与15:1。其他当代无损技术扩展这些原则使用线性预测,与边际增加压缩比达到[ 13, 14]。至关重要的是,任何的音频压缩方法是有效的减少使用的比特数来表示声音。在无损压缩技术,保留原始信号是至关重要的。

然而,它常常需要采用有损压缩技术来实现更高的比率,通常利用心理声学的属性和操作的限制。至关重要的是,解码过程并不抑制流体回放的声音,要求快速,需要少量的CPU处理时间,并产生相对准确的结果。因此,音频编码技术是不对称的,容忍延迟压缩、减压过程提供尽可能真实的时间 15]。损耗在数字媒体技术是司空见惯,尤其是音乐,和例证的方法,如Ogg Vorbis [ 16],MP3, AAC [ 17]。实现可伸缩的数据简化方法,取决于使用的应用程序,并能实现感知未压缩的音频(高度相似的结果 18- - - - - - 20.]。

最近的事态发展在音频压缩域看过工作提高音频保真度可以由编解码器操作以非常低的比特率,如24、48、64、92 kbps ( 21, 22),而编码约120至256 kbps可能被认为是典型的,旨在实现极高的“感知透明”数据降了编码。工作也专注于音频压缩系统在高质量的电信和多通道系统为空间设计音频生殖,这通常是6或8频道,但很容易扩展到更多 23]。

2.2。感知音频评估

当处理音频,它是包括感知评价的关键在测量一个编解码器的性能。的决心如何合成音频侦听器数据简化过程的结果如果要广泛采用至关重要。知觉评估可以使用客观的和/或主观的机制进行的。

客观评价依靠音频信号的特性分析和比较一个已知的参考基准。这个过程可以使用简单的机制,如信噪比(信噪比)或更复杂的算法,基于人类听觉系统的模型,如音频质量的感知评价(PEAQ)规 24]。这两种方法通常是快速和方便的实现,使大量的音频样本处理和评估。然而,简单的音频质量的措施可能不一定反映实际人类感知的信号。更复杂的模型可能不会完全可概括的由于人与人的差异对他们独特的听觉系统( 25, 26]。

客观测试是一种方便的资源的方式测量特定的音频编解码器的功效。尤其是典型的障碍进行主观测试,设备资源,并获得足够数量的参与者,有有限的证据表明客观措施更高的比特率音频编解码器产生类似的结果主观评价( 27]。然而,认识到任何新的编码技术的引入应辅以主观测试,以获得更全面的感知效应( 24, 28]。

的理想数量的参与者使用的音频质量评估,国际电信联盟无线电通信(ITU-R)身体支持者至少10,如果使用专家听众,或至少20,如果使用非专家的听众( 29日]。现有主观音频评估研究倾向于遵守这个利用小样本大小,26日是平均参与人数( 30.- - - - - - 33]。

2.3。当代的编解码器的性能

在一个主观评价进行( 22),它是发现,在低比特率不同24 kbps至64 kbps, MP3,高效率AAC、低AAC格式,其他5个编码方案中常用广播应用程序收到一组不同的主观质量分数23参与者的退化中音频。然而,在更高的比特率,这些计划展示了更大的分数之间的一致性和低水平的退化, “…所有的编解码器附近提供一个透明的音频质量”。这项工作表明,在相对较高的比特率,不同的128 kbps到320 kbps,心理声学的编解码器执行类似的感知。

另一项研究[ 20.)评估MP3音乐编码比特率,96,128,192,256,和320 kbps,对未压缩的音频CD音质使用共有13个训练有素的听众,与一系列的背景,包括声音工程师和音乐家。五个音乐样本在他们的研究中,来自两个流派:摇滚和古典。每个片段之间的时间长度是5和11秒各自包含一个独特的音乐的歌曲。参与者进行了一系列的AB比较6表示每个音乐样本。他们的发现,在所有参与者和音乐,建议有显著偏好未压缩的CD音频质量与96年相比,128年,192 kbps MP3版本。然而,没有明显差异确定当比较256年和320 kbps MP3 CD音频质量版本。本研究的参与者还被要求提供定性描述的文物和扭曲他们认为音频。作者发现以下类别的文物,在秩序的情况下发生:高频文物,一般扭曲,混响,瞬态文物,立体图像,动态范围和背景噪音。这项工作是感兴趣的,因为它表明参与者无法轻易区分MP3和未压缩的音频超出256 kbps的阈值,以及提供一个潜在的框架,用于测量文物可能被认为在编码音频样本。

3所示。宏碁编码方法的总结

宏碁的主要宗旨的方法是利用存在于当代音乐结构的冗余实现数据减少而不是依赖与在其合成感知缺陷。尤其是流行音乐,利用重复作为一种有意识的工具与听众和一块形式和结构。在很多情况下,这意味着相同的内容是重复的,在音乐播放多个实例,而不是一个人类相同的音乐序列的性能,这将是容易的细微差别时机和动力学。这种重复的存在产生了冗余的机会被发现和利用实现数据压缩。宏碁的方法利用无损的原理基于字典的计划( 15)来实现这一目标。这些原则可以很容易地以考虑音乐符号的短序列,在C大调的关键,呈现在图 1

简单eight-bar音乐序列。箭头表示重复,阴影区域表示重复四音符/ 1块序列,和虚线区域指示重复通知/ 3-bar序列。

这个例子展示了一个简单的音乐旋律超过8酒吧的音乐和使用共有三十明确编码的笔记。很明显,目前有冗余表示,这可能被利用来达到降低块的大小表示,这些冗余的对象可能是发现与windows(持续时间)的大小不同。例如,序列中的第一个音符出现了总共13次(每个注意图中突出了一个箭头);然而,字典索引的开销和符号使得这个效率低下。在更大的范围内,第一个完整的音乐酒吧出现四次(阴影所反映出的矩形),可能提供储蓄的八30笔记,加上一个小编码开销。观察也可以了,进一步扩大,前三条酒吧五块是相同的,6和7(虚线所反映出的),呈现另一个冗余,节省了十二个三十的笔记,加上一个小编码开销,因为第一行(酒吧1到4)和二线(酒吧5到6)不同只有最后的两个音符。

宏碁技术将上述方法并执行相同的原则,如在象征层面上所讨论的,但在信号电平。这带来了额外的挑战由于许多因素,如噪声、复调音乐,和没有量子化,以及表述行为的和富有表现力的因素。宏碁在执行搜索音乐音频片段检测感知相同,或类似的,部分的音乐和提取多余的部分。

宏碁编码过程通过建立开始 搜索块,大小中使用音乐的节奏进行编码。节奏是微不足道的使用元数据或获得,如果没有可用的元数据,通过打败跟踪信号的检测分析。然后分成连续的跟踪 目标相同大小的块和一个线性搜索来确定执行那些块认为感知相似。在搜索和目标比较块,窗口傅里叶变换是将每一个差光谱计算的两个。的均值差光谱相比,然后一个阈值来确定两个街区感知相似。之前定义的阈值搜索和操纵的影响质量的设置和压缩量宏碁将实现 1]。当所有当前目标块搜索块相比,搜索块递增,这一过程重复进行,直到搜索空间耗尽。匹配搜索和相应的目标块的索引位置确定存储,这样他们以后可以从记录中删除。因此,宏碁编码阶段完成后,最终用户是剩下一组音频块和指标,它可以重建一个表示原来的轨道。这些步骤的详细算法定义我们的早期工作 1]。

感知相似的定义是基于回归模型使用人类开发的听众,形成早期的技术描述的一部分,宏碁压缩过程和算法( 1]。在这个研究中,宏碁的客观质量评价系统进行了客观的不同年级(ODG) [ 24)和信噪比(信噪比)进行了研究在5不同级别的宏碁音频质量(fidelity)。43跟踪压缩,平均比特率达到如下:1037 kbps(最低质量),1118 kbps(低质量),1218 kbps(中等品质),1298 kbps(高质量),和1352 kbps(高质量)。宏碁质量的两个最低水平被认为表现不佳,ODG描述符之间的平均下降“烦人的”和“非常烦人”。相比之下,优质宏碁编码描述符之间的得分“听不清”和“可察觉的,但不讨厌”,第二个最高的“可察觉的,但不讨厌”与“有点烦”,第三个最高之间“有点恼人”和“烦人的”。这些发现是紧随其后的是一个小规模的宏碁的主观评价方案,其中每个编码水平的调查来确定每个之间的相对质量差( 6]。承担研究因此,这里,只有上三个宏碁计划的质量水平,现在改名为如下:宏碁高,宏碁的媒介,宏碁低。

我们先前的研究缺乏深入和持续的主观、感性评价疗效的宏碁计划相比,压缩和压缩格式(MP3, AAC)。这是由于缺乏时间和访问专家听套件资源。这个缺陷是在这项工作。

4所示。材料和方法 4.1。方法

听力考试研究来确定宏碁的感知质量和性能的方法相比,未压缩的WAV, MP3, AAC编码音乐音频。使用听力测试方法如ITU-R bs - 1116 ( 34)或多个刺激隐藏参考和锚(MUSHRA) [ 35将是一个可行的方法。然而,这种方法需要专家研究参与者的听众是谁精通检测小音频质量的差异。同时使用专家听众的目的是确保可靠的结果,它没有准确反映更广泛的人口,也更大程度的变化对音频质量的感知。基于这一点,一个自定义的方法被采用,这是决定使用未经训练的听众。

参与者提供机会听到短(20岁)样本10选择歌曲。每个被反复播放,直到参与者完成他们的反应或希望继续前进。他们能够听到六个版本的每首歌:未压缩的WAV, MP3 192 kbps CBR, AAC 192 kbps CBR,宏碁低质量,宏碁中等品质和宏碁高质量。每个样本同时回放,以随机的顺序输入源选择器HG8/1 Canford硬件开关,允许参与者自由选择样本流他们听使用一个简单的旋转开关。

封闭的拜尔动态DT770M 80 -欧姆耳机选择的研究,因为他们有一个被动的环境噪音减少35 dB,根据制造商的规范。一个美国莱恩HC6S耳机放大器,RMS级别是82 dBC,大致按照推荐的参考电平ITU-R [ 29日, 34),与95年的峰值dBC。音乐是最受欢迎的媒体形式耳机使用高水平的采用和经常使用( 36, 37]。耳机被报告为第二个平等的最受欢迎的方法计算机扬声器后消费的音乐( 38]。

耳机的使用也最小化任何房间声学色的影响,影响听力的研究表明( 39]。他们也可能促进更详细的内容由于司机距离和最小的相声。承认,立体图像时使用耳机将不同于喇叭。然而,使用耳机时,听者经历的声音是感知外部世界( 40]。人们已经发现,几乎没有区别的工作室喇叭和工作室耳机的音频质量评价情况;两个MUSHRA [ 41]和ITU-R标准听力测试支持使用耳机或喇叭( 29日, 34]。

对每首歌,参与者被邀请来提供一个响应,使用纸质得分表,两个问题。第一个关心任何的噪音样本,和第二个立体图像的质量,他们有经验。用于这两个问题的措辞被考虑术语推荐选择ITU-R BS.1284 [ 29日]。计分表上的每个问题明确的评分标准和双相描述符使用两端的分级规模。

参与者被要求评价每个剪辑的音频质量对噪音和失真使用五点语义分化量表如下: 1 =听不清噪音和失真;5 =明显的噪声和失真。这个问题将允许参与者是指任何类型的噪音或人工制品出现在样本,提供捕捉范围线性和非线性失真的因素。参与者被要求评价每个片段的立体图像质量,使用一个五点语义分化量表如下: 1 =狭隘和不精确;5 =宽,精确。同样,这个问题为参与者提供了机会来描述立体传播和本土化的能力不同的音乐声音来源。参与者听六编解码器变化每个十首歌的样品,他们被要求指定的六个片段是他们最喜欢的,哪些是他们最不喜欢的。

4.2。参与者

共有100名参与者参与的听力考试,并招募Merchiston爱丁堡纳皮尔大学校园。关于背景,28%是大学学生,而33%是学术或教职员工和39%是行政和支持人员。参与者不提供任何形式的报酬或其他任何形式的诱因为他们的参与。

其他人口细节而言,55岁女性参与者和45是男性。平均年龄为40 (SD = 12)最低20岁,最大的68岁。所有的参与者都认为自己有什么他们认为是听力正常的年龄。17%确定,他们有某种形式的专业音频培训,37%的人表示,他们有某种形式的音乐训练。最后,参与者被要求给一个估计他们通常花多少时间每天听音乐。72%的人回答说,他们听音乐1到3个小时每一天,和8%不听任何音乐。

4.3。测试材料

总共有10个音乐剧选段中使用的评估。这些歌曲是随机从double-CD当代英国流行音乐专辑的编译: 这就是我所说的音乐!90年( 42]。这被选为代表了广泛的当代的样本,样本人群的流行音乐。选择使用的跟踪评价如表所示 1

选择音乐的感知测试。

艺术家 首歌
马克荣森壮举。布鲁诺火星 住宅区恐慌
新航 弹性的心
把这 这些天
Alesso壮举。Tove瞧 英雄(我们会)
马龙Roudette 当打滴
一共壮举。山姆·马丁 危险的
里达弗洛这样解释的壮举。圣人双子座&种在地球 GDFR
Charli XCX壮举。丽塔奥拉 这样做
亚历克斯代尔 让我感觉更好
佛罗伦萨+机器 什么样的男人

样本取自商业CD,每首歌代表CD音频质量(红书) 43]:二进制补码的二进制44.1千赫采样率,16位字长,2通道(立体声),PCM录音。每首歌的样本提取20秒的时间。每个样本的开始有一个1.5秒的线性淡入应用和一个等价的1.5秒的消失是应用于每个样本。这个修改是为了减少听力每个片段的经历突然对参与者和更容易确定每个样本何时开始和结束。

创建每首歌的压缩版本,剪辑受到各自的压缩过程和同一20-second-long摘录随后提取。淡入和淡出被应用,符合ITU-R期间建议和表示的音乐样本( 29日]。自评估将在双盲的方式进行,所有样本然后重新保存CD音质PCM和分配随机生成的四弦的名字。材料被传递给第二作者进行听力评估。

获得的比特率的六个版本的这首歌如表所示 2。值得注意的是,除了宏碁的方法,其他方法提供一个固定的比特率的音频内容。十跟踪使用在这个实验中,宏碁高质量的编解码器实现平均减少12.60%的大小;宏碁介质质量收到平均减少19.92%的大小;和宏碁低质量收到平均减少27.53%的大小。

比特率为每个编解码器和歌曲的组合实现。

首歌 比特率(kbps)
WAV MP3 AAC格式 宏碁高 宏碁地中海 宏碁低
住宅区恐慌 1411年 192年 192年 1174年 1086年 1023年
弹性的心 1411年 192年 192年 1287年 1174年 896年
这些天 1411年 192年 192年 1174年 1063年 965年
英雄(我们会) 1411年 192年 192年 1178年 998年 855年
当打滴 1411年 192年 192年 1395年 1348年 1178年
危险的 1411年 192年 192年 1244年 1171年 1153年
GDFR 1411年 192年 192年 1081年 1019年 945年
这样做 1411年 192年 192年 1341年 1184年 1098年
让我感觉更好 1411年 192年 192年 1060年 901年 813年
什么样的男人 1411年 192年 192年 1398年 1356年 1300年

平均比特率(kbps): 1233年 1130年 1023年

标准差比特率(kbps): 115年 139年 149年

宏碁技术运营以来在一块特定的音乐音频,删除冗余的压缩量(即。,降低比特率)是直接受到声波音频文件的内容本身。例如,大量的音乐功能重复和少量的变化在音乐表演中,发音,和编制将实现与宏碁计划降低比特率,而可能被视为更前卫的音乐,与非常规结构或性能的变化,发音,和编排,将实现更少的比特率的减少。宏碁计划的质量设置节流的知觉相似性由编码器容忍:高质量的设置严格的序列被认为是一场比赛,而低质量的设置更严格和更有可能产生知觉异常。

5。结果:定量措施

虽然有100人参加了在听力测试中,他们没有义务提供一个评级为每个音频刺激以适应听众的不确定性或无法选择偏好。这个要求不能迫使参与者提供的反应也是一个要求实现大学伦理批准(爱丁堡纳皮尔)听力学习发生。因此,并不是所有的参与者提供了一个完整的评级的刺激,使一个完整的、重复测量的比较评级不可能使用整个组的100名参与者。那些没有为每个跟踪提供评级已经被排除在分析提出了在随后的部分,而处理噪音和立体场因素的量化评分评估从听力测试。然而,如果参与者对随后的问题,他们最相关和最不喜欢的版本的歌曲,他们的反应已经包含在随后的小节和任何定性反馈收到也被使用。这是决定一个合适的策略,因为它是可能的参与者可能没有额定每个误跟踪的一些版本,考虑到相对大量的比较( 6 10)进行。

5.1。对噪音和失真

提供了一套完整的分数在68年100年的实验参与者(n = 68)。总结的结果为每个使用的10首歌曲听实验如图 2(歌曲1 - 5)和图 3(歌曲6到10)。这些图表给每个编解码器的平均评分误差说明一个标准差的意思。

噪音和失真的结果(歌曲1到5)。1代表听不清噪音和失真,5分代表可察觉的噪音和失真。

噪音和失真的结果(歌曲6到10)。1分代表听不清噪音和失真,5分代表可察觉的噪音和失真。

这些数字所显示的一样,平均值和标准偏差(SD)得分为6编码变化似乎相似的噪声和失真的感知。这些描述性统计具体表所示 3 4。实验包含两个独立变量:六个方法用于编码编码的音乐和十首音乐。为了解决零假设 H1,在本文的介绍中提到的,一个双向重复测量方差分析进行分数上收到所有相关问题的68个有效回复噪音和失真。期望这样做是,如果每个编码机制是等效质量而言,应该没有显著差异在听力测试参与者的分数。与Greenhouse-Geisser修正一个重复测量方差分析显示,大量的噪声和失真六编解码器之间的差距显著 F (3.829, 256.516) = 5.988, p < 0.001。事后使用Bonferroni调整成对测试显示,这个结果是由于宏碁低质量的编码,这产生了明显不同的噪声和失真分数所有其他编解码器,宏碁的除了高质量的编解码器的分数。

总结噪音和失真分数:WAV, MP3播放192年和AAC 192 (n = 68)。1分代表听不清噪音和失真,5分代表可察觉的噪音和失真。

首歌 WAV MP3 192 AAC格式192
的意思是 SD 的意思是 SD 的意思是 SD
住宅区恐慌 2.85 1.38 2.56 1.36 2.77 1.32
弹性的心 2.58 1.34 2.77 1.36 2.60 1.33
这些天 2.55 1.27 2.56 1.24 2.50 1.23
英雄(我们会) 2.98 1.38 2.92 1.35 2.91 1.39
当打滴 2.21 1.22 2.28 1.17 2.23 1.24
危险的 2.68 1.34 2.72 1.34 2.70 1.42
GDFR 2.29 1.27 2.28 1.22 2.32 1.18
这样做 2.64 1.29 2.72 1.31 2.71 1.34
让我感觉更好 2.40 1.33 2.45 1.35 2.36 1.22
什么样的男人 2.62 1.31 2.42 1.23 2.59 1.26

大的意思 2.58 1.31 2.57 1.29 2.57 1.29

摘要噪音和失真分数:宏碁低,宏碁的媒介,宏碁高(n = 68)。1分代表听不清噪音和失真,5分代表可察觉的噪音和失真。

首歌 宏碁低 宏碁地中海 宏碁高
的意思是 SD 的意思是 SD 的意思是 SD
住宅区恐慌 2.53 1.42 2.57 1.23 2.86 1.29
弹性的心 3.29 1.51 2.65 1.36 2.66 1.15
这些天 2.89 1.45 2.45 1.24 2.69 1.37
英雄(我们会) 3.46 1.34 3.31 1.29 2.96 1.31
当打滴 2.30 1.23 2.28 1.18 2.23 1.13
危险的 3.29 1.36 2.73 1.35 2.77 1.38
GDFR 2.39 1.19 2.36 1.27 2.43 1.32
这样做 2.85 1.39 2.77 1.34 2.80 1.29
让我感觉更好 2.64 1.42 2.43 1.36 2.53 1.40
什么样的男人 2.68 1.33 2.58 1.35 2.46 1.33

大的意思 2.83 1.36 2.61 1.30 2.64 1.30

剩下的没有统计上显著的差异五编解码器。这说明在获得每个编解码器的成对比较,p值表所示 5,重要值( p < 0.05)以粗体突出显示。这部分的听力测试的结果表明,除了宏碁低质量的编解码器,以及执行的其他编解码器压缩WAV音乐样本的噪声和失真被参与者。

事后成对编解码器比较(p值< 0.05以粗体突出显示)。

编解码器 AAC格式192 宏碁高 宏碁地中海 宏碁低 MP3 192 WAV
AAC格式192 1.000 1.000 0.018 1.000 1.000
宏碁高 1.000 1.000 0.110 1.000 1.000
宏碁地中海 1.000 1.000 0.006 1.000 1.000
宏碁低 0.018 0.110 0.006 0.002 0.005
MP3 192 1.000 1.000 1.000 0.002 1.000
WAV 1.000 1.000 1.000 0.005 1.000
5.2。立体图像的感知

提供了一套完整的分数在63年100年的实验参与者(n = 63)。总结的结果为每个使用的10首歌曲听实验如图 4(歌曲1 - 5)和图 5(歌曲6到10)。这些图表给每个编解码器的平均评分误差说明一个标准差的意思。这的描述性信息显示的初始目视检查的一致性在每个歌曲和没有特定的趋势分析的每个被调查的编解码器的性能。这表明没有明显差异的每个编码方法的立体图像。

立体声场结果(歌曲1到5)。1分代表狭隘和不精确的,5分代表广泛和精确。

立体声场结果(歌曲6到10)。1分代表狭隘和不精确的,5分代表广泛和精确。

这些数字所显示的一样,平均值和标准偏差(SD)得分为6编码变化似乎相似的立体形象的感知。这些描述性统计具体表所示 6 7

192年总结立体图像分数:WAV, MP3, AAC 192 (n = 63)。1分代表狭隘和不精确的,5分代表宽,精确的噪声和失真。

首歌 WAV MP3 192 AAC格式192
的意思是 SD 的意思是 SD 的意思是 SD
住宅区恐慌 3.31 1.07 3.08 1.11 3.30 1.07
弹性的心 3.59 1.05 3.44 1.11 3.55 1.16
这些天 3.32 1.12 3.29 1.06 3.46 1.07
英雄(我们会) 3.15 1.15 3.07 1.21 3.32 1.21
当打滴 3.45 1.12 3.47 1.14 3.47 1.17
危险的 3.38 1.15 3.49 1.15 3.28 1.07
GDFR 3.77 1.06 3.67 1.15 3.66 1.18
这样做 3.33 1.16 3.34 1.07 3.41 1.21
让我感觉更好 3.86 1.00 3.85 1.10 3.75 1.12
什么样的男人 3.36 1.14 3.39 1.04 3.34 1.11

大的意思 3.45 1.10 3.41 1.11 3.45 1.14

摘要立体图像分数:宏碁低,宏碁的媒介,宏碁高192 (n = 63)。1分代表狭隘和不精确的,5分代表宽,精确的噪声和失真。

首歌 宏碁低 宏碁地中海 宏碁高
的意思是 SD 的意思是 SD 的意思是 SD
住宅区恐慌 3.33 1.15 3.50 1.03 3.11 1.06
弹性的心 3.06 1.17 3.66 1.12 3.51 1.11
这些天 3.15 1.15 3.45 1.03 3.35 1.16
英雄(我们会) 3.15 1.19 3.29 1.27 3.19 1.08
当打滴 3.41 1.20 3.24 1.19 3.44 1.12
危险的 3.28 1.16 3.55 1.04 3.36 1.09
GDFR 3.73 1.07 3.74 1.03 3.83 1.00
这样做 3.50 1.15 3.50 1.20 3.34 1.08
让我感觉更好 3.79 1.07 3.93 1.08 3.86 1.14
什么样的男人 3.27 1.17 3.35 1.07 3.56 1.02

大的意思 3.37 1.15 3.52 1.11 3.46 1.09

实验包含两个独立变量:六个方法用于编码编码的音乐和十首音乐。为了解决零假设 H2,在本文的介绍中提到的,一个双向重复测量方差分析进行分数上收到所有相关问题的63个有效回复立体图像。期望这样做是,如果每个编码机制是等效质量而言,应该没有显著差异在听力测试参与者的分数。与Greenhouse-Geisser修正一个重复测量方差分析显示,得分无显著差异之间的立体形象六编解码器 F (4.097, 254.019) = 1.116, p > 0.05。这部分的听力测试的结果表明,所有的编解码器执行以及未压缩的WAV音乐样本的立体图像质量被实验的参与者。

5.3。音频编解码器的偏好

参与测试的这一部分高,与几乎所有参与者至少指定一个最喜欢的编码版本的10首歌曲呈现给他们(97参与者表示936(满分1000分)的偏好)和最不喜欢的版本(96参与者表示907(满分1000分)的偏好)。50个参与者提供每首歌的青睐,而46提供完整的收藏集。考虑到重复这个问题的本质,并充分利用获得的数据,它是决定包括参与者在一个或多个场合表达了最喜欢的而不是排除任何数据不是100%完成。这些分数汇总所有十首歌样品产生的分数分布六编解码器音频样本。表 8显示最喜欢和最不喜欢的编解码器的比例。

最喜欢和最不喜欢的编解码器在所有歌曲(最大的值以粗体突出显示)。

编解码器 最喜欢的% (n = 936) 最不喜欢的% (n = 907)
未压缩的WAV 18.27 14.66
MP3 192 kbps 13.78 13.12
AAC 192 kbps 17.63 14.44
宏碁低质量 14.21 26.24
宏碁中等品质 19.23 16.43
宏碁高质量 16.88 15.10

仔细检查与卡方检验显示分布的最喜爱的编解码器是分布不均匀 χ 2 (5)= 13.744,p < 0.02,就像参与者的最不喜欢的编解码器的分布 χ 2 (5)= 62.956,p < 0.00001。提供一个平衡的分析,最喜欢的和最不喜欢的人物 6显示了两组之间的差异的分析结果来帮助说明了总体方向(正面或负面)的编解码器的偏好,这种偏好的力量。

最喜欢和最不喜欢的编解码器的区别。

图中给出的数据 6表明未压缩的WAV, MP3播放192 kbps, AAC 192 kbps,中质宏碁(ACER)和高质量的宏碁编解码器都收到了积极的偏好与未压缩的WAV略微表现最好的,其次是AAC和中质宏碁。最引人注目的结果从这个分析是低质量的强烈不喜欢宏基编解码器,唯一有一个总体负面的偏好。该结果支持参与者的结果评级的噪音和失真,这表明,只有低质量的宏碁编解码器在统计学上不同于其他,其余5编解码器类似的音频质量。

6。结果:定性的措施

前面所述的定量措施提供强大和可靠指标的听众的认知和偏好为每个编码方案在调查之中。如前所述,这种方法是一种常见的方式评估音频质量控制情况。加强这些研究结果的有效性,以及提供更详细的探讨和了解听众的经验,(主题分析 44)提供的免费文字评论进行回应声明中结束的时候听力测试:“请您能描述任何噪音或异常,你听到的音频片段。”

这些定性指标的使用有助于理解背后的一些推理定量值由参与者在听力测试中,特别是宏碁计划以前从未经历这样一个详细的评估。由于宏碁方法不降低分辨率的音频保留在压缩,不应当有任何添加失真或背景噪音。然而,它预计,在某些情况下,特别是在较低的比特率,宏碁可能产生“跳过”或“跳”效应在播放,因为减少匹配块之间的相似度阈值的音乐。

6.1。方法

使用主题分析和定性调查音频评价遇到的场景。它允许研究人员更好地了解音频的确切性质的文物和其他知觉对象,可能是他们的听众。例如,最近的研究( 45)进行了专题分析听众的评论同时评估一个身临其境的空间音频媒体设备编制方法的经验。这使得作者归类设计了系统具体的积极的和消极的特征。该领域的其他作品有利用定性过程识别特征在音频干扰 46]或验证设计的声音合成技术( 47]。

进行了专题分析使用Nvivo 11 [ 48软件,用于代码和组织过程中出现的主题。最初的研究进行了所有的评论,紧随其后的是最初的形成,高级主题(失真和噪声),一组初始的编码应用。这后,数据被编码的使用这两个最初的主题,重读,导致新兴粒度,增加更多的特定类型的噪声和失真,导致subthemes和产生一个额外的顶级主题(时机)。这是一个迭代的过程,直到没有额外的截然不同的主题可以被识别。

6.2。分析

由此产生的主题,和subthemes描述表 9,参与者数量伴随每个语句的示例响应列。这些展示的形成三个主题相关的描述损伤,以及少量的subthemes有关。

专题分析结果的总结。

主题 定义 n 示例响应
1。失真 操作或处理的原始信号,改变它的真实状态 88年 “一些片段的一种“嗡嗡”振动声音其他剪辑的同一块没有。”(P4)
1.1振幅 一般存在变形或剪切 50 “点燃的失真的声音有点模糊。”(P43)
1.2光谱 增强或减弱频率乐队的音乐 27 “…截止在高位,一些专门跟踪那些住仪器似乎冲毁/水下当扭曲(把它)。”(P16)
1.3声音清晰 增强或降低声音的音乐 8 “有时候声音变得清晰,纯净。”(意味着)
1.4安排 添加或删除乐器在音乐或音乐组件 3 “…选择错误的工具在某些片段,像喇叭一样。等等。”(P83)

2。噪音 存在额外的声音是不可取的 32 “非常“白噪音”,有时“echoy”。一些听起来像一个记录,而不是数字。”(P60)
2.1不需要的 一般的嘶嘶声,出现开裂,等等,活在当下 29日 “噪声的背景中可以听到一些片段。”(P05)
2.2回声 延迟或混响效果是否明显在音乐的真实状态 3 “Echoy ( 原文如此 ] 声音”(p91)

3所示。时机 在音频时间异常,序列或时机是不正确的 29日 “夹6的痕迹似乎“跳”和重复。”(P18)

三个主题,提供一个更广阔的背景的描述引发了听众,数字 7, 8, 9提供词云表示,使用Nvivo 11日创建的一个最大的100个最常用单词。生产这些图形描述,停止词(无关紧要的词用于描述,如“这“,“似乎”和“声音”)被移除。文字阻止也采用,相关的“模糊”和“模糊性”这样的词被认为属于相同的描述符。每个字的大小代表了其发生的相对频率。

参与者的变形词云主题描述。

参与者的噪音词云主题描述。

词云参与者的时间主题描述。

6.3。结果

大多数反应收到描述变形的存在,特别是amplitude-related效果,如谐波失真,以及频带的操纵。这并不奇怪,因为心理声学的编解码器的性质评估与宏碁的方法将每一帧的频域变换的音频部分波段和分配比特是司空见惯的事了。这就解释了许多常见的单词在图 7,如“扭曲”和“模糊性”。然而,注意,是很有用的几个实验中使用的歌曲使用变形作为一个艺术装置,这也许可以解释一些描述性的反馈引起的。这可以以一个参与者在一份声明中似乎确定这个事实:

“我发现很难知道如果是扭曲或风格的音乐。我发现我可能说这是扭曲的在第一次听到音乐。失真是基调,而不是一个不应该存在的噪声。所以通过倾听更多——没有扭曲。” ( P 79年 )

虽然是失真的情况可能是有目的的歌曲中,这种技术的存在应该是减轻的事实,它将出现在每个编解码器的音乐在某种程度上的代表。

报告的参与者不需要的噪声的经验很可能源于类似的问题,失真,变量之间的分配比特帧可以导致更高的噪声地板上。这个结果是令人惊讶的,因为192 kbps音频剪辑。特别有趣的是反应在图的集合 8“裂纹”和瞬态有关,可能介绍了编解码器的任何审查。

时间主题,宏碁的假设,是因为剪辑版本。在技术的发展,这些文物被遇到了,这是一个已知的低比特率宏碁音频方面,它可以让音乐听起来人望而生畏。除了少量的描述符在这个主题,相位和频率有关,大多数条款引发了与我们的经验是一致的,明显的通过图 9,如“跳过”和“口吃”。

当然,这三个方面的顶级主题和各自subthemes,有可能产生的描述是由于subject-expectancy效应( 49]。这就是主题下意识地表达障碍现象的音频,因为问题对噪声和异常有特别要求。虽然这可能是真正的失真和噪声的主题,没有具体的措辞时询问的时间方面剪辑。这种分析使我们认识到,在宏碁能够执行相对与其同时代的人,其局限性在质量水平可以感知并产生的构造我们的参与者都是有效的。

7所示。结论和未来的工作

宏碁中期和高质量的方法不仅执行以及当代心理声学的代码,在192 kbps CBR MP3, AAC格式,但也产生类似的分数未压缩的WAV PCM音频。劣质宏碁编解码器显示显著差异从他人的噪音和扭曲,虽然不是用它描绘立体图像的质量。这些发现支持通过提供一个分析参与者的偏好的编解码器,多数负面偏好表达了对低质量的宏碁编解码器。这种辅助方法评价编解码器的保证,提高这些结论的可靠性。结果突出显示,参与者能够感知一致性宏碁劣质版本之间的差异,每个人使用的另一种方法评估,这是一个常见的实践证明interitem准确性。

所有编解码器执行同样的感知立体形象呈现给听众。这表明立体声场成功保持在所有版本的音乐。考虑到使用的歌曲来自一个编译的流行音乐,在立体平移是一种常见的混合技术用于添加宽度录音,这是一个引人注目的发现。任何错误或异常发生在编码过程中应该是明显的,很容易被听众,尤其是因为他们使用耳机和音响形象他们认为不会影响因素在房间或由于自己的头部动作。

尽管宏碁劣质版本导致可怜的评价结果,在噪音和失真,结果是有益的在更广泛的背景下的研究。它有助于整体结果的可靠性,因为它表明,群听众参加能够感知和表达质量差异宏碁低质量和其他编解码器。相比之下,如果结果显示完整的同质性,这可能表示宏碁劣质版本的成功,但也有质疑听众的能力区分音频样本,使结果的可信度提出质疑。37%的参与者表示他们有某种形式的音乐训练和17%有一些专业音频培训,两组之间的重叠的14%,这意味着绝大多数非专家的听众。这些侦听器的数字超过符合ITU-R指南( 29日),证明非专家侦听器的有效性。宏碁编解码器的后续发展将是一个合适的时间来执行更多的听力测试。这将是特别适用的结果与未经训练的侦听器,已报告在这工作。专家的使用监听器可以提供一个更关键的评估任何音频质量的差异可能未被发现。这样未来的调查将承受的使用方法如ITU-R BS.1116 [ 34]或MUSHRA [ 35]。

本研究认为约束可以选择192 kbps MP3, AAC解码器的比特率。决定利用这个比特率来反映在消费音频市场事实上的标准实践。因此,每首歌的non-ACER压缩研究中未压缩的WAV, MP3, AAC格式进行使用苹果的iTunes软件,将MP3 192年描述为“高质量”,因此选择它作为基准压缩比特率。我们发现宏碁高和中质版本之间不存在差异,在噪音方面,扭曲,和立体声场,导致的结论是,这些宏碁版本产生音乐的音频质量感知可比192 kbps的压缩版本。更有趣的结果仍然是192 kbps的MP3, AAC版本,和宏碁高,中质歌曲,表现出类似的结果与未压缩的WAV版本。这个结果与[的工作 20.),前面所讨论的,发现MP3比特率必须大于,或等于,256 kbps引起这样的结果。然而,样本容量(n = 13)中使用( 20.)小得多,在我们的研究中,这或许可以解释这一结果。此外,同质性评级的MP3, AAC编码192 kbps的变体或更多的发现是一致的 22]。这表明,宏碁更高的比特率的比较MP3, AAC冗余运动。

编解码器的定性评价的局限性,听众没有要求离开评论噪音和文物专门为每一个他们听的编解码器。由于双盲实验的性质,这将需要大约每音频样本要求参与者留下评论他们听到。结果,不可能知道哪个编解码器的明确相关的主题,设计了定性的反馈。完成这样一个分析增加了大量的时间和费用进行现有研究;因此提出,这类询盘将适用于一个单独的未来的作品。在此类调查中,参与者可能会被要求描述他们认为品质的编码音频样本,而不必一定产生量化成绩或听太多的片段。这将进一步验证本文提供的初步结论,这表明MP3, AAC-coded音频失真和通过噪声损伤,而宏碁压缩介绍时序故障。

宏碁编解码器可用于听觉界面线索感知音乐的元素如earcons [ 50]。同时earcons不是音乐,他们共享许多相同的属性,因此这种形式的压缩将合适的候选人。其他形式的听觉界面提示有重复的元素如spearcons [ 51也可能是合适的。虽然压缩方法最初是为长音频文件,设计原则仍应适合短片。长形式的音频等有声书也可能受益于这种技术,尽可能多的声音元素,特别是停顿和呼吸通常表现出相似之处。这项技术也可以用于消声软件和游戏音频软件突出差异,强调他们保留声波的兴趣。

这项研究的结果表明,宏碁编解码器,在中期和高质量的设置,是当代技术高度功能作为一种替代方法的MP3, AAC,可能使其合适的作为一个独立的编解码器,用温和的数据减少,或作为一个潜在的伴侣心理声学的方法来实现更低的比特率。结果表明,宏碁的新颖的方法,寻找冗余在音乐结构和模式,是一种可行的技术,听众无法检测之间的显著差异,其他编解码器,未压缩的音频。虽然有文物和损伤期间推出的宏碁的编码,这表现在时间域而不是amplitude-related扭曲或噪音,宏碁音频保留一个完整的频谱和分辨率,使其有别于MP3, AAC。

比特率通过使用宏碁编解码器提供边际收益比通过使用WAV。这可能是适当的在降低数据率的情况下可取的但绝对损失音频保真度、频率操作和量子化的结果,是不允许的。这可能是如此场景,如音频分析任务,电脑游戏声音,法医分析,和多通道格式,局限于单一通道高度重复元素如纤维变性5.1,7.1,或大气压系统或档案音频。此外,宏碁的性能取决于作曲的音乐水平重复编码。这意味着高度重复的音乐将产生更大的降低比特率在同一宏碁设置。记住这一点,可能是宏碁设置自己可以调整具体的音乐被压缩,没有尝试的东西。最终,然而,我们建议最适合的应用程序的宏碁作为预处理步骤之前,音乐是压缩使用心理声学的方法,如MP3或AAC格式,提供了一个增强的当前状态的艺术 52]。这将提高压缩比已获得自己使用这些技术,并有可能几乎没有影响的感知质量的聆听体验。

下一阶段的发展,宏碁将聚焦于炼油回归模型用于确定宏碁的质量文件在歌曲中使用音频片段之间的相似性。创建一个精致的模型将包括一系列的集中听力测试,让我们确定这些差异的点被认为当他们成为有问题或分散。预计一个精致的模型可以实现更高的比特率降低,提高感知相似性剪辑的质量,这可能会导致宏碁劣质版本能够与中期和高质量的版本,以及MP3, AAC和未压缩的WAV。

数据可用性

听力测试数据用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

坎宁安 年代。 灌浆 V。 数据简化的音频音乐重复利用 多媒体工具和应用程序 2014年 72年 3 2299年 2320年 10.1007 / s11042 - 013 - 1504 - y Rogozinsky G·G。 Fadeyev d·R。 Podolsky d . A。 改编的心理声学的分析小波域有损音频编码 学报的2017系统信号同步,生成和处理在电信(SINKHROINFO) 2017年7月 喀山,俄罗斯 1 5 10.1109 / SINKHROINFO.2017.7997551 谷纳温 t·S。 拉希德 美国一个。 Kartiwi M。 调查各种算法对多通道音频压缩 学报2017年IEEE 4日国际会议在智能仪器仪表、测量和应用(ICSIMA) 2017年11月 普特拉贾亚,马来西亚 1 5 10.1109 / ICSIMA.2017.8311985 桑德勒 M。 黑色的 D。 可伸缩的弹性流媒体音频编码压缩和损失 IEE Proceedings-Vision、图像和信号处理 2006年 153年 3 331年 339年 10.1049 / ip-vis: 20050054 弗劳恩霍夫 i . i S。 活蹦乱跳的,mp3软件,专利和许可证|弗劳恩霍夫音频博客 2017年, http://www.audioblog.iis.fraunhofer.com/mp3-software-patents-licenses/ 坎宁安 年代。 Weinel J。 罗伯茨 年代。 灌浆 V。 格里菲思 D。 最初的客观和主观评价的相似性音频压缩技术 《第八届音频会议 2013年9月 Pitea、瑞典 1 6 10.1145/2544114.2544116 约斯特 W。 听力基础:一个介绍 2013年 5日 霍华德 d . M。 安格斯 j·a·S。 声学、心理声学 2017年 5日 焦点新闻 霍夫曼 d . A。 建设的方法minimum-redundancy代码 《愤怒 1952年 40 9 1098年 1101年 10.1109 / JRPROC.1952.273898 Zbl0137.13605 大米 r F。 一些实用的通用无声的编码技术 1979年 加利福尼亚州帕萨迪纳市,美国 美国国家航空航天局(NASA)技术报告 汉斯 M。 谢弗 R。 无损压缩的数字音频 IEEE信号处理杂志 18 4 21 32 10.1109/79.939834 Coalson J。 FLAC -免费无损音频编解码器 2014年 Xiph。组织基础 https://xiph.org/flac/index.html Ghido F。 禁忌 我。 稀疏模型的无损音频压缩 IEEE音频、语音和语言处理 2013年 21 1 14 28 10.1109 / TASL.2012.2211014 H。 H。 R。 无损音频压缩新IEEE标准先进音频编码 学报》2014 - 2014年ICASSP IEEE国际会议音响、演讲和信号处理(ICASSP) 2014年5月 意大利的佛罗伦萨 6934年 6938年 10.1109 / ICASSP.2014.6854944 所罗门 D。 莫塔 G。 手册的数据压缩 2010年 5日 施普林格科学与商业媒体 莫菲特 J。 Ogg Vorbis-open,自由audio-set媒体自由 Linux日志 2001年 81年 9 勃兰登堡 K。 MP3, AAC解释 音频工程学会会议程序:17日国际会议:高质量的音频编码 1999年 音频工程学会 勃兰登堡 K。 亨特 R。 Near-lossless高质量数字音频编码:第一的结果 ICASSP学报》93年 1993年4月 明尼阿波利斯,美国 193年 196年第1卷 10.1109 / ICASSP.1993.319088 Soulodre g。 Grusec T。 拉瓦 M。 蒂博 l 主观评价的最先进的双通道音频编解码器 音频工程协会杂志》上 1998年 46 3 164年 174年 2 - s2.0 - 0032024118 普拉斯 一个。 齐默尔曼 R。 列维京 D。 Guastavino C。 主观评价的mp3压缩不同的音乐流派 第127届音频工程学会学报2009年公约 2009年10月 美国 459年 465年 2 - s2.0 - 84866037685 海恩斯 一个。 Gillen E。 凯利 D。 Skoglund J。 Kokaram 一个。 哈特 N。 ViSQOLAudio:客观音频质量标准低比特率编解码器 《美国声学学会杂志》上 2015年 137年 6 EL449 EL455 10.1121/1.4921674 2 - s2.0 - 84930676055 Pocta P。 Beerends j·G。 主观和客观评估感知音频质量当前数字音频广播系统和16的应用程序 IEEE广播 2015年 61年 3 407年 415年 10.1109 / TBC.2015.2424373 勃兰登堡 K。 砍伐树木的人 C。 Herre J。 约翰斯顿 j . D。 Kleijn w·B。 感知编码的高质量数字音频 IEEE学报》 2013年 101年 9 1905年 1919年 10.1109 / JPROC.2013.2263371 ITU-R 感知到的音频质量客观测量方法 《国际电信联盟的建议 2001年 古水盆海湾 M。 仪器对声音质量的评估 声学学报与Acustica曼联 1997年 83年 5 775年 783年 2 - s2.0 - 0031223315 坎贝尔 D。 琼斯 E。 Glavin M。 音频质量评价的技术审查,和最近的进展 信号处理 2009年 89年 8 1489年 1500年 10.1016 / j.sigpro.2009.02.015 Vercellesi G。 Zerbini M。 维塔利 a . L。 客观和主观评价MPEG第三层感知质量 第14届欧洲信号处理研讨会论文集,EUSIPCO 2006 2006年 意大利的佛罗伦萨 1 5 2 - s2.0 - 84862626631 Hoeg W。 克里斯坦森 l 沃克 R。 主观评价的音频质量——欧洲内部的手段和方法 如技术审查,欧洲广播联盟 1997年 274年 40 50 2 - s2.0 - 0031368965 ITU-R 音质主观评价的一般方法 《国际电信联盟的建议 2003年 Defraene B。 范Waterschoot T。 迪赫 M。 穆南 M。 主观音质评价embedded-optimization-based变形预补偿算法 《美国声学学会杂志》上 2016年 140年 1 EL101 EL106 10.1121/1.4955025 Garcia-Alvarez j . C。 Aguirre s E。 Diaz-Solarte p C。 感知音频编码器评价质量评估 学报2014年IEEE第四国际会议消费电子产品-柏林(ICCE-Berlin) 2014年9月 柏林,德国 408年 410年 10.1109 / ICCE-Berlin.2014.7034281 加斯顿 l 桑德斯 R。 评价he - aac、AC-3 E-AC-3编解码器 音频工程协会杂志》上 2008年 56 3 140年 155年 2 - s2.0 - 44349095785 Villegas J。 Stegenborg-Andersen T。 Zacharov N。 Ramsgaard J。 表示方法的修改对标准化的影响听力测试 学报141音频工程社会公约 2016年 洛杉矶,加州,美国 2 - s2.0 - 85010807482 ITU-R 小障碍的主观评价方法在音频系统 《国际电信联盟的建议 2015年 梅森 a·J。 MUSHRA音频主观测试方法 研发白皮书流泪 2002年 038年 研究和发展,英国广播公司(BBC) Statista GmbH是一家 耳机的使用在美国2017 | 2017年美国使用耳机的频率 2018年, https://www.statista.com/statistics/283620/us-consumer-purchase-plans-smartphone-accessories-2010/ Statista GmbH是一家 耳机的使用在美国2017 |目的耳机用于2017年在美国 2018年 https://www.statista.com/statistics/696862/uses-of-headphones-in-the-us/ 沃特金斯 D。 电脑音箱现在最受欢迎的人们听音乐的方式 Strategy Analytics 2019年 https://www.strategyanalytics.com/strategy-analytics/news/strategy-analytics-press-releases/2015/12/17/computer-speakers-now-most-popular-way-people-listen-to-music 本奇 年代。 场音色方面的复制声音小房间。我 《美国声学学会杂志》上 1995年 97年 3 1717年 1726年 10.1121/1.413047 Velmans M。 理解意识 2009年 劳特利奇 海恩斯 一个。 Skoglund J。 Gillen E。 Kokaram 一个。 凯利 D。 哈特 N。 感知到的音频质量流立体声音乐 22日ACM国际会议多媒体学报》上 2014年 1173年 1176年 2 - s2.0 - 84913535173 不同的艺术家 “现在,这就是我所说的音乐!90”。编译(双音频CD)。现在!音乐 2015年 IEC RB 音频Recording-Compact盘数字音频系统,IEC 60908 1999 - 2002 客人 G。 MacQueen k . M。 Namey E·E。 应用主题分析 2012年 美国加州千橡市 圣人的出版物 10.4135 / 9781483384436 Francombe J。 伍德考克 J。 休斯 r . J。 梅森 R。 弗兰克 一个。 派克 C。 布鲁克斯 T。 戴维斯 w·J。 菲利普•杰克逊 j·B。 考克斯 t·J。 Fazi f·M。 希尔顿 一个。 定性评价的媒体设备编配身临其境的空间音频生殖 音频工程协会杂志》上 2018年 66年 6 414年 429年 2 - s2.0 - 85049176633 10.17743 / jaes.2018.0027 Francombe J。 梅森 R。 Dewhirst M。 本奇 年代。 模型的干扰audio-on-audio干扰情况音乐项目材料 音频工程协会杂志》上 2015年 63年 1 - 2 63年 77年 2 - s2.0 - 84922583013 10.17743 / jaes.2015.0006 柯南 年代。 Derrien O。 Aramaki M。 Ystad 年代。 Kronland-Martinet R。 一个合成模型和直观的控制能力滚动的声音 IEEE / ACM交易音频、语音和语言处理 2014年 22 8 1260年 1273年 10.1109 / TASLP.2014.2327297 近年国际 NVivo定性数据分析软件|近年国际 2018年, https://www.qsrinternational.com/nvivo/home d . J。 在新奇和复杂性之间的关系 《心理学:跨学科研究和应用 1977年 95年 2 317年 323年 2 - s2.0 - 84950939104 10.1080 / 00223980.1977.9915896 布拉特纳 M。 Sumikawa D。 格林伯格 R。 Earcons和图标:他们的结构和常见的设计原则 人机交互 1989年 4 1 11 44 10.1207 / s15327051hci0401_1 沃克 b . N。 林赛 J。 娘娘腔的男人 一个。 Spearcons(基于语音的earcons)提高导航性能先进的听觉菜单 人为因素:人为因素和人类工程学协会杂志》上 2013年 55 1 157年 182年 10.1177 / 0018720812450587 V。 Pohlmann K。 音频压缩使用重复的结构 美国专利申请 2006年