音频数据压缩的音乐产业带来了革命性的变化和音乐家销售和分发他们的产品。我们先前的研究提出了一种新颖的编解码器命名宏碁(音频压缩重复利用),达到数据减少利用不合时宜和冗余在音乐结构时一般维持可接受的水平噪声和失真的客观评价。然而,以前的工作没有评估宏碁使用主观听力测试,留下一个缺口来证明其适用性在人类感知音频测试。在本文中,我们提出一个双盲听测试,进行了一系列的听众(N = 100)。目的是确定宏碁编解码器的疗效,明显的噪声和空间扭曲的文物,对音频数据压缩和未压缩的事实上的标准参考。结果表明,参与者报告没有未压缩感知差异,MP3, AAC、宏碁高质量和宏碁中等品质压缩音频噪声和失真,但宏碁低质量的格式被认为是低质量的。然而,参与者的看法的音响领域,所有格式在测试执行以及彼此,没有显著差异。定性、主题分析听众的反馈显示,噪音文物,宏碁生产技术不同于那些比较器编解码器,反映了它的新方法。结果表明,当代音频压缩系统的质量已达到一个阶段,他们的表现被认为是未压缩的音频。宏碁格式能够竞争作为一种替代方法,结果显示偏好宏碁介质质量版本在WAV, MP3, AAC。 The ACER process itself is viable on its own or in conjunction with techniques such as MP3 and AAC.
在这项工作中,我们评估的性能宏碁(音频压缩利用重复)编解码器(
在之前的工作中,给出了宏碁音频编码方案。宏碁音频压缩的任务不同于现有方法能够利用音乐结构中包含音频文件使用一个基于字典的方法。宏碁的做法是不寻常的在音频压缩域,在更传统的方法是利用人类听觉心理声学模型和反映这些比特分配的频谱。这主要是通过聚焦在听众感知音乐的特征,可以确定为了利用冗余和不合时宜的底层音频信号(
在这项研究中,我们进行了一项大规模评估宏碁计划对两种流行的音频编解码器(MP3, AAC),以及一个未压缩波(WAV)版本的音频。因为我们有兴趣,在这项研究中,在人类感知的音频压缩方案,我们聚焦于评估关键知觉品质。因此,我们的目标是调查以下零假设:
维护我们建议,如果这些假设,然后用宏基的编解码器可以被认为是一个适当的替代方法的音频编码以独立的形式或集成现有的心理声学的编码技术来增强的数据量减少,可以实现。宏碁编解码器的使用有可能扩大可用音频压缩技术的范围,提供一个替代的数据还原法在心理声学的压缩的情况下,减少光谱分辨率,可能不合适,比如在某些音频分析任务或高保真音频回放。
本文的其余部分组织如下:第二部分提供背景对我们的工作提供了一个关键的讨论最近的研究领域的音频压缩和知觉测试方法有关。在那之后,宏碁压缩方案的概述。部分
音频压缩方案从《盗梦空间》的发展评价是利用多个学科领域,包括计算机科学,音频工程和听力测试和评估。在本节中,我们的目标是为读者提供一个广泛的、丰富的音频数据压缩,放到和支撑的相关方面提出了本文的工作。
与其他形式的数字媒体信息,音频已经对方法中引起相当大的关注减少存储和传输所需的比特数。analogue-to-digital转换(采样)的过程本身就是一个必须做出的决定,随后的音频的采样率和比特深度将可靠地允许所需频率和水平动态原始声音的代表。这通常是在创建一定的压缩脉冲编码调制(PCM)表示,它本身可以被描述为一种数据压缩。成功繁殖频率和动力是非常重要的为了给听众提供高保真音频生殖(高保真)。然而,人类听觉系统(已经)不是线性的频率和振幅的解释听起来了,这意味着人类感知的声音并不总是要求的所有潜在的声音频率和动态品质的声音存在,当听觉刺激。频率和时间掩蔽的现象
无损音频编码方法,同时有效,很大程度上一直停滞不前的减少获得的数据量(
然而,它常常需要采用有损压缩技术来实现更高的比率,通常利用心理声学的属性和操作的限制。至关重要的是,解码过程并不抑制流体回放的声音,要求快速,需要少量的CPU处理时间,并产生相对准确的结果。因此,音频编码技术是不对称的,容忍延迟压缩、减压过程提供尽可能真实的时间
最近的事态发展在音频压缩域看过工作提高音频保真度可以由编解码器操作以非常低的比特率,如24、48、64、92 kbps (
当处理音频,它是包括感知评价的关键在测量一个编解码器的性能。的决心如何合成音频侦听器数据简化过程的结果如果要广泛采用至关重要。知觉评估可以使用客观的和/或主观的机制进行的。
客观评价依靠音频信号的特性分析和比较一个已知的参考基准。这个过程可以使用简单的机制,如信噪比(信噪比)或更复杂的算法,基于人类听觉系统的模型,如音频质量的感知评价(PEAQ)规
客观测试是一种方便的资源的方式测量特定的音频编解码器的功效。尤其是典型的障碍进行主观测试,设备资源,并获得足够数量的参与者,有有限的证据表明客观措施更高的比特率音频编解码器产生类似的结果主观评价(
的理想数量的参与者使用的音频质量评估,国际电信联盟无线电通信(ITU-R)身体支持者至少10,如果使用专家听众,或至少20,如果使用非专家的听众(
在一个主观评价进行(
另一项研究[
宏碁的主要宗旨的方法是利用存在于当代音乐结构的冗余实现数据减少而不是依赖与在其合成感知缺陷。尤其是流行音乐,利用重复作为一种有意识的工具与听众和一块形式和结构。在很多情况下,这意味着相同的内容是重复的,在音乐播放多个实例,而不是一个人类相同的音乐序列的性能,这将是容易的细微差别时机和动力学。这种重复的存在产生了冗余的机会被发现和利用实现数据压缩。宏碁的方法利用无损的原理基于字典的计划(
简单eight-bar音乐序列。箭头表示重复,阴影区域表示重复四音符/ 1块序列,和虚线区域指示重复通知/ 3-bar序列。
这个例子展示了一个简单的音乐旋律超过8酒吧的音乐和使用共有三十明确编码的笔记。很明显,目前有冗余表示,这可能被利用来达到降低块的大小表示,这些冗余的对象可能是发现与windows(持续时间)的大小不同。例如,序列中的第一个音符出现了总共13次(每个注意图中突出了一个箭头);然而,字典索引的开销和符号使得这个效率低下。在更大的范围内,第一个完整的音乐酒吧出现四次(阴影所反映出的矩形),可能提供储蓄的八30笔记,加上一个小编码开销。观察也可以了,进一步扩大,前三条酒吧五块是相同的,6和7(虚线所反映出的),呈现另一个冗余,节省了十二个三十的笔记,加上一个小编码开销,因为第一行(酒吧1到4)和二线(酒吧5到6)不同只有最后的两个音符。
宏碁技术将上述方法并执行相同的原则,如在象征层面上所讨论的,但在信号电平。这带来了额外的挑战由于许多因素,如噪声、复调音乐,和没有量子化,以及表述行为的和富有表现力的因素。宏碁在执行搜索音乐音频片段检测感知相同,或类似的,部分的音乐和提取多余的部分。
宏碁编码过程通过建立开始
感知相似的定义是基于回归模型使用人类开发的听众,形成早期的技术描述的一部分,宏碁压缩过程和算法(
我们先前的研究缺乏深入和持续的主观、感性评价疗效的宏碁计划相比,压缩和压缩格式(MP3, AAC)。这是由于缺乏时间和访问专家听套件资源。这个缺陷是在这项工作。
听力考试研究来确定宏碁的感知质量和性能的方法相比,未压缩的WAV, MP3, AAC编码音乐音频。使用听力测试方法如ITU-R bs - 1116 (
参与者提供机会听到短(20岁)样本10选择歌曲。每个被反复播放,直到参与者完成他们的反应或希望继续前进。他们能够听到六个版本的每首歌:未压缩的WAV, MP3 192 kbps CBR, AAC 192 kbps CBR,宏碁低质量,宏碁中等品质和宏碁高质量。每个样本同时回放,以随机的顺序输入源选择器HG8/1 Canford硬件开关,允许参与者自由选择样本流他们听使用一个简单的旋转开关。
封闭的拜尔动态DT770M 80 -欧姆耳机选择的研究,因为他们有一个被动的环境噪音减少35 dB,根据制造商的规范。一个美国莱恩HC6S耳机放大器,RMS级别是82 dBC,大致按照推荐的参考电平ITU-R [
耳机的使用也最小化任何房间声学色的影响,影响听力的研究表明(
对每首歌,参与者被邀请来提供一个响应,使用纸质得分表,两个问题。第一个关心任何的噪音样本,和第二个立体图像的质量,他们有经验。用于这两个问题的措辞被考虑术语推荐选择ITU-R BS.1284 [
参与者被要求评价每个剪辑的音频质量对噪音和失真使用五点语义分化量表如下:
共有100名参与者参与的听力考试,并招募Merchiston爱丁堡纳皮尔大学校园。关于背景,28%是大学学生,而33%是学术或教职员工和39%是行政和支持人员。参与者不提供任何形式的报酬或其他任何形式的诱因为他们的参与。
其他人口细节而言,55岁女性参与者和45是男性。平均年龄为40 (SD = 12)最低20岁,最大的68岁。所有的参与者都认为自己有什么他们认为是听力正常的年龄。17%确定,他们有某种形式的专业音频培训,37%的人表示,他们有某种形式的音乐训练。最后,参与者被要求给一个估计他们通常花多少时间每天听音乐。72%的人回答说,他们听音乐1到3个小时每一天,和8%不听任何音乐。
总共有10个音乐剧选段中使用的评估。这些歌曲是随机从double-CD当代英国流行音乐专辑的编译:
选择音乐的感知测试。
艺术家 | 首歌 |
---|---|
马克荣森壮举。布鲁诺火星 |
|
新航 |
|
把这 |
|
Alesso壮举。Tove瞧 |
|
马龙Roudette |
|
一共壮举。山姆·马丁 |
|
里达弗洛这样解释的壮举。圣人双子座&种在地球 |
|
Charli XCX壮举。丽塔奥拉 |
|
亚历克斯代尔 |
|
佛罗伦萨+机器 |
|
样本取自商业CD,每首歌代表CD音频质量(红书)
创建每首歌的压缩版本,剪辑受到各自的压缩过程和同一20-second-long摘录随后提取。淡入和淡出被应用,符合ITU-R期间建议和表示的音乐样本(
获得的比特率的六个版本的这首歌如表所示
比特率为每个编解码器和歌曲的组合实现。
首歌 | 比特率(kbps) | |||||
---|---|---|---|---|---|---|
WAV | MP3 | AAC格式 | 宏碁高 | 宏碁地中海 | 宏碁低 | |
|
1411年 | 192年 | 192年 | 1174年 | 1086年 | 1023年 |
|
1411年 | 192年 | 192年 | 1287年 | 1174年 | 896年 |
|
1411年 | 192年 | 192年 | 1174年 | 1063年 | 965年 |
|
1411年 | 192年 | 192年 | 1178年 | 998年 | 855年 |
|
1411年 | 192年 | 192年 | 1395年 | 1348年 | 1178年 |
|
1411年 | 192年 | 192年 | 1244年 | 1171年 | 1153年 |
|
1411年 | 192年 | 192年 | 1081年 | 1019年 | 945年 |
|
1411年 | 192年 | 192年 | 1341年 | 1184年 | 1098年 |
|
1411年 | 192年 | 192年 | 1060年 | 901年 | 813年 |
|
1411年 | 192年 | 192年 | 1398年 | 1356年 | 1300年 |
|
||||||
|
|
|
|
|||
|
||||||
|
|
|
|
宏碁技术运营以来在一块特定的音乐音频,删除冗余的压缩量(即。,降低比特率)是直接受到声波音频文件的内容本身。例如,大量的音乐功能重复和少量的变化在音乐表演中,发音,和编制将实现与宏碁计划降低比特率,而可能被视为更前卫的音乐,与非常规结构或性能的变化,发音,和编排,将实现更少的比特率的减少。宏碁计划的质量设置节流的知觉相似性由编码器容忍:高质量的设置严格的序列被认为是一场比赛,而低质量的设置更严格和更有可能产生知觉异常。
虽然有100人参加了在听力测试中,他们没有义务提供一个评级为每个音频刺激以适应听众的不确定性或无法选择偏好。这个要求不能迫使参与者提供的反应也是一个要求实现大学伦理批准(爱丁堡纳皮尔)听力学习发生。因此,并不是所有的参与者提供了一个完整的评级的刺激,使一个完整的、重复测量的比较评级不可能使用整个组的100名参与者。那些没有为每个跟踪提供评级已经被排除在分析提出了在随后的部分,而处理噪音和立体场因素的量化评分评估从听力测试。然而,如果参与者对随后的问题,他们最相关和最不喜欢的版本的歌曲,他们的反应已经包含在随后的小节和任何定性反馈收到也被使用。这是决定一个合适的策略,因为它是可能的参与者可能没有额定每个误跟踪的一些版本,考虑到相对大量的比较(
提供了一套完整的分数在68年100年的实验参与者(n = 68)。总结的结果为每个使用的10首歌曲听实验如图
噪音和失真的结果(歌曲1到5)。1代表听不清噪音和失真,5分代表可察觉的噪音和失真。
噪音和失真的结果(歌曲6到10)。1分代表听不清噪音和失真,5分代表可察觉的噪音和失真。
这些数字所显示的一样,平均值和标准偏差(SD)得分为6编码变化似乎相似的噪声和失真的感知。这些描述性统计具体表所示
总结噪音和失真分数:WAV, MP3播放192年和AAC 192 (n = 68)。1分代表听不清噪音和失真,5分代表可察觉的噪音和失真。
首歌 | WAV | MP3 192 | AAC格式192 | |||
---|---|---|---|---|---|---|
的意思是 | SD | 的意思是 | SD | 的意思是 | SD | |
|
2.85 | 1.38 | 2.56 | 1.36 | 2.77 | 1.32 |
|
2.58 | 1.34 | 2.77 | 1.36 | 2.60 | 1.33 |
|
2.55 | 1.27 | 2.56 | 1.24 | 2.50 | 1.23 |
|
2.98 | 1.38 | 2.92 | 1.35 | 2.91 | 1.39 |
|
2.21 | 1.22 | 2.28 | 1.17 | 2.23 | 1.24 |
|
2.68 | 1.34 | 2.72 | 1.34 | 2.70 | 1.42 |
|
2.29 | 1.27 | 2.28 | 1.22 | 2.32 | 1.18 |
|
2.64 | 1.29 | 2.72 | 1.31 | 2.71 | 1.34 |
|
2.40 | 1.33 | 2.45 | 1.35 | 2.36 | 1.22 |
|
2.62 | 1.31 | 2.42 | 1.23 | 2.59 | 1.26 |
|
||||||
|
|
|
|
|
|
|
摘要噪音和失真分数:宏碁低,宏碁的媒介,宏碁高(n = 68)。1分代表听不清噪音和失真,5分代表可察觉的噪音和失真。
首歌 | 宏碁低 | 宏碁地中海 | 宏碁高 | |||
---|---|---|---|---|---|---|
的意思是 | SD | 的意思是 | SD | 的意思是 | SD | |
|
2.53 | 1.42 | 2.57 | 1.23 | 2.86 | 1.29 |
|
3.29 | 1.51 | 2.65 | 1.36 | 2.66 | 1.15 |
|
2.89 | 1.45 | 2.45 | 1.24 | 2.69 | 1.37 |
|
3.46 | 1.34 | 3.31 | 1.29 | 2.96 | 1.31 |
|
2.30 | 1.23 | 2.28 | 1.18 | 2.23 | 1.13 |
|
3.29 | 1.36 | 2.73 | 1.35 | 2.77 | 1.38 |
|
2.39 | 1.19 | 2.36 | 1.27 | 2.43 | 1.32 |
|
2.85 | 1.39 | 2.77 | 1.34 | 2.80 | 1.29 |
|
2.64 | 1.42 | 2.43 | 1.36 | 2.53 | 1.40 |
|
2.68 | 1.33 | 2.58 | 1.35 | 2.46 | 1.33 |
|
||||||
|
|
|
|
|
|
|
剩下的没有统计上显著的差异五编解码器。这说明在获得每个编解码器的成对比较,p值表所示
事后成对编解码器比较(p值< 0.05以粗体突出显示)。
编解码器 | AAC格式192 | 宏碁高 | 宏碁地中海 | 宏碁低 | MP3 192 | WAV |
---|---|---|---|---|---|---|
AAC格式192 |
|
|
|
|
|
|
宏碁高 |
|
|
|
|
|
|
宏碁地中海 |
|
|
|
|
|
|
宏碁低 |
|
|
|
|
|
|
MP3 192 |
|
|
|
|
|
|
WAV |
|
|
|
|
|
提供了一套完整的分数在63年100年的实验参与者(n = 63)。总结的结果为每个使用的10首歌曲听实验如图
立体声场结果(歌曲1到5)。1分代表狭隘和不精确的,5分代表广泛和精确。
立体声场结果(歌曲6到10)。1分代表狭隘和不精确的,5分代表广泛和精确。
这些数字所显示的一样,平均值和标准偏差(SD)得分为6编码变化似乎相似的立体形象的感知。这些描述性统计具体表所示
192年总结立体图像分数:WAV, MP3, AAC 192 (n = 63)。1分代表狭隘和不精确的,5分代表宽,精确的噪声和失真。
首歌 | WAV | MP3 192 | AAC格式192 | |||
---|---|---|---|---|---|---|
的意思是 | SD | 的意思是 | SD | 的意思是 | SD | |
|
3.31 | 1.07 | 3.08 | 1.11 | 3.30 | 1.07 |
|
3.59 | 1.05 | 3.44 | 1.11 | 3.55 | 1.16 |
|
3.32 | 1.12 | 3.29 | 1.06 | 3.46 | 1.07 |
|
3.15 | 1.15 | 3.07 | 1.21 | 3.32 | 1.21 |
|
3.45 | 1.12 | 3.47 | 1.14 | 3.47 | 1.17 |
|
3.38 | 1.15 | 3.49 | 1.15 | 3.28 | 1.07 |
|
3.77 | 1.06 | 3.67 | 1.15 | 3.66 | 1.18 |
|
3.33 | 1.16 | 3.34 | 1.07 | 3.41 | 1.21 |
|
3.86 | 1.00 | 3.85 | 1.10 | 3.75 | 1.12 |
|
3.36 | 1.14 | 3.39 | 1.04 | 3.34 | 1.11 |
|
||||||
|
|
|
|
|
|
|
摘要立体图像分数:宏碁低,宏碁的媒介,宏碁高192 (n = 63)。1分代表狭隘和不精确的,5分代表宽,精确的噪声和失真。
首歌 | 宏碁低 | 宏碁地中海 | 宏碁高 | |||
---|---|---|---|---|---|---|
的意思是 | SD | 的意思是 | SD | 的意思是 | SD | |
|
3.33 | 1.15 | 3.50 | 1.03 | 3.11 | 1.06 |
|
3.06 | 1.17 | 3.66 | 1.12 | 3.51 | 1.11 |
|
3.15 | 1.15 | 3.45 | 1.03 | 3.35 | 1.16 |
|
3.15 | 1.19 | 3.29 | 1.27 | 3.19 | 1.08 |
|
3.41 | 1.20 | 3.24 | 1.19 | 3.44 | 1.12 |
|
3.28 | 1.16 | 3.55 | 1.04 | 3.36 | 1.09 |
|
3.73 | 1.07 | 3.74 | 1.03 | 3.83 | 1.00 |
|
3.50 | 1.15 | 3.50 | 1.20 | 3.34 | 1.08 |
|
3.79 | 1.07 | 3.93 | 1.08 | 3.86 | 1.14 |
|
3.27 | 1.17 | 3.35 | 1.07 | 3.56 | 1.02 |
|
||||||
|
|
|
|
|
|
|
实验包含两个独立变量:六个方法用于编码编码的音乐和十首音乐。为了解决零假设
参与测试的这一部分高,与几乎所有参与者至少指定一个最喜欢的编码版本的10首歌曲呈现给他们(97参与者表示936(满分1000分)的偏好)和最不喜欢的版本(96参与者表示907(满分1000分)的偏好)。50个参与者提供每首歌的青睐,而46提供完整的收藏集。考虑到重复这个问题的本质,并充分利用获得的数据,它是决定包括参与者在一个或多个场合表达了最喜欢的而不是排除任何数据不是100%完成。这些分数汇总所有十首歌样品产生的分数分布六编解码器音频样本。表
最喜欢和最不喜欢的编解码器在所有歌曲(最大的值以粗体突出显示)。
编解码器 | 最喜欢的% (n = 936) | 最不喜欢的% (n = 907) |
---|---|---|
|
18.27 | 14.66 |
|
13.78 | 13.12 |
|
17.63 | 14.44 |
|
14.21 |
|
|
|
16.43 |
|
16.88 | 15.10 |
仔细检查与卡方检验显示分布的最喜爱的编解码器是分布不均匀
最喜欢和最不喜欢的编解码器的区别。
图中给出的数据
前面所述的定量措施提供强大和可靠指标的听众的认知和偏好为每个编码方案在调查之中。如前所述,这种方法是一种常见的方式评估音频质量控制情况。加强这些研究结果的有效性,以及提供更详细的探讨和了解听众的经验,(主题分析
这些定性指标的使用有助于理解背后的一些推理定量值由参与者在听力测试中,特别是宏碁计划以前从未经历这样一个详细的评估。由于宏碁方法不降低分辨率的音频保留在压缩,不应当有任何添加失真或背景噪音。然而,它预计,在某些情况下,特别是在较低的比特率,宏碁可能产生“跳过”或“跳”效应在播放,因为减少匹配块之间的相似度阈值的音乐。
使用主题分析和定性调查音频评价遇到的场景。它允许研究人员更好地了解音频的确切性质的文物和其他知觉对象,可能是他们的听众。例如,最近的研究(
进行了专题分析使用Nvivo 11 [
由此产生的主题,和subthemes描述表
专题分析结果的总结。
主题 | 定义 | n | 示例响应 |
---|---|---|---|
|
操作或处理的原始信号,改变它的真实状态 | 88年 | “一些片段的一种“嗡嗡”振动声音其他剪辑的同一块没有。”(P4) |
|
一般存在变形或剪切 | 50 | “点燃的失真的声音有点模糊。”(P43) |
|
增强或减弱频率乐队的音乐 | 27 | “…截止在高位,一些专门跟踪那些住仪器似乎冲毁/水下当扭曲(把它)。”(P16) |
|
增强或降低声音的音乐 | 8 | “有时候声音变得清晰,纯净。”(意味着) |
|
添加或删除乐器在音乐或音乐组件 | 3 | “…选择错误的工具在某些片段,像喇叭一样。等等。”(P83) |
|
|||
|
存在额外的声音是不可取的 | 32 | “非常“白噪音”,有时“echoy”。一些听起来像一个记录,而不是数字。”(P60) |
|
一般的嘶嘶声,出现开裂,等等,活在当下 | 29日 | “噪声的背景中可以听到一些片段。”(P05) |
|
延迟或混响效果是否明显在音乐的真实状态 | 3 | “Echoy |
|
|||
|
在音频时间异常,序列或时机是不正确的 | 29日 | “夹6的痕迹似乎“跳”和重复。”(P18) |
三个主题,提供一个更广阔的背景的描述引发了听众,数字
参与者的变形词云主题描述。
参与者的噪音词云主题描述。
词云参与者的时间主题描述。
大多数反应收到描述变形的存在,特别是amplitude-related效果,如谐波失真,以及频带的操纵。这并不奇怪,因为心理声学的编解码器的性质评估与宏碁的方法将每一帧的频域变换的音频部分波段和分配比特是司空见惯的事了。这就解释了许多常见的单词在图
虽然是失真的情况可能是有目的的歌曲中,这种技术的存在应该是减轻的事实,它将出现在每个编解码器的音乐在某种程度上的代表。
报告的参与者不需要的噪声的经验很可能源于类似的问题,失真,变量之间的分配比特帧可以导致更高的噪声地板上。这个结果是令人惊讶的,因为192 kbps音频剪辑。特别有趣的是反应在图的集合
时间主题,宏碁的假设,是因为剪辑版本。在技术的发展,这些文物被遇到了,这是一个已知的低比特率宏碁音频方面,它可以让音乐听起来人望而生畏。除了少量的描述符在这个主题,相位和频率有关,大多数条款引发了与我们的经验是一致的,明显的通过图
当然,这三个方面的顶级主题和各自subthemes,有可能产生的描述是由于subject-expectancy效应(
宏碁中期和高质量的方法不仅执行以及当代心理声学的代码,在192 kbps CBR MP3, AAC格式,但也产生类似的分数未压缩的WAV PCM音频。劣质宏碁编解码器显示显著差异从他人的噪音和扭曲,虽然不是用它描绘立体图像的质量。这些发现支持通过提供一个分析参与者的偏好的编解码器,多数负面偏好表达了对低质量的宏碁编解码器。这种辅助方法评价编解码器的保证,提高这些结论的可靠性。结果突出显示,参与者能够感知一致性宏碁劣质版本之间的差异,每个人使用的另一种方法评估,这是一个常见的实践证明interitem准确性。
所有编解码器执行同样的感知立体形象呈现给听众。这表明立体声场成功保持在所有版本的音乐。考虑到使用的歌曲来自一个编译的流行音乐,在立体平移是一种常见的混合技术用于添加宽度录音,这是一个引人注目的发现。任何错误或异常发生在编码过程中应该是明显的,很容易被听众,尤其是因为他们使用耳机和音响形象他们认为不会影响因素在房间或由于自己的头部动作。
尽管宏碁劣质版本导致可怜的评价结果,在噪音和失真,结果是有益的在更广泛的背景下的研究。它有助于整体结果的可靠性,因为它表明,群听众参加能够感知和表达质量差异宏碁低质量和其他编解码器。相比之下,如果结果显示完整的同质性,这可能表示宏碁劣质版本的成功,但也有质疑听众的能力区分音频样本,使结果的可信度提出质疑。37%的参与者表示他们有某种形式的音乐训练和17%有一些专业音频培训,两组之间的重叠的14%,这意味着绝大多数非专家的听众。这些侦听器的数字超过符合ITU-R指南(
本研究认为约束可以选择192 kbps MP3, AAC解码器的比特率。决定利用这个比特率来反映在消费音频市场事实上的标准实践。因此,每首歌的non-ACER压缩研究中未压缩的WAV, MP3, AAC格式进行使用苹果的iTunes软件,将MP3 192年描述为“高质量”,因此选择它作为基准压缩比特率。我们发现宏碁高和中质版本之间不存在差异,在噪音方面,扭曲,和立体声场,导致的结论是,这些宏碁版本产生音乐的音频质量感知可比192 kbps的压缩版本。更有趣的结果仍然是192 kbps的MP3, AAC版本,和宏碁高,中质歌曲,表现出类似的结果与未压缩的WAV版本。这个结果与[的工作
编解码器的定性评价的局限性,听众没有要求离开评论噪音和文物专门为每一个他们听的编解码器。由于双盲实验的性质,这将需要大约每音频样本要求参与者留下评论他们听到。结果,不可能知道哪个编解码器的明确相关的主题,设计了定性的反馈。完成这样一个分析增加了大量的时间和费用进行现有研究;因此提出,这类询盘将适用于一个单独的未来的作品。在此类调查中,参与者可能会被要求描述他们认为品质的编码音频样本,而不必一定产生量化成绩或听太多的片段。这将进一步验证本文提供的初步结论,这表明MP3, AAC-coded音频失真和通过噪声损伤,而宏碁压缩介绍时序故障。
宏碁编解码器可用于听觉界面线索感知音乐的元素如earcons [
这项研究的结果表明,宏碁编解码器,在中期和高质量的设置,是当代技术高度功能作为一种替代方法的MP3, AAC,可能使其合适的作为一个独立的编解码器,用温和的数据减少,或作为一个潜在的伴侣心理声学的方法来实现更低的比特率。结果表明,宏碁的新颖的方法,寻找冗余在音乐结构和模式,是一种可行的技术,听众无法检测之间的显著差异,其他编解码器,未压缩的音频。虽然有文物和损伤期间推出的宏碁的编码,这表现在时间域而不是amplitude-related扭曲或噪音,宏碁音频保留一个完整的频谱和分辨率,使其有别于MP3, AAC。
比特率通过使用宏碁编解码器提供边际收益比通过使用WAV。这可能是适当的在降低数据率的情况下可取的但绝对损失音频保真度、频率操作和量子化的结果,是不允许的。这可能是如此场景,如音频分析任务,电脑游戏声音,法医分析,和多通道格式,局限于单一通道高度重复元素如纤维变性5.1,7.1,或大气压系统或档案音频。此外,宏碁的性能取决于作曲的音乐水平重复编码。这意味着高度重复的音乐将产生更大的降低比特率在同一宏碁设置。记住这一点,可能是宏碁设置自己可以调整具体的音乐被压缩,没有尝试的东西。最终,然而,我们建议最适合的应用程序的宏碁作为预处理步骤之前,音乐是压缩使用心理声学的方法,如MP3或AAC格式,提供了一个增强的当前状态的艺术
下一阶段的发展,宏碁将聚焦于炼油回归模型用于确定宏碁的质量文件在歌曲中使用音频片段之间的相似性。创建一个精致的模型将包括一系列的集中听力测试,让我们确定这些差异的点被认为当他们成为有问题或分散。预计一个精致的模型可以实现更高的比特率降低,提高感知相似性剪辑的质量,这可能会导致宏碁劣质版本能够与中期和高质量的版本,以及MP3, AAC和未压缩的WAV。
听力测试数据用于支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突有关的出版。