研究文章|开放访问
Shuyue Zhou,Xiaobo Li,Yihong Dong,Hao Xu那 “用于多标签分类的解耦和双向重采样方法,具有标签并发的不平衡数据",科学规划一世>那 卷。2020.那 文章的ID8829432.那 10. 页面那 2020.. https://doi.org/10.1155/2020/8829432
用于多标签分类的解耦和双向重采样方法,具有标签并发的不平衡数据
抽象的
标签不平衡是Multilabel数据的特征之一,并且不平衡数据严重影响了分类器的性能。在Multilabel分类中,重采样方法主要用于处理不平衡的问题。现有的重采样方法通过欠采样或过采样进行平衡,这导致过度拟合和信息丢失。重采样对少数民族标签产生重大影响。此外,许多情况下多数标签和少数民族标签的高并发性也会影响分类的性能。在这项研究中,我们提出了一种双向重采样方法来解除多议标签数据集。一方面,通过设置去耦的终端条件,可以减少标签的并发性,另一方面,通过组合过采样和欠采样来缓解实例信息和过度装备的丢失。通过测量实例的少数群体标签,选择对少数群体标签影响的实例进行重新取样。重采样次数限制为保持在重新采样阶段期间数据的原始分布。七个基准Multilabel数据集的实验证明了算法的有效性,尤其是大多数标签和少数民族标签并发的数据集。
1.介绍
随着大数据时代的出现,近年来的数据分类受到了很多关注。不平衡数据通常发生在数据分类领域,包括医疗数据。数据不平衡意味着某些类别的实例远远高于其他类别。通常,与平衡数据集相比,大多数算法在处理不平衡数据时表现不佳。分类器的性能被偏置到多数类,并且在少数群体类上会出现更高的错误率。在实际应用中,我们倾向于更加关注少数阶级的正确分类结果;因此,正确识别少数群体比正确识别多数课程更为重要。例如,在肿瘤分类领域中,非讲患者是多数阶级,而肿瘤患者是少数阶级[1,但我们更关心的是少数肿瘤患者。这些问题在医学影像分类、信用卡诈骗等领域也存在[2]检测和网络入侵识别等。
多标签不平衡问题与传统的不平衡问题不同。在多标签不平衡问题中,每个实例与一组标签相关联,而不是仅在二进制分类中的一种类型的标签。具有较大实例的类被称为多数类,它对应于大多数标签,并且具有较少数量的实例的类称为少数类,这对应于少数标签[3.-5.].例如,在预测药物靶标中,由于每个药物分子可以对应于多个靶标,靶也可以对应于多种药物分子,但是一些目标含有比其余目标的实例更少,这大大增加了分类的难度。
在传统的二进制分类中,因为每个样本仅对应于一个类,所以没有必要考虑不同类的影响。但是多标签分类必须面临新的挑战,其中一些实例包含多数标签和少数民族标签。这两种标签都是高度并发的,这使得能够正确地分类多标签数据更加困难。多标签数据不平衡和多数标签和少数民族标签的并发性经常共存。同时处理这两个问题时,他们通常需要一起考虑。
2.相关工作
根据实例标签的数量,将不均衡数据分为单标签不均衡数据和多标签不均衡数据。本节将介绍传统的单标签不平衡数据和多标签不平衡数据的重采样方法,并详细描述其优缺点。
在传统的单标签不平衡数据处理方法中,相关研究可分为三个方面:算法级方法、代价敏感学习方法[6.-8.和数据级方法。在算法级方法中,对分类算法进行了改进,以适应不平衡数据集。改进算法通常通过移动决策边界来增强少数标签实例的存在性。洪等人[9.]通过改进核分类器优化了不平衡数据集的分布。Liu等[10.]应用加权GINI指数(WGI)选择特征的子集,这有利于准确确定少数阶级。成本敏感的学习通过惩罚错误分类来实现正确分类的目标。数据级方法主要关注重采样方法,包括underAppling [11.],过采样[12.和SMOTE方法(合成少数过采样技术)。通过删除数据集中多数类的实例或增加少数类的实例来平衡数据。Galar等[13.]比较了常用的非平衡学习算法,证明了数据预处理结合其他分类方法是一种有效的非平衡分类方法。康等人[14.通过在执行重采样过程之前结合噪声滤波器提出了一种噪声过滤的下采样方案(NUS)。
虽然多标号不平衡数据的处理也基于数据级方法和算法级方法,但传统的不平衡数据处理方法并不完全适用于多标号不平衡数据集。在以往的方法中,算法级方法主要侧重于调整现有的分类方法以适应不平衡数据[15.那16.].传统的多标签[17.分类是将多标签问题转化为两类问题[18.那19.或多重问题[20.那21.],如标签Powerset(LP)[22.]和二进制相关性(BR)[4.].Zhang等[23.]改进了传统的分类算法并提出了Cocoa算法,它将原始MultiLabel数据集转换为一个二进制数据集和每个标签的多个多字符数据集,并将每个数据集重新列到构建不平衡分类器的目的。
数据级方法更改实例的分布以实现数据集的余额。该方法主要关注重采样,包括过采样,以生成少数群体类和欠采样方法的新实例,以删除多数标签的一些实例。在Multilabel不平衡数据处理方法中,基于数据级别的方法应更加关注,因为该方法具有以下优点:(1)它与分类过程无关,并且可以在不打扰分类算法的情况下应用。(2)任务的分离允许不同的算法施加它们的优势。因此,一些研究人员对这方面进行了相关的研究。2015年,Dendamrongvit和Kubat提出了数据级LP-RUS(基于LP的随机欠载)和LP-ROS(基于LP的随机过度采样)[24.算法及其改进算法ML-RUS (Multilabel Random Undersampling)和ML-ROS (Multilabel Random过采样)[25.].
LP-RUS和LP-ROS方法都通过考虑数据集的标签集来决定如何重新采样。LP-RUS删除出现频率最高的标签集实例,LP-ROS克隆出现频率最低的标签集实例。在重采样过程中,LP-RUS和LP-ROS可能会导致一些标签出现新的不平衡。为了平衡数据集,ML-ROS算法随机复制少数标签相关的实例,增加数据集中少数标签出现的频率,ML-RUS算法随机删除多数标签的实例数量,减少实例集中多数标签出现的频率。
ML-ROS和ML-RU重新采样数据集,从而提高了分类性能。但是,存在一些缺点:(1)仅使用超采样或欠采样,因此少数标签信息的冗余和多数标签信息的损失;(2)这些方法破坏了数据集的原始分布,对分类产生不利影响[26.];(3)不能平衡多数标签和少数标签高度并发的实例。
为了减轻少数标签和多数标签高度并发的问题,Charte等。[27.]提出了补救措施 - HWR-ROS(对随机过度采样的补救杂交)和补救措施-HUR -US(用启发式欠采样纠正杂交)。补救算法独立于重采样算法,可以与各种重采样算法组合以解除多数和少数标签,降低标签之间的并发程度[28.].remedial - hrr - ros将高度并发的标签解耦,然后寻找与少数标签链接的实例,并从它们生成克隆。remedial - hcr - hus对高并发标签解耦,并采用欠采样处理。但这些算法存在以下几个问题:(1)算法并没有从根本上改变原有的缺点,仍可能造成严重的过拟合或信息丢失;(2)算法将数据集分为两部分。即使在解耦过程中解决了高并发问题,但解耦还会继续,分类过程中可能会出现过拟合。
3.我们的方法
在本节中,我们提出了一种多标签解耦双向重采样算法(ML-DBR)。
3.1.相关定义
在研究多标签数据的不平衡问题中,为了测量数据不平衡程度,有两个测量指示指示器可以区分不同标签在多标签不平衡数据中:每标签(IR)的不平衡比和平均不平衡比(平均值)。
让Multilabel DataSet<一世>D.一世>= {(X一世一世>那<一世>L.一世>一世一世>)|0≤. <一世>一世一世>≤<一世>N一世>那<一世>L.一世>一世一世> ∈ Y}, where X一世一世>代表<一世>一世一世>-数据集的第一个实例,<一世>L.一世>一世一世>是X的标签集吗一世一世>,y是数据集的标签集。
3.2。MeanIR
MeanIR表示数据集不平衡的平均水平,如方程(2).MeanIR为所有标签IR的平均值:
根据大学和IR,我们可以定义多数和少数民族标签。如果标签的IR值高于平均值,则它是少数标签;否则,它是多数标签。对于标签<一世>y一世>,如果红外(<一世>y一世>)>意思,它属于Minbag;否则,它属于Majbag。
3.3.渐淡(29.]
此外,我们使用SCUMBLE度量来评估majority标签和minority标签之间的并发程度,它们的值在(0,1)范围内。该值越高,数据集中包含少数标签和多数标签的实例就越多:
在等式(3.),<一世>N一世>是数据集中的实例数,以及等式(4.),<一世>K.一世>X的标签数是多少一世一世>和红外一世一世>IR是多少<一世>L.一世>一世一世>.
3.4。闵薄
相关研究[27.]表明少数群体标签实例的重采样对实例中包含的其他少数标签的影响最大。重新采样某个标签时,此标签的重新采样还将其他少数群体标签中包含在实例中,这将干扰其他少数标签的重新采样。基于摇滚度量标准,我们提出了一个Min-Scumble度量标准,在重新采样时,在实例中对少数群体标签进行特别措施: 在哪里<一世>K.一世>是少数民族标签的数量。
3.5.MeanSamples
此外,ML-DBR中使用了视图。手段代表所有标签到达平衡状态的所有标签所需的实例数。通过将具有最高出现频率的标签实例除以平均值来计算它:
3.6。算法
算法中给出了ML-DBR的伪代码1.算法分为解耦和重采样两个阶段。在第一阶段,解耦策略对高并发标签进行解耦,防止低并发标签实例的解耦(算法中的步骤4-10)1).第二阶段结合过采样和欠采样,选择对少数标签影响较小的实例进行重采样(算法步骤11-24)1).
|
对每个标签计算IR和MeanIR,确定标签属于哪个类别。重采样率代表数据集的增加或减少的比例。在ML-ROS和ML-RU中,它导致数据集膨胀或缩小比例 .在ml-dbr中,不是数据集增加或减少的比例,而是计算需要调整的实例数。接下来,我们介绍ML-DBR中使用的策略。
3.6.1。去耦策略
ml-dbr计算数据集中每个实例的剥离值,设置初始括号(<一世>D.一世>)DataSet款式(<一世>D.一世>)1,并根据衬垫讨论要求的实例解耦(<一世>D.一世>)1,以减少具有高度并发标签的实例。如果剥离(<一世>一世一世>) >渐淡(<一世>D.一世>)1,克隆实例<一世>D.一世>一世一世>作为 那L.一世>一世一世>是标签集<一世>D.一世>一世一世>那是标签集 那 = <一世>L.一世>一世一世>[IR(<一世>y一世>)≥MeanIR]那<一世>L.一世>一世一世> =<一世>L.一世>一世一世>[IR(<一世>y一世>)≤meanir].然后,当数据集中的每1%的实例进行分离时,缝隙(<一世>D.一世>)重新计算未耦合的数据集。嘲笑时(<一世>D.一世>)j一世>-1- 丑闻(<一世>D.一世>)j一世> ≥ <一世>T.一世>,认为数据集的高并发性已经解决,在其中<一世>j一世>意味着去耦<一世>j一世>%实例,和<一世>j一世>−1表示解耦到(<一世>j一世> − 1) % instances. If SCUMBLE(<一世>D.一世>)j一世>-1−渐淡(<一世>D.一世>)j一世> <<一世>T.一世>,继续解耦剥离>剥落的情况(<一世>D.一世>)1.
通过解耦,可以将具有高并发标签的实例从少数标签和多数标签中分离出来,按照步骤4找到高并发标签。从步骤4到步骤6,实例被解耦为两个实例。尽管解耦实例的特征相同,但标签集是不同的。
操作。重采样策略
首先,这个策略随机选择<一世>m一世>某个标签的实例<一世>y一世>.mean sample用于限制样本数量,可以平衡样本之间的分布,在重采样时不超过或低于达到平衡所需的样本数量。接下来,生成一个随机的<一世>X一世>随机挑选<一世>m一世>实例<一世>y一世>.Min-Scommuthtins指标用于重新采样随机选择的实例,并比较最小剥落<一世>m一世>实例选择对少数标签影响较小的实例进行重采样。如果<一世>y一世>属于minBags,<一世>X一世>=随机(0,MeanSamples−|<一世>y一世>|),并克隆较低的碎片。如果<一世>y一世>属于Majbags,<一世>X一世> = Random (0, |<一世>y一世>| − MeanSamples), and set the label<一世>y一世>较低的Min-Scrumble到0的实例。
在每次重采样结束时,重新计算MeanIR和IR, MeanSamples只记录初始值,在重采样过程中不重新计算,这样不会对数据集的原始分布造成太大影响。研究发现,当MeanIR≤1.5时,对数据集进行重采样对分类器性能的改善有限[25.,当MeanIR≤1.5时,ML-DBR停止。
4.结果与讨论
4.1。评估指标
一般多标签分类器的性能可以以各种方式测量,可以分为多种类型:基于示例的基于标签和基于排名的。为了更好地评估不同方法的性能,我们使用基于标签的评估方法。这种方法可以更好地反映大多数标签和少数民族标签的正确分类。基于标签的评价方法有两种类型:大分子水煮和微量。准确性,宏观 -<一世>F一世>和微量的<一世>F一世>被选为评估指标[30.]为了获得综合评价。对于标签,TP表示真正的阳性,TN代表否定,FP表示误报,FN表示假否定。
无论实例是正面还是负的,准确性是正确预测的实例的数量与预测实例总数的比率。准确性计算如下:
宏观<一世>F一世>和微<一世>F一世>继承了优势<一世>F一世>-测量并能更好的体现少数标签的分类效果。
宏观<一世>F一世>指所有类别的每个统计指标值的算术平均值。宏观的计算方法<一世>F一世>在等式中显示(10.),方程(8.) 和 (9.)是宏观精度(宏观 -<一世>P.一世>)和宏观召回(宏观 -<一世>R.一世>).在等式中(8.) 和 (9.),<一世>P.一世>和<一世>R.一世>代表精度并回忆:
微-<一世>F一世>是为了计算数据集中的每个实例的全局混淆矩阵,而不管该类别如何。微-<一世>F一世>按式(11.), 和 (12.) 和 (13.)是微精度(微观 -<一世>P.一世>)和微召回(微观 -<一世>R.一世>):
4.2。数据集
如表所示1的七个基准多标签数据集<一世>酵母一世>那<一世>安然一世>那<一世>TMC-2007.一世>那<一世>cal500一世>那<一世>Corel-16k.一世>那<一世>Corel-5k一世>和<一世>mediamill一世>被选为实验数据集[31.].Multilabels的分类性能不仅与标签数相关,而且与数据集的不同特征相关。为了测量数据集的不同特征,我们介绍了DENS,卡和TCS [32.]作为数据集的测量。DENS表示标签的密度,如等式所示(14.).值越高,标签越密集。卡片表示每个实例的平均标签数,如公式(15.).数量越高,每个实例的平均标签数越多。TCS用于评估数据集的复杂性,如等式所示(16.).更高的值表示数据集更复杂,并且对分类器更难预测正确的分类结果: 在哪里<一世>N一世>为实例数,<一世>F一世>为输入特征的个数,<一世>K.一世>是标签的数量,还有<一世>ls一世>是不同标签集的数量。
|
4.3。最佳价值<一世>T.一世>和<一世>m一世>
参数<一世>T.一世>和<一世>m一世>在我们的方法(ML-DBR算法)中,直接影响算法的性能,因此探索合适的值也很重要<一世>T.一世>和<一世>m一世>.<一世>T.一世>为解耦的阈值。什么时候<一世>T.一世>很高,有些情况没有解耦。如果<一世>T.一世>较低,当标签并发平衡时,实例继续解耦<一世>T.一世>应低于不同数据集的SCUMBLE值。在不同的数据集上,SCUMBLE的最低值是0.1,所以<一世>T.一世>≤0.1.<一世>m一世>是在每次重采样期间提取的实例数。什么时候<一世>m一世>是高的,就有可能增加某些实例的频率。什么时候<一世>m一世>可以选择对少数标签产生更大影响的情况。此外,<一世>m一世>需要少于少数民族标签的最小实例数。在ML-DBR中,<一世>T.一世>设置为0.1、0.01和0.001,<一世>m一世>设置为3,5和7进行比较。在传统的多标签分类中,将MultiBel转换为二进制分类问题,例如LP和BR是最常见的方法。在本文中,LP,BR和ML-KNN [33.选择进行分类,C4.5用作BR和LP中的底层分类器。算法中的所有参数被选为默认参数,重采样率在实验中设定为0.1,这是ML-ROS的最佳重采样率,并且ML-KNN的邻居数量设定为10.在该实验中使用10倍的交叉验证。<一世>酵母一世>那<一世>安然一世>那<一世>TMC-2007.一世>那<一世>cal500一世>,<一世>Corel16k一世>作为实验数据集。
的实验结果<一世>m一世>和<一世>T.一世>值如图所示1-5..什么时候<一世>m一世> = 3, it performs better on different datasets than<一世>m一世> = 5 and<一世>m一世> = 7. In the measurement of micro-<一世>F一世>,表现<一世>m一世> = 3 far exceeds that of the other two values. The main reason is that when<一世>m一世>是5和7,它增加了具有高分剥离的一部分情况的频率,并且过度装备比<一世>m一世> = 3 in the classification. Therefore,<一世>m一世> = 3 is an appropriate value in the ML-DBR. It is also found in the experiment that the performance at<一世>T.一世>= 0.01优于0.001和0.1。原因是阈值较低时<一世>T.一世>= 0.001,和SCUMBLEIns的所有实例> SCUMBLE(<一世>D.一世>)1几乎跟解耦,在数据集平衡之后无法终止解耦;什么时候<一世>T.一世> = 0.1, the threshold is higher, and the decoupling is terminated when the dataset is not balanced. These figures show that<一世>T.一世>= 0.01,<一世>m一世> = 3 obtained the best results for most of the datasets and the combination of ML-DBR and ML-kNN classification algorithms has the best effect, and it is better than LP and BR in different measurements, indicating that ML-kNN is more suitable for ML-DBR.
4.4。实验和分析
将所提出的ML-DBR算法与三种算法进行比较:Remedial-HWR-HUS,Remedial-HWR-ROS [28.],以及补救的组合[27.)和LP-ROS。在之前的实验中,特别是在非平衡数据集上,remed - hrr - hus和remed - hrr - ros算法取得了良好的效果。使用LP、BR和ML-kNN分类器对数据集进行分类,并使用十倍交叉验证。在ML-DBR,<一世>m一世>值设置为3,<一世>T.一世>被设定为0.01。重采样率在所有算法中为0.1,默认情况下所有其他参数。在每个数据集上进行10个实验,并将结果进行了平均值。
桌子2-4.展示了实验结果评定的准确性、宏观性<一世>F一世>和微f。最佳结果是以粗体字体突出显示的。如表所示2与其他算法相比,ML-DBR取得了最好的结果。在表中3.和4.,ML-DBR还具有宏观的最佳性能<一世>F一世>和微<一世>F一世>价值观。ML-DBR的性能远远领先于其他算法<一世>Corel16k一世>那<一世>安然一世>那<一世>Corel-5k一世>,<一世>mediamill一世>数据集表示我们所提出的ML-DBR算法在焊缝和TCS更高时获得最佳结果。此外,ML-DBR还在具有较低缝隙和TCS的数据集上具有某些优点。ML-DBR实现了最佳结果<一世>TMC-2007.一世>数据集。在这一点<一世>酵母一世>数据集中,与remedial - hrr - ros相比,ML-DBR在某些指标上没有获得最佳结果。这是因为<一世>酵母一世>DataSet具有较低的滚动滚动和VILIR值,并且在预处理时两种算法之间没有明显的差异<一世>酵母一世>数据集。在这一点<一世>卡尔- 500一世>数据集上,ML-DBR的精度没有明显提高,但宏- dbr的精度没有显著提高<一世>F一世>和微<一世>F一世>ML-DBR的值优于其他算法,这表明少数群体标签的分类精度已经提高<一世>卡尔- 500一世>数据集。一般情况下,ML-DBR和ML-kNN分类器的组合性能最好。
|
|
|
桌子5.显示了使用ML-DBR后每个数据集的新的SCUMBLE和MeanIR值。SCUMLE和MeanIR值较表有所降低1,验证了所提出的ML-DBR算法所采用的解耦策略和重采样策略的有效性。
|
综上所述,与其他重采样算法相比,我们的实验证明ML-DBR是几种多标签重采样算法中性能最好的。它能有效地在数据级均衡多标签不均衡数据。ML-DBR能有效处理多标签不均衡数据,少数标签和多数标签的并发性高,对提高少数标签的分类性能有显著效果。
5。结论
多标签数据存在多数标签和少数标签不平衡和高并发的问题。本文提出了数据级的ML-DBR算法。通过对多标号和少标号的高并发数据解耦,测量重采样过程中标号的影响,减少了标号的不平衡性,保证了实例的独立性。因此,ML-DBR具有以下优点:(1)解耦策略更加有效合理;(2)将欠采样和过采样过程相结合,减少了过采样造成的少数标签信息冗余和欠采样造成的多数标签信息丢失,使实例分布更加均衡,减少了采样过程中对少数标签的影响;(3)数据集的原始分布状态不会发生太大变化,保持了数据集的原始分布。实验表明,ML-DBR可以有效地提高分类器的分类性能。ML-DBR算法在TCS值高、标签数量多、scumble值高的标签并发性高的数据集上取得了显著的效果。如何找到更合适的<一世>m一世>和<一世>T.一世>不同数据集的价值观是我们未来工作的重点。
数据可用性
用于支持本研究结果的数据集已存入Mulan存储库(http://mulan.sourceforge.net/datasets-mlc.html).
利益冲突
作者声明本文的发表不存在利益冲突。
致谢
该研究得到了中国国家自然科学基金的支持,否定。61373057,浙江省自然科学基金会授予否。LY20F020009,丽水市科技规划项目授予拒绝。2019RC05。
参考文献
- G. Menardi和N. Torelli,《用不平衡的数据训练和评估分类规则》,<一世>数据挖掘和知识发现一世>,卷。28,不。1,pp。92-122,2014。查看在:出版商网站|谷歌学术
- 朱海峰,刘刚,周明,“基于加权极值学习机的信用卡欺诈检测方法及其应用”,<一世>Neurocomputing一世>,卷。407,pp。50-62,2020。查看在:出版商网站|谷歌学术
- H. Elghazel,A.Aussem,O. Gharroudi和W. Saadaoui,“基于旋转森林和潜在语义索引的集合多标签文本分类”,<一世>具有应用的专家系统一世>,卷。57,pp。1-11,2016。查看在:出版商网站|谷歌学术
- M. R. Boutell,J. Luo,X. Shen和C. M. Brown,“学习多标签场景分类”,<一世>模式识别一世>,第37卷,第2期9,页1757 - 1771,2004。查看在:出版商网站|谷歌学术
- 丹尼尔斯(Z. A. Daniels)和梅塔克斯(D. N. Metaxas),“利用结构海灵格森林解决多标签分类中的不平衡”,刊于<一世>第三十一届AAAI人工智能会议论文集一世>,pp.1826-1832,美国旧金山,加利福尼亚州,2017年2月。查看在:谷歌学术
- C. L. Castro和A.P. Braga,“新颖的成本敏感方法来改善不平衡数据的多层的感知性能,”<一世>神经网络与学习系统一世>,第24卷,第2期6,第88 - 899页,2013。查看在:出版商网站|谷歌学术
- S.-J。黄,J.-L。陈晓明,穆晓明,张志华。周,“向不同的标签商进行高性价比的主动学习”<一世>第二十六届国际人工智能联席会议的诉讼程序一世>,pp.1879-1885,墨尔本,澳大利亚,2017年8月。查看在:出版商网站|谷歌学术
- P. Cao, D. Zhao, and O. Zaiane,“一种用于不平衡数据学习的优化成本敏感的支持向量机”,刊于<一世>太平洋知识发现和数据挖掘会议的诉讼程序一世>,pp.280-292,新加坡,2013年5月。查看在:出版商网站|谷歌学术
- X. Hong,S. Chen和C. J. Harris,“基于内核的两性分类器,用于非衡度数据集,”<一世>神经网络上的IEEE交易一世>第18卷第2期1,页28-41,2007。查看在:出版商网站|谷歌学术
- Liu H., M. Zhou, and Q. Liu,“一种用于非平衡数据分类的嵌入式特征选择方法”,<一世>IEEE / CAA自动的SINICA一世>,第6卷,第2期3,pp。703-715,2019。查看在:出版商网站|谷歌学术
- a . Akkasi, E. Varoğlu,和N. Dimililer,“平衡的欠采样:一种基于句子的欠采样方法,以提高化学和生物医学文本中命名实体的识别,”<一世>应用智力一世>,卷。48,不。8,pp。1965-1978,2018。查看在:出版商网站|谷歌学术
- Lin W., Xu D.,“非平衡多标记学习识别抗菌肽及其功能类型”,<一世>生物信息学一世>,卷。32,不。24,pp。3745-3752,2016。查看在:出版商网站|谷歌学术
- M. Galar,A.Fernandez,E. Barrenechea,H. Bustince和F. Herrera,“关于类别不平衡问题的合奏综述:Bagging-,促进和基于混合的方法,”<一世>IEEE在C组,MAN和Cyber Netics上的IEEE交易(申请和评论)一世>,卷。42,不。4,pp。463-484,2011。查看在:出版商网站|谷歌学术
- Q.康,X.陈,李和M. Zhou,“Zhou”的噪声过滤的底层抽样计划,用于不平衡分类,“<一世>Cyebericics上的IEEE交易一世>,第47卷,第47期。12, pp. 4263-4274, 2017。查看在:出版商网站|谷歌学术
- H. Ryang和U. Yun, " Top-<一世>K.一世>具有有效阈值提升策略的高效用模式挖掘<一世>以知识为基础的系统一世>,卷。76,pp。109-126,2015。查看在:出版商网站|谷歌学术
- S. Zida,P. fournier-primer,J.C. -W。林,C. -w。吴和五,曾,“efim:一种快速和记忆高效的高实用项目集矿业算法,”<一世>知识和信息系统一世>第51卷第1期2, pp. 595-625, 2017。查看在:出版商网站|谷歌学术
- C. W. Wu,B.-e.Shie,V.S. Tseng和P. S. Yu,“挖掘顶部 -<一世>K.一世>高实用项目集,“<一世>第十八届ACM SIGKDD知识发现与数据挖掘国际会议论文集一世>,页78-86,纽约,纽约,美国,2012年8月。查看在:出版商网站|谷歌学术
- K. Chen,B.-L.Lu和J.T.Kwok,“使用MIN-MAX模块分类器”高效分类多标签和不平衡数据“,”<一世>2006年IEEE国际神经网络诉讼联席会议的诉讼程序一世>,第1770-1775页,加拿大温哥华,2006年7月。查看在:出版商网站|谷歌学术
- S. WAN,Y. Duan和Q. Zou,“HPSLPRED:用于人类蛋白质亚细胞位置预测的合奏多标签分类器,具有不平衡的来源,”<一世>蛋白质组学一世>,第十七卷,第二期17-18,文章ID 1700262, 2017。查看在:出版商网站|谷歌学术
- M.A.Tahir,J.Cakler和F. Yan,“在抽样中的反随机”,为类别不平衡问题及其应用于多标签分类,“<一世>模式识别一世>,卷。45,不。10,pp。3738-3750,2012。查看在:出版商网站|谷歌学术
- S. Dendamrongvit和M. Kubat,“不平衡训练集和多标签文本分类领域的归纳的欠采样方法”,发表于《中文摘要》<一世>太平洋知识发现和数据挖掘会议的诉讼程序一世>,pp.40-52,博加国,泰国,2009年。查看在:出版商网站|谷歌学术
- S. Godbole和S. Sarawagi,“多标记分类的鉴别方法”,刊于<一世>太平洋知识发现和数据挖掘会议的诉讼程序一世>,页22-30,澳大利亚悉尼,2004年5月。查看在:出版商网站|谷歌学术
- >。张,y.-k。李,x.-y.刘,“走向类别 - 不平衡的多标签学习,”<一世>第二十四届国际人工智能联席会议的诉讼程序一世>,第4041-4047页,魁北克市,加拿大,2015。查看在:谷歌学术
- F. Charte,A. Rivera,M. J. del Jesus和F. Herrera,“在多标签数据集中处理不平衡的第一种方法”<一世>国际混合人工智能系统会议论文集一世>,第150-160页,萨拉曼卡,西班牙,2013年9月。查看在:出版商网站|谷歌学术
- F. Charte,A. J. Rivera,M. J. del Jesus和F. Herrera,“解决了Multilabel分类的不平衡:措施和随机重采样算法”<一世>Neurocomputing一世>,第163卷,第3-16页,2015。查看在:出版商网站|谷歌学术
- N. Japkowicz和S. Stephen,《阶级失衡问题:系统研究》<一世>智能数据分析一世>,第6卷,第2期5,页429-449,2002。查看在:出版商网站|谷歌学术
- F. Charte,A. J.Verrai,M. J. del Jesus和F. Herrera,“在不平衡的Mutilabel数据集中处理困难的少数群体标签,”<一世>Neurocomputing一世>,第326-327卷,第39-53页,2019年1月。查看在:出版商网站|谷歌学术
- F. Charte, A. J. Rivera, M. J. del Jesus,和F. Herrera,“补救- hwr:通过标签解耦和数据重采样杂交解决多标签不平衡”,<一世>Neurocomputing一世>,卷。326-327,第110-122,2019。查看在:出版商网站|谷歌学术
- F. Charte,A. Rivera,M. J. del Jesus和F. Herrera,“在Mutbalanced标签中同时发生及其对Multilabel重新采样算法的影响”<一世>国际混合人工智能系统会议论文集一世>,pp.110-121,西班牙萨拉曼卡,2014年6月。查看在:出版商网站|谷歌学术
- G. Madjarov,D. Kocev,D.Gjorgjevikj,以及S.džeroski,“多标牌学习方法的广泛实验比较”<一世>模式识别一世>,卷。45,不。9,pp。3084-3104,2012。查看在:出版商网站|谷歌学术
- G. Tsoumakas, E. Spyromitros-Xioufis, J. Vilcek, and I. Vlahavas, " Mulan:一个用于多标签学习的java库,"<一世>机床学习研究一世>,卷。12,pp。2411-2414,2011。查看在:谷歌学术
- F. Charte,A. Rivera,M. J. del Jesus和F. Herrera,“关于数据集复杂性和采样策略在多拉拉带分类器表现中的影响,”<一世>国际混合人工智能系统会议论文集一世>,第500-511页,西班牙塞维利亚,2016年4月。查看在:谷歌学术
- >。张和Z.-H。周,“multi-label learning的懒惰学习方法”,<一世>模式识别一世>,卷。40,不。7,pp。2038-2048,2007。查看在:出版商网站|谷歌学术
版权
版权所有©2020 Shuyue Zhou等人。这是分布下的开放式访问文章知识共享署名许可协议如果正确引用了原始工作,则允许在任何媒体中的不受限制使用,分发和再现。