基于多目标粒子群优化的特征选择支持向量机

摘要

支持向量机是一个分类器，基于结构性风险最小化原则。SVM的性能取决于不同的参数，如惩罚系数，，和内核因子，．还选择合适的内核功能可以提高识别得分并降低计算量。此外，在数据集中的若干特征中选择有用的功能不仅会增加SVM的性能，而且还降低了计算时间和复杂性。因此，这是一种优化问题，可以通过启发式算法来解决。在某些情况下，除了识别得分之外，分类器输出的可靠性很重要。因此，在这种情况下，需要多目标优化算法。在本文中，我们已经有了MOPSO算法来优化SVM的参数，选择合适的内核功能，并同时选择最佳特征子集，以便同时优化SVM的识别得分和可靠性。来自UCI机器学习存储库的九个不同的数据集用于评估所提出的方法（MOPSO-SVM）的功率和有效性。将所提出的方法的结果与单个SVM，RBF和MLP神经网络实现的结果进行比较。

1.介绍

模式识别系统由不同的部分组成。这种系统的最重要部分之一是分类，该分类由过程结束时由不同的分类器完成。显然，具有高精度的强大分类器在模式识别系统中至关重要，因为系统的输出精度受到分类器的准确性的高度影响。因此，可以在不同应用中使用的精确模式识别系统强烈需要高性能分类器。强大的分类技术之一是支持向量机，简要称为SVM [1］．支持向量机是一种利用训练数据构建分类模型的监督学习方法。支持向量机的概化误差最小，两类之间的几何边界最大。该分类器使用核函数将输入数据映射到高维特征空间，以寻找最优超平面来分离两类数据。支持向量机的性能取决于核参数的数量，，以及惩罚因子的数量，．选择合适的核函数也很重要。此外，从训练数据集中的几个特征中选择有用的特征来训练支持向量机，对于提高支持向量机的性能有着重要的作用。因此，在训练SVM之前，用户应该选择一个合适的核函数，以及核参数和惩罚因子的最优量。除此之外，如前所述，特征选择对于提高性能和降低复杂度也很重要。针对这一问题，提出了基于启发式算法的不同解决方法。例如，Huang和Wang利用遗传算法优化SVM的参数，同时进行特征选择，以提高分类精度[2］．他们在所有实验中使用了RBF内核。Samanta等人。提出了一种用于旋转机器中的轴承故障检测的GA-SVM方法[3.］．它们具有遗传算法，优化SVM的参数，还执行特征选择，以提高识别振动信号的SVM能力。Wu等人。提出了一种基于GA和SVM的方法，用于预测破产[4.］．他们只使用遗传算法优化分类器的参数，而没有进行特征选择。与遗传算法一样，其他优化算法如PSO和SA也被用于提高支持向量机在生物医学等不同实践领域的性能[5.-7.]和人脸识别[8.］．在提到的研究中不考虑的另一个重要点是分类器的可靠性，这意味着对分类器的输出的验证。这是一个非常关键的观点，即在为军事和医学等不同应用选择的分类器时应该考虑。在所有提到的研究中，研究人员只使用了一个健身功能来评估它们的方法。但是，除了识别分数之外，计算分类器输出的可靠性是评估分类器性能的好方法。可靠性意味着对未知样本的分类器输出的验证。在一些问题中，虽然类的识别得分高，但是该类的相应可靠性可能是低的，反之亦然。数字1显示了这个概念。根据图1空心圆的识别评分为100%，但对应的信度为(5/6)83%。黑眼圈的数字分别是80%和100%。

在本研究中，利用粒子群算法的多目标形式来寻找识别评分和可靠性两个目标函数的最优超平面。本文的其余部分组织如下。节2，简要介绍了SVM。节3.综述了粒子群算法(PSO)和粒子群算法(MOPSO)。节4.本文综述了两种形式的人工神经网络作为分类的有力方法。节5.，介绍了所提出的方法。部分6.给出了实验结果，最后部分给出了结论。

2.支持向量机

SVM是一个两类分类器，描述如下[9.］．让那，表示一组包含的数据训练样本。每个样本必须符合标准．演示相应样本的类，．所以和表示输入数据的维度数。分离的超平面可以衍生成如果存在这样的超平面，则得到线性分离。离分离超平面最近的样本称为支持向量。在边界(支持向量)中，(1）被改革为根据（2)，每个样本(3.）是真的：所以问题在发现和．有许多超平面可以分开两类数据，但SVM产生最佳超平面，如图所示2．这个超平面有支持向量的最大距离。分离超平面的边缘为．所以如果我们想找到最优超平面，我们应该最小化．为简单起见，我们可以替代和．我们在处理一个优化问题。这意味着我们必须最小化接受(3.)．

在图中2样本是线性可分的，但在大多数情况下，它们不能像图中所示的那样容易分离2．对于非线性问题，积极松弛变量介绍。所以问题改变了在（4.）叫做惩罚因子。它用于控制边际最大化和误差最小化之间的权衡。这个问题可以用拉格朗日乘数来解决。从而得到分类决策函数在哪里lagrange乘法器。是核函数通过另一个映射函数，．QP求解器用于求解．在那之后和可以通过在（7.）是支持向量的数量和为输入未知样本。

一些常见的内核功能是线性:那多项式:那RBF：那二次:那在所有这些函数中应该用最佳调整．

3.粒子群优化方法

3.1。单目标PSO

吉伦迪和Eberhart于1995年首次建议粒子群优化算法[10］．该算法是受鸟类群体和鱼类群体的启发而产生的。事实上，他们利用鸟群机制来解决优化问题。它是指一组粒子在解空间中搜索最优解。每个粒子都有一个位置、速度和记忆，从过程一开始就保存了它的最佳位置。在每次迭代中，以位置最优的粒子为先导，其他粒子趋于到达其位置。所以他们的移动受到两个因素的影响:他们从第一次迭代到当前迭代的最佳位置和领导者的位置。方程(8.）和（9.）描述粒子如何通过迭代移动：在上述方程中，是速度的第Th维数粒子，表示粒子的位置，是迭代的数量，和为学习因子，rand为正态分布下介于0到1之间的正随机数，为惯性权重系数，粒子从开始到当前迭代的最佳位置，和显示每个迭代中leader的位置。

3.2。多目标PSO

在多目标优化问题中显然，有多于一个目标函数，优化，因此可以定义多目标优化问题如下[11]：在哪里是一个解决方案，那，是客观的函数，和那是问题的约束条件。与单目标情况相反，这里我们不能找到一个对所有目标函数都是最好的单一解。相反，我们正在寻找一套解决方案。实际上，在不同的目标函数之间存在权衡。在这种情况下，最优性的定义是不同的。我们称之为一个最优解，如果另一个解，无法找到哪个在所有目标函数中具有更好的适应度。这样的解是Pareto最优前沿的一个成员[12］．我们说以占领子为主,如果比这更好在所有目标职能中。但如果只在一个目标函数中更好吗，它是不合适的。因此，在多目标形式中，我们有一组含有Nondominated粒子的解决方案。这意味着该集合的成员无法互相主导。数字3.显示Pareto最佳前端为两个目标函数问题。根据这张照片，Pareto前面的解决方案主导了其他解决方案，但不能互相统治。在MOPSO中，每个颗粒具有一组领导者，并且必须通过机制选择其中一个。通常此集被称为外部归档[13那14］．外部存档包含来自第一次迭代的非支配粒子。

实际上，外部存档保留了算法的输出。到目前为止，介绍了不同版本的MOPSO。在这项研究中，我们使用了[15因为它的速度和快速收敛。在这种为每个粒子选择leader的形式下，解空间被划分为多个超立方体，这些超立方体中存在来自外部存档的不同解。

根据目标函数计算的坐标，将它们置于超立方体中。每个超立方体都是通过将其解的个数除以一个常数来计算的。在评估每个超立方体后，轮盘赌轮盘机制将选择其中一个超立方体。最后在选定的超立方体中随机选择一个解作为粒子的先导。MOPSO过程描述如下:（1）初始化每个粒子的位置和速度。（2）评估颗粒。（3）在存储库中保存Nondominated粒子。（4）生产超机以覆盖溶液空间。(5）初始化每个粒子的内存（6)主循环(一)计算每种粒子的速度（8.)(但在这种形式应该由．(b)透过(9.)．（C）评估颗粒。（d）更新存储库。（e）更新为每个粒子。（7）主循环的结束。

4.人工神经网络

人工神经网络于1974年引入[16］．该网络的目的是通过使用类似的结构模拟大脑的活动，从接收到的信息中提取逻辑结果。事实上，人工神经网络是这样组织的:输入和输出之间的关系(可以是复杂的或非线性的)保存在一个网络结构中，因此能够将相关的输出分配给每个输入。在确定这些网络的结构分量后，根据网络输出与期望输出的大量比较，对该结构的分量进行修改，使这两个值的差值在连续比较中趋近于零。在这个意义上，神经网络可以被看作是一个盲模型，它能够执行从输入(向量)空间到输出(向量)空间的映射(不一定是线性的)。本文使用了目前应用最广泛的两种人工神经网络:多层感知器神经网络(MLP)和径向基函数神经网络(RBF)，并与最优支持向量机进行了比较。

4.1。多层默认的神经网络（MLP）

最简单的Perceptron神经网络由三个（输入，隐藏和输出）层组成，如图所示4.．采用试错法确定各层神经元的数目。该神经网络的初始权值是随机确定的。误差反向传播算法用于训练神经网络的权值网络监督的方式改变基于神经网络输出和期望输出值之间的差异,因此,对于每一个输入,输出可以由神经网络生成。首先通过归一化因子对输入输出模式进行归一化，以均衡训练过程在改变训练过程中网络权值的影响。为输入模式时，所有神经元的平方误差计算公式如下: 在哪里和中的期望输出值和计算输出值分别为图案的神经元．所有模式的总平方误差也可以用以下公式计算: 在下面的方程中代表了当前的体重,代表以前的体重，表示学习系数，和代表瞬间系数：

在这种方法中，重量将重复更新所有学习模式。当所有模式的总误差值达到低于所确定的关键点或全部学习期即将到达最终点时，训练过程停止。值得注意的是，这里提到的培训方法是一种错误的反向衰退方法，其瞬时术语是，与误差背交方法相比，该误差术语具有在局部最小值时协调的可能性。

4.2。径向基函数（RBF）神经网络

RBF是一种流行的有监督神经网络学习算法。它是一种特定的MLP网络[17］．RBF网络仅由以下三层构成，如图所示5.：输入层．它在没有失真的情况下广播输入。RBF层．隐藏层包含RBF。输出层．简单层包含一个线性函数。

基本函数通常采取表格．该功能取决于输入向量之间的距离（通常在欧几里德）和一个矢量．使用的最常见形式的基本功能是高斯函数在哪里确定基函数的中心和是控制曲线如何传播的宽度参数。通常，通过使用一些模糊或非核聚类算法选择这些中心。在这项工作中，我们使用过-means算法在第一阶段选择初始簇中心，然后利用点对称距离度量进一步对这些中心进行微调。输出层的神经元数等于分类问题的类数。每个输出层神经元计算隐层神经元输出的线性加权和，如下所示: 通过最小化分类器输出之间的平均平均差异来确定权重向量：和目标值如下面所述：的参数由（更多的解释，见[17]）或因此经过计算，得到

5.提出的方法

在本文中，我们使用了MOPSO来优化罚款因素，请选择充足的内核功能，调整所选的内核的参数，以及两个客观功能，识别得分和可靠性的特征选择，以及其性能与RBF和MLP神经网络进行比较。颗粒的构建在图中表示6.．

第一个变量，，用于调整惩罚因素。用于选择核函数。这个变量的数量可以是1、2、3或4，以从本节介绍的四个内核中选择一个内核2．用于选择所选内核的参数(线性除外)。粒子的其余部分用于特征选择。对于具有的特性,在0和1之间。如果小于或等于0.5，则不选择相应的特征。反之，如果它们大于0.5，则选择相应的特征。

如果我们把这两类分为“阳性”和“阴性”，那么预测的测试样本可以分为四组:（1）“阳性”的样本，并被正确预测为“阳性”(TP)。（2）“阳性”但被归类为“阴性”(FN)的样本。（3）被正确分类为“阴性”的样本(TN)。（4）样品为“负”，但预测为“正”（FP）。

根据该分类，计算识别分数以及每个类等于的可靠性终止标准是迭代号达到200.为了计算每个粒子的健身功能，应该通过所确定的参数，内核功能和所选功能训练SVM，然后可以通过（23.）到（24.)．对于多类分类，我们使用了一对一的方法。在这种方法中，我们为数据集的每个类找到最优超平面，将相应的类从其他类中分离出来。因此，根据所得到的超平面对该样本的看法，对输入样本进行标记。数字7.显示3类数据集的此方法。

6.实验结果

提出的方法应用于UCI机器学习存储库的九个不同数据集[18］．在表格中1显示了这些数据集的特征。桌子2显示这些数据集，表格的实验结果3.包含不同方法和表的学习时间4.显示在分类不同数据集中的提出方法的结果，无需特征选择。


数据集	类的数量	样本数量	数的功能

玻璃	6.	214	9.
鸢尾花	3.	150.	4.
葡萄酒	3.	175.	13
德国	2	1000	20.
电离层	2	351	33.
声纳	2	208	60.
肝炎	2	80	19
保柏	2	345	6.
元音	11	990	13
心	2	270.	13


	玻璃	鸢尾花	葡萄酒	德国	电离层	声纳	肝炎	保柏	元音	心

MOPSO-SVM
Recognition score	81.31	94.67	97.75	84.20	92.31	90.87	96.25	82.32	97.78	87.41
Reliability	92.94	97.93	One hundred.	89.89	93.99.	90.85	92.095.	82.06	99.89	87.3.
SVM
Recognition score	61.21	82.33	90.45	78.35	92.59	83.41	92.5	73.04	97.17	83.88
Reliability	94.64	98.45	99.65	79.57	92.98	87.	89.87	72.77	99.89	85.49
MLP.
Recognition score	82.78	98.54	98.42	89.86	96.44	93.76	92.76	87.94	77.6	92.8
Reliability	73.088	98.68	98.438	88.35	96.35	93.97	86.51	87.59	78.30	92.82
RBF.
Recognition score	81.76	96.92	81.58	91.5	90.02	94.72	94.78	88.12	99.12	83.7
Reliability	75.822	96.96	88.87	94.94	93.11	94.86	97.07	91.49	99.3.	86.59


	玻璃	鸢尾花	葡萄酒	德国	电离层	声纳	肝炎	保柏	元音	心

MOPSO-SVM	0.64	0.204	0.224	0.635	0.184	0.084	0.0436	0.191	11.85	0.118
SVM	2.74	1.138	1.12	0.663	0.179	0.116	0.0423	0.148	8.60	0.135
MLP.	22.17	2.14	2.06	37.84	2.24	3.43	2.12	4.93	38.13	2.33
RBF.	5.27	3.55	4.08	21.17	11.28	5.98	3.005	3.78	18.9	6.21


	玻璃	鸢尾花	葡萄酒	德国	电离层	声纳	肝炎	保柏	元音	心

与特征选择
Recognition score	81.31	94.67	97.75	84.20	92.31	90.87	96.25	82.32	97.78	87.41
Reliability	92.94	97.93	One hundred.	89.89	93.99.	90.85	92.095.	82.06	99.89	87.3.
没有功能选择
Recognition score	71.50	95.33	97.19	84.30	92.02	87.98	95.	81.16	96.06	84.07
Reliability	84.5	96.68	98.41	90.84	94.12	88.81	90.815	80.64	99.68	83.89

根据表格2可以看出，MOPSO-SVM为玻璃，虹膜，葡萄酒，电离层，肝炎和元音数据集提供了比MLP和RBF神经网络的比较和更好的结果。表中显示的重要点2是不同数据集给出的可靠性率。如表所示2，所提出的方法为大多数数据集提供了高的可靠性率，这意味着促销分类器的输出是非常可靠的。

事实上，由于MOPSO获得的超平面在分类测试样本（未知样本）中具有一定量的误差，因此存在多个超平面的一些样本将它们分配给相应的类。此外，可能存在一些样本，其中没有超平面将它们分配给相应的类。这些样本被认为是误差样本，它们的类别无法区分。数字8.说明了这个概念。从Table可以明显看出另一点2在大部分实验中，MOPSO-SVM在原始SVM方面都优于原始的SVM。这意味着所提出的方法是一个专家分类器，它自动找到最佳SVM参数和用于对不同数据集进行分类的最佳功能子集。应当注意，在所有实验中，选择不同的内核功能，为单个SVM选择了单个SVM的数量，报告单个SVM编写的单个SVM2为不同核函数支持向量机的平均结果。

分析表中看到的数字2，我们可以得出结论，由于这种方法对于不同数据集的方法实现的可靠性和识别分数，MOPSO-SVM是一种强大而有效的分类器。这些数字表明，MOPSO-SVM是一种可靠的分类器，这意味着该促销的分类器可以在强烈需要高可靠分类器的军事和药物等特殊应用中完全起作用。桌子3.包含不同算法的学习时间。与单个SVM相比，MOPSO-SVM在大多数实验中需要较少的学习时间。这是特征选择的结果。实际上，从数据集中删除冗余功能导致学习时间的减少。还提出的方法具有比MLP和RBF神经网络的学习时间较少。在表格中4.显示了具有和不具有特征选择的提出方法的结果。根据此表，特征选择过程提高了大多数数据集的识别分数和可靠性。这意味着特征选择过程是一种有效的预处理技术，不仅能够降低分类器的学习时间，而且还可以提高其性能。这是一个重要的问题，尤其是分类或聚类高维数据。从报告的结果，很明显，使用启发式算法来增强SVM的两个目标函数的性能是一个成功的想法，因为找到了不同数据集的SVM的最佳参数，并且还原数据集的维度是一个硬任务。例如，对于具有60个特征的声纳样本，存在2个^60.特征子集，很难找到最优的特征子集。此外，为了提高支持向量机的性能，寻找最优的参数数量是一项困难的任务。事实上，寻找具有最优特征子集的最优支持向量机是一个NP-hard问题，可以用启发式算法来解决。根据报道的结果，MOPSO对解空间的搜索非常有效。

7.结论

在该研究中，已经使用了多目标PSO来调整SVM的参数，并且还针对两个目标功能执行特征选择，并将所提出的方法（MOPSO-SVM）的性能与单个SVM，RBF和MLP神经网络进行比较。根据据报道的结果，可以看出，所提出的方法可提供可靠性和识别分数，与RBF和MLP神经网络相当，这在分类重叠的数据集中，并且在某些情况下甚至提供了更好的可靠性和/或识别比RBF和MLP得分，例如，用于玻璃，虹膜，葡萄酒，电离层，肝炎和元音数据集。在大多数实验中，所提出的方法也具有较少的学习时间。此外，根据表格3.和4.，特征选择是一种重要的预处理方法，其在学习时间和分类器的准确性上具有积极效果。

实际上，上一节的结果表明，使用启发式算法将SVM从普通分类器转换为专家分类器是成功的。根据所得结果，利用多目标启发式算法优化支持向量机，在提高其准确性的同时提高其可靠性是一种成功的思路。报告的结果也显示了MOPSO搜索解空间的能力和有效性。也就是说，粒子群优化算法是一种强大的算法，可以非常有效地解决多目标优化问题。

利益争夺

提交人声明他们没有竞争利益。

参考

V. N. Vapnik，统计学习理论的性质，春天，纽约，纽约，美国，1995年。视图:出版商网站|Mathscinet.
C.-L.黄和C.-J.王某，“支持向量机的基于GA的特征选择和参数优化”，专家系统与应用第31卷第1期2，页231-240,2006。视图:出版商网站|谷歌学术
B. Samanta，K.R.Al-Balushi和S.A.Al-Araimi，“具有遗传算法的人工神经网络，支持轴承故障检测的遗传算法”，“人工智能的工程应用，卷。16，不。7-8，pp。657-665,2003。视图:出版商网站|谷歌学术
学术界。吴,G.-H。Tzeng Y.-J。咕,观测。“一种优化破产预测支持向量机参数的实值遗传算法”，专家系统与应用，第32卷，第2期2，页397-408,2007。视图:出版商网站|谷歌学术
F. Melgani和Y. Bazi，“基于支持向量机和粒子群优化的心电图信号分类”，IEEE生物医学信息技术汇刊，第12卷，第2期5，第667-677页，2008。视图:出版商网站|谷歌学术
J.S.Sartakhti，M.H.Zangooei和K.Mozafari，“使用基于支持向量机的新型混合方法和模拟退火（SVM-SA）”的肝炎疾病诊断“生物医学的计算机方法和程序，卷。108，没有。2，pp。570-579,2012。视图:出版商网站|谷歌学术
问：沉，W.-M。Shi，W. Kong和B.-X.YE，“改进的粒子群优化算法的组合和基因选择和肿瘤分类的支持向量机”talanta.，卷。71，没有。4，PP。1679-1683,2007。视图:出版商网站|谷歌学术
魏建军，“基于支持向量机和粒子群优化的人脸识别方法”，专家系统与应用，卷。38，不。4，pp。4390-4393，2011。视图:出版商网站|谷歌学术
C. J. C.博览会，“模式识别的支持向量机器的教程”数据挖掘和知识发现，第2卷，第2期2，页121-167,1998。视图:出版商网站|谷歌学术
J. Kennedy和R. C. Eberhart，“粒子群优化”，刊于IEEE国际神经网络会议论文集，卷。4，PP。1942-1948，IEEE服务中心，珀斯，澳大利亚，1995年。视图:谷歌学术
A.亚伯拉罕和L.Jain，“进化多目标优化”进化多目标优化:理论进展与应用，A.Beraham和R. Goldberg，EDS，先进的信息和知识处理，PP。1-6，Springer，伦敦，英国，2005年。视图:出版商网站|谷歌学术
V.帕累托，经济政治课程第一卷和第二卷，F. Rouge，洛桑，瑞士，1896年。
M. Reyes-Sierra和C. A. C. Coello，“多目标粒子群优化师：关于最先进的调查”国际计算智能研究杂志，第2卷，第2期3，pp。287-308,2006。视图:谷歌学术|Mathscinet.
m . Bhuvaneswari进化算法在超大规模集成电路和嵌入式系统多目标优化中的应用，施普林格，柏林，德国，2015。
C.A.C.Coello和M. S.Lechuga，“MOPSO：多目标粒子群优化的提案”进化计算会议的诉讼程序（CEC'02），第1051-1056页，檀香山，夏威夷，美国，2002年5月。视图:出版商网站|谷歌学术
微积分,神经网络：综合基础，Macmillan College，纽约，纽约，美国，1996年。
C. M. Bishop，模式识别的神经网络，牛津大学出版社，1995。视图:Mathscinet.
S. Hettich, C. Blake，和C. Merz，“UCI机器信息和计算机科学知识库”，1988，http://www.ics.uci.edu/~mlearn/MLRepository.htm．视图:谷歌学术

杂志上的优化

摘要