基于图形规范化的模态相关的跨模型检索

抽象的

如今，不同方式的异质性差距是交叉模态检索的关键问题。为了克服异质性差距，需要开采不同方式的潜在相关性。同时，类标签的语义信息用于减少不同模态数据之间的语义间隙，并实现异构数据的相互依存和互操作性。为了充分利用不同模式的潜在相关性，我们提出了一种基于图形正则化和模态依赖（GRMD）的跨模型检索框架。首先，考虑到潜在的特征相关性和语义相关性，针对不同的检索任务学习不同的投影矩阵，例如图像查询文本（I2T）或文本查询图像（T2I）。其次，利用原始特征空间的内部结构构造具有语义信息约束的相邻图，该图可以使不同的异构数据标记更靠近相应的语义信息。三种广泛使用的数据集的实验结果证明了我们方法的有效性。

1.介绍

随着多媒体信息的快速增长，代表的信息形式在大数据时代日益富裕。获取信息的方式也在发展，包括报纸，网站，微博和微信。移动网络的快速发展为人们提供了方便的资源平台。通过根据自己的需求，可以通过在移动设备上使用各种网站的搜索引擎来搜索大量信息。可以在移动网络中使用的模态数据的结构是各种各样的，使得难以准确地显示移动设备中所需的信息。大多数检索方法，如文字[1- - - - - -3.]，图像 [4- - - - - -7]和视频[8- - - - - -11]检索，专注于单片式检索[12- - - - - -15]，其中必须在相同的数据类型上执行查询示例和检索样本。如今，同样的事情可以以不同的方式表达，并且对多样化形式的信息表达存在越来越大的需求。例如，当游客观光时，他们通过拍照或录制视频来创造一个美妙的旅程。这些照片和视频呈现了相同的内容，尽管它们代表不同类型的媒体对象。类似地，有关歌手和专辑图像的信息用于搜索相应的歌曲，以便获得有关歌曲的更多信息。人们通过文本数据检索与其语义信息相关的图像数据或视频数据，但多媒体数据的不同维度和属性导致不同方式之间的明显特征异质性。因此，大规模数据相似性检索的实际应用需要更有效的解决方案。为了解决这个问题，需要有效地提取不同模态数据的特征，并且有效地使用检索方法以在大量信息中获得更准确的信息。

解决十二态检索的异构问题[16- - - - - -20.[子空间学习方法已提出。虽然不同的方式有不同的原始特征空间，但我们可以将这样的方式投入普通潜在空间[21］．其中，最传统的特征学习方法称为典型相关分析(canonical correlation analysis, CCA) [22]最大限度地提高了两对不同模态特征之间的相关性，得到了同一势空间中不同模态相关性高的低维表达式。CCA是一种实现特征空间关联的简单算法。在CCA的基础上，Hwang等人提出了kernel canonical correlation analysis (KCCA) [19，在高维特征空间中通过跨视图检索得到图像与文本的相关性。偏最小二乘法[23]方法通过视觉特征空间到文本特征空间来度量不同形态之间的相似性。上述方法通过线性投影得到的跨模态数据的潜在相关性有限，不能有效提高跨模态检索的性能。无监督跨媒体检索方法在子空间学习过程中只能获得不同形式的成对信息，而不能获得精确的高级语义信息。另一种方法叫做T-V CCA [20.]通过将语义类视图视为第三个视图来获得高级语义。语义信息的学习增强了不同模式之间的相关性。因此，将线性回归项应用于跨模态检索框架，保持了语义结构。因此，不同形态数据的回归误差最小。

深度学习方法具有很强的非线性学习能力。深度典型相关分析(DCCA) [24]将DNN和CCA组合在不同模式数据之间学习更复杂的非线性转换。彭等人。提出跨媒体多个深网络（CMDNS）[25，它使用层次结构分层地组合不同形式的独立表示。此外，Wei等人提出了深度语义匹配(deep- sm) [26]使用CNN功能进行深度语义匹配，以提高检索精度。上述方法利用神经网络来测量不同模态数据的相似性，但忽略单个模态内的相似性和模态之间的相似性。通过使用图形正规化，可以利用不同方式数据的复杂潜在相关性。图规范化的应用[27，28]的关键在于构建图模型，通过图模型的边缘保持投影数据之间的相似性。图的正则化不仅增强了语义的相关性，而且学习了模内和模间的相似性。我们所提到的跨模态检索模型是通过在公共空间中的联合分布来学习的。在子空间学习的基础上，进一步挖掘多模态数据之间的相关性，提高跨媒体检索的性能。

在本文中，我们提出了一个跨模式检索框架(图1)，基于图正则化和模态依赖(GRMD)。该方法测量不同模式的投影矩阵在语义子空间中的距离，得到不同模式的相似度。属于同一标记的不同模式的投影矩阵应尽可能相似。在特征映射过程中，两个不同的投影矩阵通过两个线性回归映射到各自的语义空间。相关分析可以将原始数据投影到一个潜在的子空间中，并对相同标签的多模态数据进行关联。

我们方法的主要优点可以总结如下:（一世）标签图的构造增强了异构数据特征空间和语义空间内部结构的一致性。针对不同的检索任务，构建了不同模态数据的图模型，既保持了投影后不同模态数据之间的相似性，又加深了多模态数据与相应语义信息之间的关联。(2)异构数据被投射到不同检索任务中不同模式的语义空间。在不同的跨模型任务学习中，通过组合语义相关性和特征聚类来获得不同的变换矩阵。利用语义信息，从基础特征实现不同方式的媒体数据的媒体数据映射，通过使用语义信息来提高子空间学习的准确性。这种方法不仅保留了多模式样本的相似关系，而且还使得在投影过程中更准确地理解语义信息。(3)我们在三个数据集上进行的实验结果表明，所提出的框架优于其他先进方法。

我们简要介绍了本节中的几种相关方法。大多数跨模型检索方法专注于不同方式的联合建模。图像和文本检索是跨模型检索研究的主要科目。不同方式的表示特征不仅不一致，而且位于不同的特征空间中。通过学习潜在的常见子空间，不同方式的数据被映射到常见的同构子空间，以从传统的异构空间中检索。

子空间学习在跨模型问题中起着重要作用，最传统的无监督方法是规范相关分析（CCA）[22，将异构数据映射到同构子空间，最大化两对特征的相关性。它只利用了多模态对的信息，忽略了标签信息的重要性，搜索结果不是最优的。具有相同语义的异构数据在公共语义空间中相互关联。在数据投影到同构特征空间后，监督方法[22]，它结合了CCA和SM，通过线性回归生成一个通用语义空间，用于CCA表示学习，以提高检索性能。除了CCA, Sharma等人还提出了广义多视图分析(GMA) [29]通过CCA的监督扩展来学习常见的子空间，用于交叉模态检索。

通过学习不同模式数据之间的潜在关系，限于提高检索性能。检索方法[30.]，可以更好地将样本的特征提取与公共空间的学习相结合，获得更好的检索结果。Andrew等人提出深度典型相关分析(DCCA) [24[CCA的非线性学习学习不同模态的复杂非线性变换，通过相应的子网的相应约束来使数据高度线性相关。Srivastava等人。提出深层螺栓机械（DBMS）[31]，这是一种学习泛化模型的算法，从而提高了检索的有效性。此外，通过利用增强的多媒体数据的相关性，其他深度模型用于跨模型检索。彭等人。[32]提出构建多路径网络，利用粗粒度实例和细粒度补丁来改善跨模态相关性，达到最佳性能。基于DNN的跨模态检索方法利用DNN学习不同模态之间的非线性关系，训练数据在学习过程中起关键作用。在[33]，黄等人。提出了模态对抗的混合传输网络（MHTN），具有模态共享知识传输子网的端到端架构，以及模态 - 对冲语义学习子网。它增强了数据的语义一致性，使得与彼此对齐的不同模式。yu等人。提出了网络中的图形（GIN）[34]，它学习文本表示，通过图表卷积网络获取更多的语义相关词。在学习过程中，语义信息明显推广;数据信息有效提取;并且检索精度更好地提高。

另外，不同模态数据的不同特征表示导致跨模态数据无法有效建立。通过字典学习可以获得不同模式数据的统一稀疏表示，但单靠字典学习无法获得准确的语义关系。通过使用语义约束来减少语义差异。因此，应该通过语义约束的方法来减少语义差异。利用语义信息在语义空间中投射不同模式的稀疏表示，进行跨模态匹配，以实现更准确的理解和检索。字典学习算法[35，36]，利用耦合字典的学习来更新字典，优化不同的模式，得到对应于不同模式数据的稀疏表示。随着高维数据可用性的迅速增加，出现了用于跨模态检索的哈希学习。哈希学习方法不仅将高维数据投影到汉明空间，而且尽可能地保留数据特征的原始结构。多尺度相关序列跨模态哈希学习[37]是一种多尺度特征引导的序列哈希学习方法，可以挖掘不同模式的多尺度特征之间的多尺度相关性。在跨模态哈希学习过程中，相似数据的相关性最大，不同数据的相关性最小。

不同模式之间的复杂相关性不能完全考虑，但跨模型检索方法[38[基于图形正规化，可以通过构建图形模型来学习不同模态数据的复杂潜在相关性。图形正则化[39]用于保持对内和对间的相关性，并对不同的特征空间进行特征选择。Zhai等人提出了联合表示学习算法(JGRHML) [27]考虑联合图正规化中的异构关系。该算法优化不同模态数据的相关性和互补性，并通过最近邻居在异构数据之间获得相关信息。为了提高JGRHML算法，联合表示学习（JRL）[28]由Zhai等人提出。通过K-CORMATE邻居维护原始数据之间的结构信息，并添加了语义正则化术语来集成原始数据的语义信息。我们提到的，使用相邻图来学习潜在空间和维持多峰特征相关性，同时保持局部关系，同时保持局部关系，也显着提高了检索性能。

我们提出了一种基于模态相关和图正则化的方法。在公共语义子空间中，具有相同语义的数据通过潜在关系彼此相似。Wei等人提出了一种依赖于模式的跨媒体检索方法[40］．该方法关注检索方向，利用查询态的语义信息将数据投射到查询态的语义空间中。它不仅考虑了不同模式之间的直接关联，而且还考虑了与非线性关联不能很好结合的低级特征。虽然这种方法不能完全描述不同形态数据之间的复杂相关性，但受这种方法的启发，我们可以使用图正则化进一步分析数据的潜在相关性。与上述方法相比，我们通过将模态数据信息集成到语义图中，学习不同的投影矩阵和语义空间来实现不同的检索任务，从而保持数据结构信息和语义信息之间的相关性。读者可以从下面我们如何取得良好的检索结果的解释中了解我们的方法。

论文组织如下。部分2简要介绍了跨模态检索的相关方法。节3.，我们提出的方法详细描述。部分4呈现我们的实验结果和与其他方法的比较分析。部分5本文总结道。

在本节中，我们首先介绍与目标函数相关的符号和问题定义，然后提出了GRMD的整体跨模型学习框架。最后，提出了一种有效的迭代方法来完成此框架。

3.1。符号和问题定义

让和分别表示图像数据和文本数据的特征矩阵。表示带有多个标签c的语义矩阵我语义矩阵的第一行为对应的语义向量和，；否则, ．I2T中的图像投影矩阵和文本投影矩阵表示为和．本文经常使用的重要符号的描述列于表中1．


符号	描述

n	训练样本数
年代	语义矩阵的图像和文本
p和问	图像和文本的尺寸
	图像特征矩阵
	功能矩阵文本
	图像投影矩阵
	投影矩阵文本
λ.，α.，，和	平衡参数

3.2。目标函数

我们的目标是在将不同的数据模式映射到一个共同的潜在空间的过程中保持多模态数据的语义一致性。在不同的检索任务中，存在语义信息、数据相关性和数据结构分布三个重要因素，每个因素都与其他两个因素相互作用。因此，本文采用语义子空间作为通用势空间。语义信息通过潜在空间和语义空间的关联，将同一类别的样本映射到附近的位置: 在哪里由四个术语组成。是一个相关分析术语，可保持彼此接近的同一类的样本。是将不同形式的数据映射到语义空间的线性回归。是一个使用模态图来增强模态内相似性的图正则化术语。是保留投影矩阵稳定性的正则化术语。

3.2.1之上。第一项

第一项是相关分析项，它最小化了潜在子空间中多模态数据之间的差异。在可能的子空间中，不同的模态数据需要保持彼此接近。对异构数据在公共子空间中的表示应尽可能相似，因此两者之间的距离应尽可能小:

该术语减少了相同标签的多模式数据之间的距离，从而提高了它们之间的相关性。

3.2.2。第二项

第二项是线性回归，将查询情态的特征空间转化为语义空间。该术语只考虑查询情态语义，这比同时考虑查询情态语义和检索情态语义更切题、更有效。提高查询态数据映射的准确性，可以保证后续检索的准确性。一旦错误地预测了查询模式数据的标签，就很难确保在后续步骤中检索到其他相关的模式数据:

本学期重点研究不同检索任务之间的差异，学习不同检索任务对应的两种不同的投影矩阵。它将查询态数据从原始特征空间转换为相应的语义空间，相似数据集中分布在语义子空间中。

3.2.3。第三项

这里，我们通过在目标函数中添加一个图正则项，尽可能地保持公共子空间中不同形态数据的原始分布。在公共子空间中相邻的数据点尽可能的接近。我们定义一个无向对称图，在哪里是一组数据X和为相似矩阵。元素的定义如下: 在哪里代表k邻居通过计算原始空间中数据对与选择最近的距离来获得的k邻居。在哪里l是一个对称的semidefinite矩阵，D是一个对角矩阵，对角元素是．

通过通过语义信息构造每个模态的本地标签图，可以与标签空间的结构一致地进行特征空间的结构。在不同模式之间的偏移中，保留了模态的内部结构，使得同一标签中的不同模式数据应在映射后尽可能接近：

同样地，我们计算相似矩阵W，对称矩阵D，以及拉普拉斯矩阵l文本，文本的正则化条款定义如下：

3.2.4。第四项

第四个术语是控制投影矩阵的复杂性并防止过度拟合的正则化术语。因此，术语的约束可以控制所获得的值的稳定性。参数和平衡正规化项: 对于I2T：我们呈现的算法学习一对投影矩阵和通过图像查询文本(I2T)，我们最终的目标函数具体表示为: 对于T2I：同理，T2I的目标函数表示为:

如(11），跨模型检索问题基于文本模态检索相关的图像模式。与（3.)，我们的线性回归术语是将文本特征空间转换为语义文本空间，而不是I2T中的语义图像空间。T2I中的图像投影矩阵和文本投影矩阵表示为和．

3.3。提出算法的迭代优化

在本节中，两者（10)和(11）是非渗透优化问题，因此我们设计了一种查找固定点的算法。我们观察到另一个项目是固定的，等式（10)与另一项是凸的。同样,方程(11)是固定的，而另一项是固定的，而另一项也是凸的。因此，利用梯度下降法，我们可以通过固定其中一项来实现另一项的最小化或．

首先，我们计算部分衍生物关于设为0:

类似地，我们计算的偏导数关于设为0:

根据上述公式，所得溶液分别如下：

同样，对于T2I，有偏见的和，分别。和迭代更新，直到结果收敛:

算法给出了我们为I2T提供的方法的主要优化过程1，T2I任务类似于I2T任务。

	输入：培训图像数据集；
	训练文本数据集；
	语义集
	平衡参数λ.，α.，，
	输出：投影矩阵和．
	1：计算图表拉普拉斯矩阵；
	2:初始化和是单位矩阵;
	3：重复
	4:修复和更新根据(14）;
	5:修复和更新根据(15）;
	6：直到收敛
	7:对

4.实验

我们在本节中存在的方法在三个数据集上通过实验测试。通过与其他先进方法进行比较，我们评估了我们提出的方法。

4.1。数据集

下面详述的三个数据集是为实验选择的。

以下4.4.1。维基百科

维基百科数据集[22]由2,866个不同的图像文本对组成，属于来自2,700个“功能文章”的10个语义类别。此数据集随机分为培训集，其中包含2,173个图像文本对和具有693个图像文本对的测试集，这两组标有10个语义类单词。图像特征由4096维CNN视觉功能表示，而文本功能的表示是100维LDA文本功能。

4.1.2。帕斯卡句子

Pascal语句集[26]包含来自20个语义类别的1000对图像-文本对。在每个语义类别中，有50对图像-文本对，其中30对作为训练对，其余的作为每个类别的测试对。提取4096维CNN视觉特征表示图像特征，100维LDA文本特征表示文本特征。

4.1.3。INRIA-Websearch

INRIA-Websearch数据集[41]通过353个语义类别，拥有71478个图像文本对，由14698个图像文本对形成，通过选择最大的100个类别。将该数据集随机分为70％的成对，用作培训集，30％用作测试集。每个图像和文本都由4096维CNN视觉特征和1000维LDA特征表示。

4．2.实验设置

假设多媒体数据投影到公共子空间时，使用欧氏距离来计算数据特征的相似度。在本部分中，为了评价跨模态检索的结果，我们考虑了广泛使用的平均平均精度(MAP) [22和精确召回(PR)曲线。具体来说，获取每个查询的平均精度(average precision, AP)，并计算其平均值，得到MAP评分: 在哪里n是测试集的大小和R是相关项目的数量。状况意味着具有级别的项目k是相关的。否则，；是顶部的相关项目数量k的回报。为了评价所提出的GRMD检索方法的性能，我们将GRMD与典型相关分析(CCA) [22]，内核规范相关分析（KCCA）[19]，语义匹配（SM）[22]、语义相关匹配(SCM) [22]，三维规范相关分析（T-V CCA）[42]，广义多视图线性判别分析（GMLDA）[29，广义多视图规范相关分析（GMMFA）[29，模式依赖的跨媒体检索(MDCR) [40]、联合特征选择和子空间学习(JFSSL) [43，联合潜子空间学习与回归(JLSLR) [44]、广义半监督结构化子空间学习(GSSSL) [45[基于协作表示的一致性的跨媒检索算法（CRCMR）[46，基于线性判别分析(CRLDA)的跨媒体检索[47]而跨模态在线低级相似性（CMOLRS）功能学习方法[48］．整个实验中使用的上述比较方法的描述和特征总结在表中2．


对比较方法的描述	比较方法的特点

CCA是一种经典的子空间方法，它将不同的模式投射到一个公共子空间中，以最大化成对信息项之间的相关性。	相关分析无人监督的学习
KCCA通过高维特征空间中的跨视图检索获得图像和文本之间的相关性。	内核相关分析无人监督的学习
SM将图像-文本对投射到语义空间中，从不同的形式检索数据。	语义信息
SCM将一个图像-文本对投射到语义空间中，在语义空间中学习由CCA进行。单片机结合CCA和SM来提高检索性能。	相关分析语义信息
GMLDA寻求最佳投影方向，使相似样本尽可能接近，不同类别的样本尽可能接近。	广义多视图分析线性判别分析语义信息
GMMFA结合了语义信息和CCA约束，通过GMA和MFA的结合来学习公共子空间。	广义多视图分析典型相关分析语义信息
MDCR对不同的查询对象执行不同的检索任务。学习不同的投影矩阵来优化每个检索结果。	不同的检索任务相关分析语义信息
JFSSL使用图形正则化来维持相互形态和岩石性之间的相似性，并对不同的特征空间执行特征选择，从而提高性能。	图正则化语义信息
JLSLR使用标签图来学习潜在空间，并保持高相关的多层能特征。当将不同的模态特征投射到公共空间上时，维护局部关系。	图正则化语义信息
GSSSL通过将不同模式的样本相关性与语义信息相结合来学习一个有区别的公共子空间。	图正则化语义信息
CRCMR不仅使用字典学习来获取多模式数据的协作表示，而且还考虑了多模式数据的相同语义信息。	协同代表性语义信息
CRLDA通过考虑图像特征和文本特征之间的成对相关性并提高文本方式的辨别特征来提高检索性能。	不同的检索任务相关分析语义信息线性判别分析
CMOLRS对每个三分量的铰链损耗裕度进行了调整，有效利用了样本特征和语义信息，从而实现了对数据的低秩双线性相似性度量。	相对相似之处语义信息

4.3。实验结果

实验是两个子任务的跨媒检索：I2T和T2I。传统的距离指标用于衡量不同模态对象的相似性。实验在三个数据集上进行。桌子3.- - - - - -5显示不同数据集的实验结果。后来，我们将研究不同参数设置对GRMD性能的影响。


方法	I2T	T2I	平均

CCA	0.226	0.246	0.236
kcca.	0.332	0.351	0.342
SM	0.403	0.357	0.380
SCM.	0.351	0.324	0.337
T-V CCA	0.310	0.316	0.313
GMLDA	0.372	0.322	0.347
GMMFA	0.371	0.322	0.346
MDCR	0.419	0.382	0.401
JFSSL.	0.392	0.381	0.387
JLSLR	0.394	0.369	0.382
GSSSL.	0.413	0.376	0.395
CRCMR.	0.408	0.395	0.402
CRLDA.	0.425	0.388	0.407
CMOLRS.	0.424	0.382	0.403
GRMD.	0.438	0.399	0.419


方法	I2T	T2I	平均

CCA	0.261	0.356	0.309
kcca.	0.401	0.398	0.399
SM	0.426	0.467	0.446
SCM.	0.369	0.375	0.372
T-V CCA	0.337	0.439	0.388
GMLDA	0.456	0.448	0.451
GMMFA	0.455	0.447	0.452
MDCR	0.449	0.475	0.462
JFSSL.	0.407	0.402	0.404
JLSLR	0.454	0.455	0.455
GSSSL.	0.468	0.464	0.466
CRCMR.	0.471	0.480	0.476
CRLDA.	0.471	0.478	0.474
CMOLRS.	0.415	0.423	0.419
GRMD.	0.484	0.491	0.488


方法	I2T	T2I	平均

CCA	0.274	0.392	0.333
kcca.	0.517	0.526	0.522
SM	0.439	0.517	0.478
SCM.	0.403	0.372	0.387
T-V CCA	0.329	0.500	0.415
GMLDA	0.505	0.522	0.514
GMMFA	0.492	0.510	0.501
MDCR	0.520	0．551	0.535
JFSSL.	0.533	0.562	0.548
JLSLR	0.525	0.545	0.535
GSSSL.	0.530	0.552	0.541
CRCMR.	0.532	0.555	0.544
CRLDA.	0.531	0.552	0.542
CMOLRS.	0.358	0.374	0.366
GRMD.	0.539	0.558	0.549

在Wikipedia数据集的实验中，我们设置了如下参数:对于I2T，，，，和；对于T2I，，，，和．我们在I2T和T2I任务上得到的MAP得分如表所示3.．数据2(一个)和2 (b)显示不同检索任务在维基百科数据集上的MAP得分2 (c)显示不同标签的MAP得分，作为平均性能的指示。数据3(一个)和3 (b)显示了两个检索任务(I2T和T2I)的精度-召回曲线。结果表明，CCA和KCCA没有使用语义信息，检索性能较差。SM只考虑语义信息而不考虑相关数据。我们的方法结合了数据相关性和语义信息来学习异构数据问题，从而获得了良好的检索性能。

(一)

(b)

(c)

(d)

(e)

(f)

(一)

(b)

(c)

(d)

(e)

(f)

在Pascal句子数据集的实验中，我们设置了各种参数，如下所示：对于I2T，，，，和；对于T2I，，，，和．我们在I2T任务和T2I任务上获得的地图分数如表所示4．数据2 (d)和2 (e)显示Pascal句子数据集上的地图分数，以获取不同的检索任务，以及图2（f）显示不同标签的MAP得分，作为平均性能的指示。数据3（c）和3（d）显示了两个检索任务(I2T和T2I)的精度-召回曲线。It can be concluded from the experimental results of SCM, T-V CCA, GMLDA, GMMFA, CMOLRS, and MDCR that although they all consider data correlation and semantic information, the MAP scores of MDCR are higher because it learns different semantic subspaces for different retrieval tasks. These methods do not fully understand the complex correlation of heterogeneous data. Therefore, our method is projected not only in different semantic subspaces but also the similarity between heterogeneous data projected can be well maintained by constructing adjacent graphs. The results show that our approach is necessary for considering different retrieval tasks and maintaining the similarity of heterogeneous data.

在INRIA-WebSearch数据集上的实验中，我们设置了各种参数，如下所示：对于I2T，，，，和；对于T2I，，，，和．我们在I2T任务和T2I任务上获得的地图分数如表所示5．增加语义类别后，该方法的检索性能仍然很好。CRLDA只考虑文本特征的可识别性。JFSSL、JLSLR和GSSSL通过考虑异构数据的复杂相似性来验证相邻图的有效性。该方法在构造相邻图时不仅考虑了语义信息，而且针对不同的查询对象构造了相应的语义图。我们观察到JFSSL方法在T2I任务上的MAP得分高于我们的方法。这一结果可能是由于对异构数据的特征选择。数据3（e）和3（f）显示了两个检索任务I2T和T2I的精度-召回曲线。与其他检索方法的比较表明，该方法具有一定的稳定性，在检索任务中具有良好的性能。

下面的所有表格和数字都显示了我们的实验结果。我们介绍了我们方法的有效性的两个方面。一方面，考虑图像文本之间的关系，并且仅考虑查询对象的语义。另一方面，语义相关性通过利用特征图的本地相关性来提高检索精度。另外，语义约束更好地利用特征图的局部相关性，从而提高了检索精度。

4.4。参数灵敏度

在本小节中，我们评估了我们方法的稳健性。我们的方法包括四个参数：λ.和α.是平衡参数，而和正则化参数。在实验中，我们观察到，随着参数的变化λ.，不同检索任务的检索性能在宽范围内是稳定的。考虑到Pascal句子数据集上的结果，例如，我们设置了参数α.，，和以测试对参数值的敏感性。我们调整三个参数，考虑的值．在实验中，一个参数是固定的，以观察与其他两个参数的性能变化。数据4（a），4（c），和4 (e)显示I2T的性能变化，以及图表4（b），4 (d)，和4 (f)显示T2I的性能变化。附图表明，我们的方法对这三个参数不敏感，其性能相对稳定。

(一)

(b)

(c)

(d)

(e)

(f)

4.5。融合实验

在本小节中，我们提出了一种迭代优化方法来实现目标函数。在迭代期间测试其融合非常重要。数据5(一个)和5 (b)对于I2T和T2I, Pascal句子数据集表现出收敛曲线。随着迭代次数的增加，相应的MAP分数趋于稳定。该方法可以在大约7次迭代中获得接近稳定的值。因此，我们的方法可以有效地收敛并提供稳定的性能。

(一)

(b)

4.6。烧蚀实验

在表6，方法“a”以我们的方法删除图形正则化术语。这意味着该方法仅使用相关分析和线性回归对图像数据和文本数据的特征。不同模式的样本被映射到公共语义子空间，以便可以聚合具有相同标签的多模式数据。方法“B”在我们的方法中除去相关分析术语。这意味着没有足够考虑相同标签的配对数据应该在潜在的空间中接近。该方法保持异构特征的内部结构信息。


数据集	方法	I2T	T2I	平均

维基百科数据集	我们的方法	0.438	0.399	0.419
	一个	0.409	0.374	0.391
	B	0.398	0.364	0.381

Pascal句子数据集	我们的方法	0.484	0.491	0.488
	一个	0.445	0.456	0.451
	B	0.403	0.405	0.404

inria-websearch dataSet	我们的方法	0.539	0.558	0.549
	一个	0.476	0.495	0.486
	B	0.436	0.510	0.473

实验结果表明了我们方法的有效性。首先，为了确定相应的投影，通过使用这种模态之间的相关性来关联不同模态的数据。其次，标签图的构造可以非常好地保持原始数据的内部结构信息。将多模式数据的异构特征投影为常见的子空间，并且聚合相同标签的多模式数据。

5.结论

在本文中，我们提出了一种基于图形正规化（GRMD）的跨模型检索方法。该方法结合了特征空间和语义空间的内部结构来构建异构数据的标记图，这使得不同模特的特征更接近真实标签，从而丰富了类似数据特征的语义信息。此外，我们的方法了解不同查询任务的不同投影矩阵，并且还考虑了同义和异构数据特征之间的特征相关性和语义相关性。实验结果表明，GRMD比其他先进方法更好地表现出用于跨模型检索任务的其他先进方法。在未来，我们投入专注于异构数据特征分布的本地和全球结构，并连续改进检索框架。

数据可用性

用于支持本研究发现的数据可由通讯作者要求提供。

利益冲突

作者声明他们没有利益冲突。

致谢

国家自然科学基金项目(no . 61772322, no . 61572298, no . 61702310, no . 61873151)资助。

参考

A. Moffat和J. Zobel，“用于快速文本检索的自我索引反转文件”，美国计算机学会资讯系统汇刊第14卷第2期4，第349-379页，1996。查看在：出版商的网站|谷歌学术
S. Haiduc, G. Bavota, A. Marcus等，“软件工程中文本检索的自动查询重新公式”2013年国际软件工程国际会议的诉讼程序，pp.842-851，IEEE按压，旧金山，加州，2013年5月。查看在：谷歌学术
S. Shehata, F. Karray, M. S. Kamel，“一种提高文本检索质量的有效的基于概念的检索模型”，知识和信息系统，卷。35，不。2，pp。411-434,2013。查看在：出版商的网站|谷歌学术
S.Chranchant，J.Ah-Pine和G.Csurka，“多媒体检索中的文本和视觉信息的语义组合”第一届ACM多媒体检索国际会议论文集，p。44，ACM，温哥华，加拿大，2011年10月。查看在：谷歌学术
余俊，田青，“语义子空间投影及其在图像检索中的应用”，IEEE视频技术电路和系统汇刊，卷。18，不。4，pp。544-548,2008。查看在：谷歌学术
H.J.SceCalante，C.A.Hérnadez，L.E.Cucar等，“多媒体图像检索的异构方法的后期融合”第一张ACM国际多媒体信息检索国际会议的诉讼程序，pp.172-179，ACM，温哥华，加拿大，2008年10月。查看在：谷歌学术
G.-h.刘和J.-Y.杨，“基于内容的图像检索使用色差直方图，”模式识别第46卷，第46期1，页188-198,2013。查看在：出版商的网站|谷歌学术
H. Greenspan，J. Goldberger和A. Mayer，“概率的时空视频建模通过分段GMM，”模式分析与机器智能学报第26卷第2期3, 2004。查看在：出版商的网站|谷歌学术
Y.Peng和C.W.NGO，“基于剪辑的查询相似度量，用于查询依赖夹子检索和视频摘要”IEEE视频技术电路和系统汇刊，卷。16，不。5，pp。612-627，2006。查看在：谷歌学术
B. Andr，T.Vercauteren，A. M.Buchner等，“学习针对元眼检查视频检索的语义和视觉相似性，”医学成像上的IEEE交易，卷。31，不。6，pp。1276-1288,2012。查看在：谷歌学术
x,杨绍明。关铭Yu, Y. Yang，和E. P. Xing，“基于语义池的视频复杂事件分析”，模式分析与机器智能学报，卷。39，没有。8，pp。1617-1632,2017。查看在：出版商的网站|谷歌学术
宋伟，崔勇，彭志鹏，“云存储应用中加密数据的全文检索算法”自然语言处理和中国计算，pp。229-241，斯普林克，柏林，德国，2015年。查看在：谷歌学术
M. Singha和K. Hemachandran，“使用颜色和纹理的基于内容的图像检索”，信号与图像处理:国际期刊，卷。3，不。1，pp。39-57,2012。查看在：出版商的网站|谷歌学术
X. nie，Y. Yin，J. Sun，J. Liu和C. Cui，“使用张量模型”综合特征的鲁棒视频指纹识别“多媒体上的IEEE交易，卷。19，没有。4，pp。785-796,2017。查看在：出版商的网站|谷歌学术
J. Sun，X. Liu，W. Wan，J. Li，D. Zhao和H. Zhang，基于外观和注意力的视频散列通过DBN融合，“神经古脑， 2016年，第213卷，第84-94页。查看在：出版商的网站|谷歌学术
庄玉涛，王艳芳，吴芳等，“基于群结构的监督耦合字典学习”，中文信息学报，vol . 21, no . 2, no . 3, no . 3第二十七届AAAI人工智能会议论文集，Bellevue，Wa，美国，2013年7月。查看在：谷歌学术
杨颖，徐东，聂飞，罗飞，庄颖，“基于局部回归和全局校正的跨媒体检索排序”，出版第17届ACM多媒体国际会议的诉讼程序，PP。175-184，ACM，北京，中国2009年10月。查看在：出版商的网站|谷歌学术
Y.-T。“基于语义关联的跨媒体检索研究”，《中国科学:信息科学》，2014年第4期。多媒体上的IEEE交易，卷。10，不。2，pp。221-229,2008。查看在：出版商的网站|谷歌学术
S. J. Hwang和K. Grauman，“占对象在图像检索中的相对重要性”中，“英国机器愿景会议的诉讼程序，卷。1，不。2，p。5，阿伯尼斯特威斯，英国，2010年8月。查看在：谷歌学术
吕志刚，彭永臻，“基于多视图数据的统一约束传播”第二十七届AAAI人工智能会议论文集，Bellevue，Wa，美国，2013年7月。查看在：谷歌学术
X. Dong，E. Yu，M. Gao等，“半监督距离一致的交叉模态检索”智能和互联社区的视觉分析研讨会论文集，pp.25-31，ACM，山景，加利福尼亚州，2017年10月。查看在：谷歌学术
N. Rasiwasia, J. Costa Pereira, E. Coviello et al.，“跨模式多媒体检索的新方法”第十八届ACM多媒体国际会议论文集，第251-260页，ACM，意大利佛罗伦萨，2010年10月。查看在：谷歌学术
R. Rosipal和N.Krämer，“概述和最近的局部最小二乘的进步”国际统计和优化观点的诉讼研讨会“子空间，潜在结构和特征选择”，pp.34-51，Springer，Bohinj，斯洛文尼亚，2005年2月。查看在：谷歌学术
J. Bilmes et al，“深度典型相关分析”，刊于国际机会学习会议的诉讼程序，pp.1247-1255，亚特兰大，美国，2013年6月。查看在：谷歌学术
Y.Peng，X. Huang和J.Qi，“通过多个深网络的分层学习的跨媒体共享表示，”第25届国际人工智能联席会议（IJCAI）的诉讼程序，第3846-3853页，纽约市，纽约，美国，2016年7月。查看在：谷歌学术
Y. Wei，Y. Zhao，C.Lu等，“带有CNN视觉特征的跨模型检索：新基线，”IEEE控制论汇刊，第47卷，第47期。2, pp. 449 - 460,2016。查看在：谷歌学术
翟晓霞，彭勇，肖建军，“基于联合图正则化的异构度量学习算法”，《计算机科学与技术》第二十七届AAAI人工智能会议论文集，Bellevue，Wa，美国，2013年7月。查看在：谷歌学术
“基于稀疏和半监督正则化的跨媒体联合表示学习方法”，IEEE视频技术电路和系统汇刊，卷。24，不。6，pp。965-978，2014。查看在：出版商的网站|谷歌学术
A. Sharma，A.Kumar，H.aume等，“广义多视图分析：歧视性潜在空间”2012年IEEE计算机愿景和模式识别会议的诉讼程序，pp.2160-2167，IEEE，Providence，RI，美国，2012年6月。查看在：谷歌学术
齐骥、彭勇，“基于双对抗分布网络的零镜头跨媒体嵌入学习”，IEEE视频技术电路和系统汇刊，页847-850,2019。查看在：谷歌学术
N. Srivastava和R. R. Salakhutdinov，“深度玻尔兹曼机器的多模态学习”神经信息处理系统进展，第2222-2230页，加州太浩湖，美国，2012年12月。查看在：谷歌学术
“基于层次网络的跨模态相关学习”，《中国科学:信息科学》，2014年第4期。多媒体上的IEEE交易，第20卷，第2期。2，pp。405-420,2018。查看在：出版商的网站|谷歌学术
X.黄，Y.Peng和M.元，“MHTN：跨模型检索的模态 - 对抗混合传输网络”IEEE控制论汇刊，第50卷，第5期。3，第1047-1059页，2018。查看在：出版商的网站|谷歌学术
J. Yu，Y. Lu，Z.Qin等，“用图形卷积网络建模文本，用于跨模型信息检索”环太平洋多媒体会议论文集， pp. 223-234，施普林格，中国合肥，2018年9月。查看在：谷歌学术
徐旭东，“基于特征映射的跨模态检索方法”，《计算机应用研究》2015年IEEE国际多媒体和世博会议国际会议的诉讼程序（ICME）， pp. 1-6, IEEE，都灵，意大利，2015年7月。查看在：谷歌学术
徐旭，杨永强，岛田雅。Taniguchi，和L. He，“互联网图像和文本的跨模态检索的半监督耦合字典学习”，在第23届ACM多媒体国际会议论文集，pp.847-850，ACM，Brisbane，澳大利亚，2015年10月。查看在：出版商的网站|谷歌学术
叶振和彭亚鹏，“基于多尺度关联的序列跨模态哈希学习方法”2018年ACM多媒体大会关于多媒体会议的讨论，pp.852-860，ACM，首尔，大韩民国，2018年3月。查看在：谷歌学术
杨勇，聂飞，徐东辉等，“基于半监督排序和关联反馈的多媒体检索框架，”模式分析与机器智能学报，卷。34，不。4，pp。723-742，2011。查看在：谷歌学术
J. Yan，H. Zhang，J. Sun等，“基于联合图正规化的模型依赖跨媒检索”，多媒体工具和应用程序，卷。77，没有。3，pp。3009-3027,2018。查看在：出版商的网站|谷歌学术
Y. Wei，Y. Zhao，Z.Zhu等，“依赖跨媒体检索”，美国计算机学会智能系统与技术汇刊，第7卷，第5期4，第57页，2016。查看在：出版商的网站|谷歌学术
J. Krapac, M. Allan, J. Verbeek等人，“使用查询相关分类器改进网络图像搜索结果”2010年IEEE计算机愿景和模式识别会议的诉讼程序， pp. 1094-1101, IEEE，旧金山，CA, USA, June 2010。查看在：谷歌学术
龚勇，柯琪，M. Isard, S. Lazebnik，“网络图像、标签及其语义建模的多视图嵌入空间”，国际计算机愿景，卷。106，没有。2，pp。210-233,2014。查看在：出版商的网站|谷歌学术
K. Wang，R. He，L. Wang，W. Wang和T. Tan，“联合特征选择和子空间学习，用于跨越模式检索”模式分析与机器智能学报第38卷第2期10, pp. 2010-2023, 2016。查看在：出版商的网站|谷歌学术
吴建军，林振中，查慧，“基于联合隐子空间学习和回归的跨模态检索”，出版第40届国际ACM Sigir关于关于信息检索的研究和发展会议的诉讼程序，pp.917-920，ACM，东京，日本，2017年8月。查看在：谷歌学术
L.张，B. MA，G. Li，Q. Huang和Q. Tian，“广义半监督和结构化子空间学习跨莫代尔检索”多媒体上的IEEE交易，第20卷，第2期。1, pp. 128-141, 2018。查看在：出版商的网站|谷歌学术
尚飞，张慧，孙军，刘磊，曾慧，“基于协同表示一致性保持的跨媒体检索算法，”高级计算智能和智能信息学杂志第22卷第2期2, pp. 280-289, 2018。查看在：出版商的网站|谷歌学术
Y. Qi，H.张，B.张等人，“基于线性判别分析的跨媒检索”，多媒体工具和应用程序，第78卷，第1-20页，2018。查看在：谷歌学术
Y.Wu，S. Wang，W. Zhang等，“在线低级相似函数学习，具有自适应相对边际用于跨模型检索，”2017年IEEE多媒体和博览会国际会议的会议记录（ICME），第7月香港IEEE 823-828，2017年7月。查看在：谷歌学术