TY -的A2张Liguo盟——刘Jiayong AU - Su,于非盟- Lv,避开盟——黄、陈PY - 2020 DA - 2020/12/17 TI -检测Web垃圾信息根据小说特征从Web页面源代码SP - 6662166六世- 2020 AB -搜索引擎在人们的日常生活中是至关重要的,因为它决定了信息质量人们通过搜索获得。激烈的竞争在搜索引擎排名不利于用户和搜索引擎。现有的研究主要研究的内容和链接的网站。然而,这些技术关注的链接和锚文本语义分析检测。在本文中,我们提出一个web垃圾信息检测方法通过提取小说的特性集首页源代码和选择随机森林分类器(RF)。这部小说特性集提取从主页的链接,超文本标记语言(HTML)结构,和内容的语义相似度。我们进行实验WEBSPAM-UK2007和英国- 2011数据集使用5倍交叉验证方法。此外,我们设计三组实验对该方法的性能进行评估。新颖的特性集的方法是与不同的指标和有更好的性能比其他方法的精度0.929和0.930召回。实验结果表明,该模型能有效地探测web垃圾信息。 SN - 1939-0114 UR - https://doi.org/10.1155/2020/6662166 DO - 10.1155/2020/6662166 JF - Security and Communication Networks PB - Hindawi KW - ER -