TY - A2的主席,Autilia盟——Novo-Loures玛丽亚盟——Pavon雷耶斯盟——Laza猩红热盟——Ruano-Ordas大卫AU -门德斯,何塞·r . PY - 2020 DA - 2020/08/01 TI -使用自然语言预处理体系结构(NLPA)大数据文本来源SP - 2390941六世- 2020 AB -在过去的几年,大数据分析已经成为一个流行的手段,利用多个(最初价值)源找到相关知识真正的域。然而,大量的大数据来源提供文本非结构化数据。一个适当的分析工具需要能够充分结合大数据和text-analysing技术。记住这一点,我们结合流水线框架(BDP4J (Java)大数据流水线)与一组文本预处理的实现技术,以创建NLPA(自然语言预处理体系结构),一个可扩展的开源插件实现预处理步骤,可以很容易地创建一个管道。此外,NLPA包含生成的数据集的可能性使用经典的基于符号表示数据或更新synset-based将进一步处理的数据集使用语义信息(即。,使用本体)。这项工作提出了一个案例研究NLPA操作覆盖原始异构大数据的变换成不同的数据集表示它和令牌)和使用Weka应用程序编程接口(API)来启动两个著名的分类器。SN - 1058 - 9244 UR - https://doi.org/10.1155/2020/2390941 - 10.1155 / 2020/2390941摩根富林明科学编程PB - Hindawi KW - ER