TY -的A2扁Jianming AU - Ji Xuechun盟——赵,茂县非盟-翟,明宇盟——吴,清溪PY - 2020 DA - 2020/02/07 TI -查询执行优化在火花SQL SP - 6364752六世- 2020 AB -火花SQL是一个大数据处理结构化数据的查询和分析的工具。然而,由于火花的执行SQL,有多次中间数据写入磁盘,减少火花SQL的执行效率。针对现有的问题,我们设计和实现之间的一个中间数据缓存层底层文件系统和上层火花核心减少随机磁盘I / O的成本。通过使用查询系统论模块,我们可以动态调整的能力不同的查询缓存层。和分配模块可以为集群中每个节点分配适当的内存。根据火花的中间数据的共享SQL工作流程,提出了一种基于成本的相关合并算法,可有效减少冗余数据读写的成本。本文发展了SSO(火花SQL优化器)模块和集成到原始引发系统来实现上述功能。本文比较了与现有火花SQL查询性能通过实验数据生成的tpc - h的工具。实验结果表明,SSO模块可以有效地提高查询效率,减少磁盘I / O成本和充分利用集群内存资源。SN - 1058 - 9244 UR - https://doi.org/10.1155/2020/6364752 - 10.1155 / 2020/6364752摩根富林明科学编程PB - Hindawi KW - ER