科学规划

科学规划/2005年/文章
特刊

动态网格和全球计算

查看此特殊问题

开放访问

体积 13. |文章ID. 962135. | https://doi.org/10.1155/2005/962135

Rob Pike,Sean Dorward,Robert Griesemer,Sean Quinlan 解释数据:Sawzall并行分析“,科学规划 卷。13. 文章ID.962135. 22. 页面 2005年 https://doi.org/10.1155/2005/962135

解释数据:Sawzall并行分析

已收到 2005年12月30日
公认 2005年12月30日

抽象的

非常大的数据集通常具有平坦但常规结构,跨越多个磁盘和机器。示例包括电话呼叫记录,网络日志和Web文档存储库。这些大数据集不适合使用传统数据库技术进行研究,如果只是因为它们太大以适合单个关系数据库。另一方面,可以使用简单,易于分布式计算来表达对它们的许多分析:过滤,聚合,统计数据等。我们提出了一种自动化这种分析的系统。过滤阶段,其中使用新的程序编程语言表示查询,将数据发出到聚合阶段。两个阶段分布在数百次甚至数千台上。然后将结果整理并保存到文件中。设计 - 包括分为两个阶段,编程语言的形式以及聚合器的属性 - 利用具有在许多机器上分布的数据和计算所固有的并行性。

版权所有©2005 Hindwi Publishing Corporation。这是分布下的开放式访问文章创意公共归因许可证如果正确引用了原始工作,则允许在任何媒体中的不受限制使用,分发和再现。


更多相关文章

PDF. 下载引用 引文
订单印刷副本命令
意见432.
下载1322
引用