开放访问
Rob Pike,Sean Dorward,Robert Griesemer,Sean Quinlan那 “解释数据:Sawzall并行分析“,科学规划那 卷。13.那 文章ID.962135.那 22. 页面那 2005年。 https://doi.org/10.1155/2005/962135
解释数据:Sawzall并行分析
已收到
2005年12月30日
公认
2005年12月30日
抽象的
非常大的数据集通常具有平坦但常规结构,跨越多个磁盘和机器。示例包括电话呼叫记录,网络日志和Web文档存储库。这些大数据集不适合使用传统数据库技术进行研究,如果只是因为它们太大以适合单个关系数据库。另一方面,可以使用简单,易于分布式计算来表达对它们的许多分析:过滤,聚合,统计数据等。我们提出了一种自动化这种分析的系统。过滤阶段,其中使用新的程序编程语言表示查询,将数据发出到聚合阶段。两个阶段分布在数百次甚至数千台上。然后将结果整理并保存到文件中。设计 - 包括分为两个阶段,编程语言的形式以及聚合器的属性 - 利用具有在许多机器上分布的数据和计算所固有的并行性。
版权
版权所有©2005 Hindwi Publishing Corporation。这是分布下的开放式访问文章创意公共归因许可证如果正确引用了原始工作,则允许在任何媒体中的不受限制使用,分发和再现。