整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

16.5 关于 Cascading

hadoop 花牛 17℃ 0评论

Cascading是一个开源的Java库和应用程序编程接口(API),它为 MapReduce提供了一个抽象层。它允许开发者构建出能在Hadoop集群上运 行的复杂的、关键任务类型的数据处理应用。

Cascading项目始于2007年夏天。它的第一个公开版本,即版本0.1,发布 于20081月。版本1.0发布于20091月。从该项目的主页http://www.cascading.org/.可以下载二进制版本、源代码以及一些插件模块。

map和reduce操作提供了强大的原语操作。然而,在创建复杂的、可以被 不同开发者共享的合成性高的代码时,它们的粒度级别似乎不合适。再者,许多开发者发现当他们面对实际问题的时候,很难用MapReduce的模 式来思考解决问题。

为了解决第一个问题,Cascading用简单字段名和一个数据元组模型来替代 MapReduce使用的键和值,而该模型的元组是由值的列表构成的。对第二 个问题,Cascading直接从MapReduce操作分离出来,引入了更髙层次 的抽象元语:Function, Filter, Aggregator 和 Buffer

其他一些可选择的方案在该项目初始版本公开发布的同时也出现了,但 Cascading的设计初衷是对它们进行补充和完善。主要是考虑到大部分可选 的架构都是对系统强加一些前置和后置条件或有其他方面的要求而已。

例如,在其他几种MapReduce工具里,运行应用程序之前,你必须对数据 进行格式化预处理、过滤或把数据导入HDFS。数据准备步骤必须在系统的 程序设计抽象之外完成。相反,Cascading提供方法实现把数据准备和管理 作为系统程序设计抽象的组成部分。

该实例将首先介绍Cascading的主要槪念,最后槪括介绍ShareThis项目 cow)如何在自己的基础框架上使用Cascading

如果希望进一步了解Cascading处理模型,请参见项目主页上的 Cascading用户手册》。

转载请注明:全栈大数据 » 16.5 关于 Cascading

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址