整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

16.1.5总结

Hadoop已经成为Last.fm基础框架的一个重要部件,它用于产生和处理各种各样的数据集,如网页日志信息和用户收听数据。为了让大家能够掌握主要的概念,这里讲述的例子已经被大大地简化;在实际应用中输入数据具有更复杂的结构并且数据处理的代码也更加繁琐。虽然Hadoop本身已经足够成...

32℃ 0评论

16.1.4 Track Statistics 程序

音乐收听信息被发送到Last.fm时,会经历验证和转换阶段,最终结果是一系列由空格分隔的文本文件,包含的信息有用户ID(userld)、曲目 ID(trackld)、收藏的次数(Scrobble)、收听的次数(Radio)以及被跳过的次数 (Skip)。表16...

34℃ 0评论

16.1.3 用Hadoop制作图表

Last.fm使用用户产生的音乐收听数据来生成许多不同类型的图表,例如针对每个国家或个人制作一周音乐汇总图表。许多Hadoop程序用于处理音乐 收听数据然后生成这些图表,它们可以以天、周或月为单位执行。图16-1 展示了这些数据在网站上如何被显示的一个例子,本例是音乐的...

31℃ 0评论

16.1.2 Hadoop 在 Last.fm 中的应用

随着Last.fm各种网络服务的幵发,用户数目从数千增长到数百万,存储、 处理和管理这些用户数据渐渐变成一项挑战。幸运的是,当大家认识到 Hadoop技术能解决众多问题的时候,在共同努力下Hado叩的性能迅速稳定下来,并被积极地用于解决众多问题。2006年初,Last....

35℃ 0评论

16.1.1 Last.fm:社会音乐史上的革命

Last.fm创办于2002年,它是一个提供网络电台和网络音乐服务的社区网站,向用户提供免费在线音乐和音乐下载、音乐及重大事件推荐、个性化图表生成服务以及其他多种服务。每个月大约有2500万人使用Last.fm, 因而产生了大量需要处理的数据。一个例子就是用户会传输他们正在收听的...

30℃ 0评论

第十六章 实例学习

实例学习 16.1 Hadoop 在 Last.fm 的应用 16.1.1 Last.fm:社会音乐史上的革命 Last.fm创办于2002年,它是一个提供网络电台和网络音乐服务的社区网站,向用户提供免费在线音乐和音乐下载、音乐及重大事件推荐、个性化图表生成服务以及其他多种服务。...

19℃ 0评论

9.4.3 Hadoop守护进程的关键属性

Hadoop的配置属性之多简直让人眼花缭乱。本节讨论对于真实的工作集群 来说非常关键的一些属性(或至少能够理解默认属性的含义),这些属性分散 在三个文件之中,包括 core–site.xml、hdfs–site.xml 和 mapred...

30℃ 0评论

9.4.2 环境设置

本节探讨如何设置hadoop-env.sh文件中的变量。 1.内存 在默认情况下,Hadoop为各个守护进程分配1000 MB(IGB)内存。该内存值由 hadoop-env.sh文件的 HADOOP_HEAPSIZE 参数控制。此外,tasktracker 启动独立的子JVM以...

29℃ 0评论

9.4.1 配置管理

Hadoop并没有将所有配置信息放在一个单独的全局位置中。反之,集群的每个Hadoop节点都各自保存一系列配置文件,并由管理员完成这些配置文件的同步工作。Haddoop提供一个基本工具来进行同步配置,即rsync(参见后文的讨论)。此外,诸如dsh或pdsh等并行shell工具也...

39℃ 0评论

9.4 Hadoop 配置

有多个配置文件适用于Hadoop安装,表9-1列举了最重要的几个文件。本节讨论MapReduce 1,可配置jobtracker和tasktracker守护进程。有关 MapReduce 2的安装配置与运行MapReduce 1明显不同,请参考9.5节。 这几个重要文件都放在Ha...

27℃ 0评论

9.3 SSH配置

Hadoop控制脚本(并非守护进程)依赖SSH来执行针对整个集群的操作。例如,某个脚本能够终止并重启集群中的所有守护进程。值得注意的是,控制脚本并非唯一途径,用户也可以利用其他方法执行集群范围的操作(例如 分布式shell)。 为了支持无缝式工作,SSH安装好之后,需要允许had...

31℃ 0评论

9.2.4 测试安装

准备好安装脚本之后,就可以在集群的机器上进行安装、测试。鉴于安装文件之间存在一些相互依赖关系,整个过程将会迭代多次。系统正常启动之后,用户可进一步配置Hadoop并且试运行。该过程将在后续小节中详细描述。 转载请注明:全栈大数据 » 9.2.4 测试安装...

31℃ 0评论

9.2.3 安装 Hadoop

从 Apache Hadoop 的发布页面(http//hadoop.apache.org/core/releases.html)下载Hadoop发布包,并在某一本地目录解压缩,例如 /usr/local(/opt/是另一标准选项)。注意,鉴于hadoop用户的home...

27℃ 0评论

9.2.2 创建Hadoop用户

最好创建特定的Hadoop用户帐号以区分Hadoop和本机上的其他服务。 对于小规模集群来说,有些管理员选择将该新用户的home目录设在NFS 挂载的驱动器上,以辅助SSH密钥分发(参见以下讨论)。一般而言,NFS 服务器在Hadoop集群之外。如果用户选择使用NFS,则有必要考...

29℃ 0评论

9.2.1 安装 Java

运行Hadoop需要Java 6或更新版本。尽管很多供应商的Java分发包可能也会正常工作,但是首选方案是采用最新稳定版本的Sun JDK。下列指令检査Java是否已被正确安装: % java -version java version ...

29℃ 0评论