整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

2.9. 写入数据

hadoop 花牛 9℃ 0评论

Filesystem类有一系列新建文件的方法。最简单的方法是给准备建的文件指定一个Path对象,然后返回一个用于写入数据的输出流:

public FSDataOutputStream create(Path f) throws IOException

此方法有多个重载版本,允许我们指定是否需要强制覆盖现有的文件、文 件备份数量、写入文件时所用缓冲区大小、文件块大小以及文件权限。

create()方法能够为需要写入且当前不存在的文件创建父目录。尽 管这样很方便,但有时并不希望这样。如果希望父目录不存在就导 致文件写入失败,则应该先调用exists()方法检査父目录是否存在。

 

还有一个重载方法Progressable用于传递回调接口,如此一来,可以把数据写入datanode的进度通知给应用:

package org.apache.hadoop.util;

public interface Progressable {

public void progress();

}

另一种新建文件的方法是使用append()方法在一个已有文件末尾追加数据(还有其他一些重载版本):

public FSDataOutputStream append(Path f) throws IOException

这样的追加操作允许一个writer打开文件后在访问该文件的最后偏移量处追加数据。有了这个API,某些应用可以创建无边界文件,例如,应用可以在关闭日志文件之后继续追加日志。该追加操作是可选的,并非所有 Hadoop文件系统都实现了该操作。例如,HDFS支持追加,但S3文件系统就不支持。

范例3-4显示了如何将本地文件复制到Hadoop文件系统。每次Hadoop调用progress()方法时——也就是每次将64 KB数据包写入datanode管线后——打印一个时间点来显示整个运行过程。注意,这个操作并不是通过 API实现的,因此Hadoop后续版本能否执行该操作,取决于该版本是否修改过上述操作。API只让你知道到“正在发生什么事情”。

范例3-4 将本地文件复制到Hadoop文件系统

public class FileCopyWithProgress {

public static void main(String[] args) throws Exception {

String localSrc = args[0];

String dst = args[1];

InputStream in=new BufferedInputStream(new FileInputStream(localSrc));

Configuration conf = new Configuration();

FileSystem fs = FileSystem.get(URI.create(dst), conf);

OutputStream out = fs.create(new Path(dst),new Progressable() {

@Override

public void progress() {

System.out.print(“.”);

}

});

IOUtils.copyBytes(in, out, 4096, true);

}

}

 

典型应用如下:

% hadoop FileCopyWithProgress input/docs/1400-8.txt hdfs://localhost/user/tom/1400-8.txt

……

目前,其他Hadoop文件系统写入文件时均不调用progress()方法。后面几章将展示进度对MapReduce应用的重要性。

 

FSDataOutputStream 对象

 

FileSystem 实例的 create()方法返回 FSDataOutputStream 对象,与 FSDatalnputStream类相似,它也有一个查询文件当前位置的方法:

package org.apache.hadoop.fs;

 

public class FSDataOutputStream extends DataOutputStream

implements Syncable, CanSetDropBehind {

 

public long getPos() throws IOException {

// implementation elided

}

 

// implementation elided

 

}

 

但与 FSDatalnputStream 类不同的是,FSDataOutputStream 类不允许在文件中定位。这是因为HDFS只允许对一个已打开的文件顺序写入,或在现有文件的末尾追加数据。换句话说,它不支持在除文件末尾之外的其他位置进行写入,因此,写入时定位就没有什么意义。

转载请注明:全栈大数据 » 2.9. 写入数据

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址