1
lcj2class 2014-07-29 11:52:36 +08:00
很明显,对于文件A你需要通过-file选项制定,然后另外5个文件放到一个文件夹下,假设在input下
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input input \ -output out \ -mapper myPythonScript.py \ -reducer /bin/wc \ -file 文件A myPythonScript可以这么实现: keys = [w.rstrip() for w in open("文件A").readlines()] for line in sys.stdin: words = line.split() for w in words: if w in keys print("\t".join([w,1])) |
3
lcj2class 2014-07-29 22:35:06 +08:00
汉字一样呀,你只要分好词就行
在py文件开头加上 # -*- coding: utf8 -*- 就ok了 |