Skip to content
jackfengji edited this page Mar 8, 2012 · 4 revisions

word count最简单版本

有一堆文件,每一行是一个word,统计一共有多少个word count, splitSize reduce

升级版一

有一堆文件,每一行是一些word,word之间以','隔开,统计一共有多少个word map

升级版二

有一堆文件,每一行是一些word,word之间以','隔开,统计有多少长度大于10的word map, filter 可以解释惰性等特性

升级版三

有一堆文件,每一行是一个word,统计每个word有多少个 reduceByKey groupByKey, map collectAsMap

升级版四

有一堆文件,每一行是一些word,给一个word list,统计word list中每个pair出现的次数等 foreach

升级版五

有一堆文件,每一行是一个word,后面跟着两个整数,表示uid和timestamp,获取对应每个uid,出现次数最多的K个word combineByKey

升级版六

有一堆文件,每一行是一句话,同时有另外一个文件,里面每一行是一个word,大概为十万个,希望统计每个word出现的次数

Clone this wiki locally