wordcount工作原理 wordcount是什么意思

作者: 有么子话你就港赛
来源: 51数据库
2020-04-21

word count 英[wə:d kaunt] 美[wɚd kaʊnt]

n. 字数; 字计数;

[例句]Wc is an acronym for word count; wc can count characters, words, and lines.

wc为word count的首字母缩写，wc可统计字符、单词和行数。

根据你的描述,这是文字计数的意思,表面你这篇文字共打了多少个字。

谁有Hadoop的Word Count实验简单例子？

http://www.cnblogs.com/liuchangchun/p/4121817.html

这个里面有怎么配置开发环境

搭建hadoop很简单，你可以自己搭建一个伪分布式的。然后运行hadoop自带的world count 程序

关于C编程 count word

#include"stdio.h"

#include"string.h"

void main()

{

char a[10000];

int i,j=1,k;

printf("请输入相应的文段并以回车结束：\n");

gets(a);

k=strlen(a);

for(i=0;i<k;i++)

{

if(a[i]==' ')j++;

}

printf("%d",j);

}

如何使用 rdd dag 编写 word count

　　为了在IDEA中编写scala，今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀，学会之后，用起来很顺手。关于如何搭建scala和IDEA开发环境，请看文末的参考资料。

　　用Scala和Java实现WordCount，其中Java实现的JavaWordCount是spark自带的例子（$SPARK_HOME/examples/src/main/java/org/apache/spark/examples/JavaWordCount.java）

　　1.环境

　　OS:Red Hat Enterprise Linux Server release 6.4 (Santiago)

　　Hadoop:Hadoop 2.4.1

　　JDK:1.7.0_60

　　Spark:1.1.0

　　Scala:2.11.2

　　集成开发环境：IntelliJ IDEA 13.1.3

　　注意：需要在客户端windows环境下安装IDEA、Scala、JDK，并且为IDEA下载scala插件。

　　2.Scala实现单词计数

　　1 package com.hq

3 /**

4 * User: hadoop

5 * Date: 2014/10/10 0010

6 * Time: 18:59

7 */

8 import org.apache.spark.SparkConf

9 import org.apache.spark.SparkContext

10 import org.apache.spark.SparkContext._

12 /**

13 * 统计字符出现次数

14 */

15 object WordCount {

16 def main(args: Array[String]) {

17 if (args.length < 1) {

18 System.err.println("Usage: <file>")

19 System.exit(1)

20 }

22 val conf = new SparkConf()

23 val sc = new SparkContext(conf)

24 val line = sc.textFile(args(0))

26 line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println)

28 sc.stop()

29 }

30 }

　　3.Java实现单词计数

　　1 package com.hq;

3 /**

4 * User: hadoop

5 * Date: 2014/10/10 0010

6 * Time: 19:26

7 */

9 import org.apache.spark.SparkConf;

10 import org.apache.spark.api.java.JavaPairRDD;

11 import org.apache.spark.api.java.JavaRDD;

12 import org.apache.spark.api.java.JavaSparkContext;

13 import org.apache.spark.api.java.function.FlatMapFunction;

14 import org.apache.spark.api.java.function.Function2;

15 import org.apache.spark.api.java.function.PairFunction;

16 import scala.Tuple2;

18 import java.util.Arrays;

19 import java.util.List;

20 import java.util.regex.Pattern;

22 public final class JavaWordCount {

23 private static final Pattern SPACE = Pattern.compile(" ");

25 public static void main(String[] args) throws Exception {

27 if (args.length < 1) {

28 System.err.println("Usage: JavaWordCount <file>");

29 System.exit(1);

30 }

32 SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount");

33 JavaSparkContext ctx = new JavaSparkContext(sparkConf);

34 JavaRDD<String> lines = ctx.textFile(args[0], 1);

36 JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

37 @Override

38 public Iterable<String> call(String s) {

39 return Arrays.asList(SPACE.split(s));

40 }

41 });

43 JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {

44 @Override

45 public Tuple2<String, Integer> call(String s) {

46 return new Tuple2<String, Integer>(s, 1);

47 }

48 });

50 JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {

51 @Override

52 public Integer call(Integer i1, Integer i2) {

53 return i1 + i2;

54 }

55 });

57 List<Tuple2<String, Integer>> output = counts.collect();

58 for (Tuple2<?, ?> tuple : output) {

59 System.out.println(tuple._1() + ": " + tuple._2());

60 }

61 ctx.stop();

62 }

63 }

++word_count["Anna"];这么理解呢？

#include<map>

#include<string>

usingnamespacestd;

intmain(){

map<string,int>word_count;//从string到int的映射

++word_count["Anna"];//Anna这个单词映射的结果自增1

}

linguistic Inquiry and Word count能分析中文吗

可以，但需要加入简体中文版LIWC词典（Simplified Chinese LIWC，简称SC-LIWC）。

另请注意：

1、SC-LIWC主要是修订自基于英文版LIWC2007的繁体中文版词典；

2、SC-LIWC已参考了两岸用语对照研究，并进行校正；

3、SC-LIWC业已针对“一繁对多简”以及“一简对多繁”等问题进行校正；

4、SC-LIWC对简体文本的抓取率已与繁体版对繁体文本具有对等的抓取率；

5、SC-LIWC具有相当的预测效率与区辨效率；

6、用户如需取得SC-LIWC词典，需先点选使用同意书及下载。

转载请注明出处51数据库 » wordcount工作原理 wordcount是什么意思