wordcount工作原理 wordcount是什么意思
- 作者: 有么子话你就港赛
- 来源: 51数据库
- 2020-04-21
word count 英[wə:d kaunt] 美[wɚd kaʊnt]
n. 字数; 字计数;
[例句]Wc is an acronym for word count; wc can count characters, words, and lines.
wc为word count的首字母缩写,wc可统计字符、单词和行数。
根据你的描述,这是文字计数的意思,表面你这篇文字共打了多少个字。
谁有Hadoop的Word Count实验简单例子?
http://www.cnblogs.com/liuchangchun/p/4121817.html
这个里面有怎么配置开发环境
搭建hadoop很简单,你可以自己搭建一个伪分布式的。然后运行hadoop自带的world count 程序
关于C编程 count word
#include"stdio.h"
#include"string.h"
void main()
{
char a[10000];
int i,j=1,k;
printf("请输入相应的文段并以回车结束:\n");
gets(a);
k=strlen(a);
for(i=0;i<k;i++)
{
if(a[i]==' ')j++;
}
printf("%d",j);
}
如何使用 rdd dag 编写 word count
为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。
用Scala和Java实现WordCount,其中Java实现的JavaWordCount是spark自带的例子($SPARK_HOME/examples/src/main/java/org/apache/spark/examples/JavaWordCount.java)
1.环境
OS:Red Hat Enterprise Linux Server release 6.4 (Santiago)
Hadoop:Hadoop 2.4.1
JDK:1.7.0_60
Spark:1.1.0
Scala:2.11.2
集成开发环境:IntelliJ IDEA 13.1.3
注意:需要在客户端windows环境下安装IDEA、Scala、JDK,并且为IDEA下载scala插件。
2.Scala实现单词计数
1 package com.hq
2
3 /**
4 * User: hadoop
5 * Date: 2014/10/10 0010
6 * Time: 18:59
7 */
8 import org.apache.spark.SparkConf
9 import org.apache.spark.SparkContext
10 import org.apache.spark.SparkContext._
11
12 /**
13 * 统计字符出现次数
14 */
15 object WordCount {
16 def main(args: Array[String]) {
17 if (args.length < 1) {
18 System.err.println("Usage: <file>")
19 System.exit(1)
20 }
21
22 val conf = new SparkConf()
23 val sc = new SparkContext(conf)
24 val line = sc.textFile(args(0))
25
26 line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println)
27
28 sc.stop()
29 }
30 }
3.Java实现单词计数
1 package com.hq;
2
3 /**
4 * User: hadoop
5 * Date: 2014/10/10 0010
6 * Time: 19:26
7 */
8
9 import org.apache.spark.SparkConf;
10 import org.apache.spark.api.java.JavaPairRDD;
11 import org.apache.spark.api.java.JavaRDD;
12 import org.apache.spark.api.java.JavaSparkContext;
13 import org.apache.spark.api.java.function.FlatMapFunction;
14 import org.apache.spark.api.java.function.Function2;
15 import org.apache.spark.api.java.function.PairFunction;
16 import scala.Tuple2;
17
18 import java.util.Arrays;
19 import java.util.List;
20 import java.util.regex.Pattern;
21
22 public final class JavaWordCount {
23 private static final Pattern SPACE = Pattern.compile(" ");
24
25 public static void main(String[] args) throws Exception {
26
27 if (args.length < 1) {
28 System.err.println("Usage: JavaWordCount <file>");
29 System.exit(1);
30 }
31
32 SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount");
33 JavaSparkContext ctx = new JavaSparkContext(sparkConf);
34 JavaRDD<String> lines = ctx.textFile(args[0], 1);
35
36 JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
37 @Override
38 public Iterable<String> call(String s) {
39 return Arrays.asList(SPACE.split(s));
40 }
41 });
42
43 JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {
44 @Override
45 public Tuple2<String, Integer> call(String s) {
46 return new Tuple2<String, Integer>(s, 1);
47 }
48 });
49
50 JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {
51 @Override
52 public Integer call(Integer i1, Integer i2) {
53 return i1 + i2;
54 }
55 });
56
57 List<Tuple2<String, Integer>> output = counts.collect();
58 for (Tuple2<?, ?> tuple : output) {
59 System.out.println(tuple._1() + ": " + tuple._2());
60 }
61 ctx.stop();
62 }
63 }
++word_count["Anna"];这么理解呢?
#include<map>#include<string>
usingnamespacestd;
intmain(){
map<string,int>word_count;//从string到int的映射
++word_count["Anna"];//Anna这个单词映射的结果自增1
}
linguistic Inquiry and Word count能分析中文吗
可以,但需要加入简体中文版LIWC词典(Simplified Chinese LIWC,简称SC-LIWC)。
另请注意:
1、SC-LIWC主要是修订自基于英文版LIWC2007的繁体中文版词典;
2、SC-LIWC已参考了两岸用语对照研究,并进行校正;
3、SC-LIWC业已针对“一繁对多简”以及“一简对多繁”等问题进行校正;
4、SC-LIWC对简体文本的抓取率已与繁体版对繁体文本具有对等的抓取率;
5、SC-LIWC具有相当的预测效率与区辨效率;
6、用户如需取得SC-LIWC词典,需先点选使用同意书及下载。
转载请注明出处51数据库 » wordcount工作原理 wordcount是什么意思