mapreduce中文分词

作者: 向日葵5692966
来源: 51数据库
2020-10-05

一、NLTK进行分词

用到的函数：

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

二、NLTK进行词性标注

用到的函数：

nltk.pos_tag(tokens)#tokens是句子分词后的结果，同样是句子级的标注

三、NLTK进行命名实体识别（NER）

用到的函数：

nltk.ne_chunk(tags)#tags是句子词性标注后的结果，同样是句子级

上例中，有两个命名实体，一个是Xi,这个应该是PER，被错误识别为GPE了；另一个事China，被正确识别为GPE。

四、句法分析

nltk没有好的parser，推荐使用stanfordparser

但是nltk有很好的树类，该类用list实现

可以利用stanfordparser的输出构建一棵python的句法树

　　中文里没有分词的说法，只有英文、法语、德语等有分词的说法。
分词是动词的三种非限定形式之一，分为两种：现在分词和过去分词。现在分词一般有四种形式，基本形式为“动词原形+-ing”，完成式为having加过去分词，一般被动式为being加过去分词，完成被动式为having
been加过去分词，而过去分词只有一种形式，规则动词的过去分词由动词原形加-ed构成，不规则动词需要单独记忆。
现在分词一般式的构成如下：
动词的现在分词，一般在词尾加-ing，但以-e结尾的字则去-e加-ing：laugh—laughing、live--living。但是，-e前为元音，-e要保留。Hoe—hoeing、agree—agreeing，toe—toeing、dye—dyeing、shoe—shoeing、singe—singeing。
以重读闭音节结尾的动词，末尾只有一个辅音字母（x除外），双写末尾的辅音字母加-ing：plan—planning、occur—occurring。非重读闭音节结尾的动词，则不要双写，如：travel—traveling。
以辅音字母c结尾的动词，c后加k再加-ing：traffic—trafficking、picnic—picnicking。
不规则动词的现在分词要逐个记忆：lie—lying、die—dying、tie—tying、vie—vying。
规则动词的过去分词，一般在词尾加-ed，但以-e结尾的字则只加-d：laugh—laughed、live—lived、age—aged、curse—cursed、learn—learned、crook—crooked、bless—blessed。
以辅音字母加y结尾的动词，变y为I加-ed。如：hurry—hurried、try—tried。
以重读闭音节结尾的动词，末尾只有一个辅音字母（x除外），双写末尾的辅音字母加-ed：plan—planned、occur—occurred、dog—dogged 。但：humbug—humbugged、zigzag—zigzagged。非重读闭音节结尾的动词，则不要双写，如：travel—traveled。
以辅音字母c结尾的动词，c后加k再加-ed：traffic—trafficked、picnic—picnicked。
不规则动词的过去分词须单独记忆：get—got—gotten、sink—sank—sunk、strike—struck—struck、bear—bore—borne、rot—rotted—rotten、hang—hung—hung。