python 函数FreqDist( 二 ) _python函数

马尔科夫假设
马尔科夫假设，将其应用在词频的检测上就是：文章的单词往往存在依赖关系，即有很多的词是以词组的形式出现的。如red wine，而不是the wine，所以我们假设下一个词的出现之与其前一个词的出现有关，而与之前出现的词无关。（虽然这个假设存在问题，因为我们都知道，有很多的词组不是相邻依赖，而是非相邻依赖，而且词的出现还和上下文有关）

bgrams = nltk.bigrams(text2)#返回一个generatebgfdist = FreqDist(list(bgrams))#返回搭配的频率bgfdist.plot(10)#查看前10个出现频率最高的搭配

文章插图
可以看出这里出现了我们处理单个词频率时出现的问题，介词和一些标识符
nltk给我们提供了获取这种二元组中最频繁搭配的函数——
text2.collocations()

现在假设我们要统计一下在文章中单词长度为多少出现的次数对多。
fdist = FreqDist([len(w) for w in text1])fdist.items()

文章插图