python 函数FreqDist( 二 )

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

马尔科夫假设
马尔科夫假设,将其应用在词频的检测上就是:文章的单词往往存在依赖关系,即有很多的词是以词组的形式出现的 。如red wine,而不是the wine,所以我们假设下一个词的出现之与其前一个词的出现有关,而与之前出现的词无关 。(虽然这个假设存在问题,因为我们都知道,有很多的词组不是相邻依赖,而是非相邻依赖,而且词的出现还和上下文有关)
bgrams = nltk.bigrams(text2)#返回一个generatebgfdist = FreqDist(list(bgrams))#返回搭配的频率bgfdist.plot(10)#查看前10个出现频率最高的搭配
  • 1
  • 2
  • 3

python 函数FreqDist

文章插图
可以看出这里出现了我们处理单个词频率时出现的问题,介词和一些标识符
nltk给我们提供了获取这种二元组中最频繁搭配的函数——
text2.collocations()
  • 1

现在假设我们要统计一下在文章中单词长度为多少出现的次数对多 。
fdist = FreqDist([len(w) for w in text1])fdist.items()
  • 1
  • 2

python 函数FreqDist

文章插图