语言模型2:二元文法求句子概率代码

在上一篇博客里,简单的介绍了语言模型,其中举了一个例子,这里就用代码来实现实现目标句子出现概率的求值 。
回顾
如果想再一次回顾语言模型的理论知识,可以直接点击语言模型(N-Gram)
语料库:

语言模型2:二元文法求句子概率代码

文章插图
研究生物很有意思 。
他是研究应用 。
【语言模型2:二元文法求句子概率代码】踏实研究生物的 。
他实验救生物的 。
他大学时代是研究生物的 。
语言模型2:二元文法求句子概率代码

文章插图
生物专业是他的首选目标 。
P(s) = P(他|)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(|的)
= 3/6 * 1/4 * 2/3 * 3/4 * 3/5 * 3/4
代码展示 1、导入包
import jiebaimport refrom zhon.hanzi import punctuationfrom _overlapped import NULL
2、将句子变