[nlp笔记]语言模型中的高级问题(Advanced issue)
#-----------------------------------------------------------------------------------------------------------------
先说废话:刚刚收到TYM老师的邮件,准备跟我介绍课题组的事情。好兆头!跟着老师好好干啦!
-----------------------------------------------------------------------------------------------------------------#
(1) Knser-Ney Smoothing
Knser-Ney基于absolute discounting. Absolute discounting 计算的c*比GD中的c*更好。从GD的c/c*对照中可以看出对于大的c,其相应的c*-c几乎是个定值。也就是说GD对于大c几乎没啥影响。完全可以用一个常数D来取代原来的d.
Knser-Ney discounting
引入KN discounting的启发是:在不同的上下文中,如果前n-1个单词后跟的第n个单词(Wn)出现的概率越大,那么在我们要预测的W1W2W3....Wn ______中空格部分的单词 更有可能是Wn.
所以KN 改变了MLE中对于P(Wi) (for unigram)的计算方法。
而且实践证明,对于KN discounting 插值的方法会比Backoff更好,尽管对于GD discounting 情况相反。
(2) 基于类的N元模型(class-based or cluster-based)
这种模型通常现将单词划分class.例如各种汽车划分为class car , 对汽车的各种操作化为class operate. 当我们要计算条件概率时,如果C(WiWi-1)=0,我们采用下面的式子:
(3) 用web来对模型进行调整(adaptation)
核心概念:用大的out-domain数据来调整小的in-domain数据。web的pages巨大,实际情况下只能下载一部分。我们常常将Pweb融入到我们的统计模型中。
(4) 当n>6时,语法模型不会有太大的提升(284million words)。
基于主题的语言模型:对于某种主题的文档,某些词总是频繁的使用。因此在训练语言模型时常常是基于主题来训练。
简略谈到skip N-grams 和variable-length N-grams
先说废话:刚刚收到TYM老师的邮件,准备跟我介绍课题组的事情。好兆头!跟着老师好好干啦!
-----------------------------------------------------------------------------------------------------------------#
(1) Knser-Ney Smoothing
Knser-Ney基于absolute discounting. Absolute discounting 计算的c*比GD中的c*更好。从GD的c/c*对照中可以看出对于大的c,其相应的c*-c几乎是个定值。也就是说GD对于大c几乎没啥影响。完全可以用一个常数D来取代原来的d.
![]() |
Knser-Ney discounting
引入KN discounting的启发是:在不同的上下文中,如果前n-1个单词后跟的第n个单词(Wn)出现的概率越大,那么在我们要预测的W1W2W3....Wn ______中空格部分的单词 更有可能是Wn.
所以KN 改变了MLE中对于P(Wi) (for unigram)的计算方法。
![]() |
而且实践证明,对于KN discounting 插值的方法会比Backoff更好,尽管对于GD discounting 情况相反。
(2) 基于类的N元模型(class-based or cluster-based)
这种模型通常现将单词划分class.例如各种汽车划分为class car , 对汽车的各种操作化为class operate. 当我们要计算条件概率时,如果C(WiWi-1)=0,我们采用下面的式子:
![]() |
(3) 用web来对模型进行调整(adaptation)
核心概念:用大的out-domain数据来调整小的in-domain数据。web的pages巨大,实际情况下只能下载一部分。我们常常将Pweb融入到我们的统计模型中。
(4) 当n>6时,语法模型不会有太大的提升(284million words)。
基于主题的语言模型:对于某种主题的文档,某些词总是频繁的使用。因此在训练语言模型时常常是基于主题来训练。
![]() |
简略谈到skip N-grams 和variable-length N-grams