Home > Archives > Appplying Gibbs sampling inference to Naive Bayes classification

Appplying Gibbs sampling inference to Naive Bayes classification

Naive Bayes(naive的另外一种写法为naïve,见这里),即朴素贝叶斯,是一种应用贝叶斯原理的简单分类器,常用于文本分类,它基于这样的假设:每个文档中的单词生成都是独立的(所以它是Naive的),并且并不考虑单词之间的顺序(Bag-Of-Words,BOW模型)。在自然语言处理(Natural Language Processing,NLP)领域中,这样的模型被称为Unigram model,当然还有Bigram,Trigram,甚至n-gram model。在n-gram model(n>1)中,单词与单词之间不再独立,而是有一定的转移概率 \(P(w_2 | w_1)\)。举一个简单的例子,比如“我”字后面出现“们”的概率显然比出现“中”的概率大,而在unigram model中则并不考虑这种概率差异。不过即便有这样简单的假设,Naive Bayes方法依然强大。

这里并不打算介绍Naive Bayes的细节,只是推荐两篇文章:

如果你已经读了至少Gibbs sampling for the unitialiated这篇文章,或者本来理解Gibss sampling,我建议你继续阅读。

我将Naive Bayes应用于文本分类(采用的数据集在这里),并尝试使用Gibbs sampling推导模型参数,参照Unitialiated这篇文章中的伪代码。

声明: 本文采用 BY-NC-SA 授权。转载请注明转自: 孔明