一、研究内容
文本聚类广泛的应用于文本的检索,信息的抽取和人名消歧等方面。本文提出了一种基于在线聚类策略的文本聚类算法,即FGSDMM+. 该算法假设语料库中至多有 个潜在的类别,并在算法开始时,认为语料库中真的有 个潜在的类别。初始化过程中,第一个文本选择一个潜在的类别,同时FGSDMM+ 创造一个新的类别去存储这个文本;后来的文本,根据狄利克雷和多项分布的混合模型推导出是选择一个非空的类别,还是潜在的类别,每次文本选择一个潜在的类别时,FGSDMM+都会创建一个新的类别去存储这个文本,同时也减少了后来的文本选择潜在类别的概率。当数据集的所有文本都初始化后,通过吉布斯采样算法迭代几次得到最终的分类结果。本实验的结果展示,不管是短文本,还是长文本,都比k-means、LDA和GSDMM算法的聚类效果好。
二 、算法的流程
1. 狄利克雷和多项分布的混合模型(DMM)
模型的参数:
图一用公式表示形式如下:
公式的解释:
(1) 是一个先验为狄利克雷分布的类别分布,类别分布是一个多项分布。
(2) 从(1)的多项分布中选择一个类别。
(3) 每个类别的文本分布也是一个先验为狄利克雷的多项分布
(4) 根据指定的类别和该类别的文本的分布,得到文本。
文档的生成过程:
首先根据先验超参数为 的狄利克雷分布确定一个多项分布(类别分布),然后从这个类别分布中选择一个类别;类别中的文本也是一个超参数为 的狄利克雷分布确定的多项分布(文本的分布),最后从指定的类别中的文本分布中选择一个文本。
从指定类别类别中选择文本,就有一下的限制,公式如下:
(1) 当文本的类别确定后,文本中的词的生成是独立的。
(2) 文本的词的位置是独立的,也就是与位置无关。
三、吉布斯采样算法推断后验分布
我们使用吉布斯采样过程去推导狄利克雷和多项分布混合模型,并得到后验分布的概率公式,也就是文本属于每个类别的概率,为迭代过程做准备。
其推导公式如下:
公式 (7) 的第一部分是:
公式 (7) 的第二部分:
整合后最终的结果为:
一个文本选择一个潜在的类别 (原来未知的类别) 的概率如下:
四、FGSDMM算法的流程
实验证明,只要选择的最大类别数
比真实的类别数大,
FGSDMM算法的效果就很好,一般会选择为语料库的文本数。FGSDMM的复杂度和非空类别的数量呈成正比。算法的具体过程过下:
五、FGSDMM+算法的流程
由于FGSDMM算法存储每个文档中每个词的词频和每个类别的大小,数据集中的词汇数是很大,且最大类数 很大时,需要很多内存空间。FGSDMM在初始化文本时,随机的分配文本到 类别时,也引入了很多噪音到类别中。本文提出了一个FGSDMM+算法,在开始的时候并不为 个类别分配内存空间,每当文本选择一个潜在的类别时,才分配内存空间,存储这个文本中的词。算法的流程如下:
六、总结
本篇论文的实验数据集都是英文数据集,实验的效果不错,但是数据集中的文本都是短文本。我想利用该算法实现中文短文本的分类。希望翻译和理解的该论文对大家有帮助。想要看具体的论文就看参考文献。
参考文献:
http://www.kdd.org/kdd2016/papers/files/rpp0617-yinAemb.pdf
转载请注明原文地址: https://ju.6miu.com/read-670530.html