A Text Clustering Algorithm Using an Online Clustering Scheme for Initialization(基于在线聚类策略的文本聚类算法)

    xiaoxiao2021-04-14  69

    一、研究内容

             文本聚类广泛的应用于文本的检索,信息的抽取和人名消歧等方面。本文提出了一种基于在线聚类策略的文本聚类算法,即FGSDMM+. 该算法假设语料库中至多有  个潜在的类别,并在算法开始时,认为语料库中真的有 个潜在的类别。初始化过程中,第一个文本选择一个潜在的类别,同时FGSDMM+ 创造一个新的类别去存储这个文本;后来的文本,根据狄利克雷和多项分布的混合模型推导出是选择一个非空的类别,还是潜在的类别,每次文本选择一个潜在的类别时,FGSDMM+都会创建一个新的类别去存储这个文本,同时也减少了后来的文本选择潜在类别的概率。当数据集的所有文本都初始化后,通过吉布斯采样算法迭代几次得到最终的分类结果。本实验的结果展示,不管是短文本,还是长文本,都比k-means、LDA和GSDMM算法的聚类效果好。

    二 、算法的流程

     1. 狄利克雷和多项分布的混合模型(DMM)                          模型的参数:                              

           图一用公式表示形式如下:

                      

           公式的解释:

            (1) 是一个先验为狄利克雷分布的类别分布,类别分布是一个多项分布。

            (2) 从(1)的多项分布中选择一个类别。

            (3) 每个类别的文本分布也是一个先验为狄利克雷的多项分布

            (4) 根据指定的类别和该类别的文本的分布,得到文本。

      

        文档的生成过程:

           首先根据先验超参数为 的狄利克雷分布确定一个多项分布(类别分布),然后从这个类别分布中选择一个类别;类别中的文本也是一个超参数为 的狄利克雷分布确定的多项分布(文本的分布),最后从指定的类别中的文本分布中选择一个文本。

           从指定类别类别中选择文本,就有一下的限制,公式如下:

                                                      

          (1) 当文本的类别确定后,文本中的词的生成是独立的。

      (2) 文本的词的位置是独立的,也就是与位置无关。

    三、吉布斯采样算法推断后验分布

            我们使用吉布斯采样过程去推导狄利克雷和多项分布混合模型,并得到后验分布的概率公式,也就是文本属于每个类别的概率,为迭代过程做准备。 其推导公式如下:                                 公式 (7) 的第一部分是:                                                       公式 (7) 的第二部分:                                              整合后最终的结果为:                       

    一个文本选择一个潜在的类别 (原来未知的类别) 的概率如下

                        

    四、FGSDMM算法的流程

             实验证明,只要选择的最大类别数   比真实的类别数大, FGSDMM算法的效果就很好,一般会选择为语料库的文本数。FGSDMM的复杂度和非空类别的数量呈成正比。算法的具体过程过下:                                   

    五、FGSDMM+算法的流程

            由于FGSDMM算法存储每个文档中每个词的词频和每个类别的大小,数据集中的词汇数是很大,且最大类数 很大时,需要很多内存空间。FGSDMM在初始化文本时,随机的分配文本到 类别时,也引入了很多噪音到类别中。本文提出了一个FGSDMM+算法,在开始的时候并不为 个类别分配内存空间,每当文本选择一个潜在的类别时,才分配内存空间,存储这个文本中的词。算法的流程如下:                                                   

    六、总结

          本篇论文的实验数据集都是英文数据集,实验的效果不错,但是数据集中的文本都是短文本。我想利用该算法实现中文短文本的分类。希望翻译和理解的该论文对大家有帮助。想要看具体的论文就看参考文献。 参考文献:      http://www.kdd.org/kdd2016/papers/files/rpp0617-yinAemb.pdf
    转载请注明原文地址: https://ju.6miu.com/read-670530.html

    最新回复(0)