A Text Clustering Algorithm Using an Online Clustering Scheme for Initialization（基于在线聚类策略的文本聚类算法）

xiaoxiao2021-04-14 75

一、研究内容

文本聚类广泛的应用于文本的检索，信息的抽取和人名消歧等方面。本文提出了一种基于在线聚类策略的文本聚类算法，即FGSDMM+. 该算法假设语料库中至多有个潜在的类别，并在算法开始时，认为语料库中真的有个潜在的类别。初始化过程中，第一个文本选择一个潜在的类别，同时FGSDMM+ 创造一个新的类别去存储这个文本；后来的文本，根据狄利克雷和多项分布的混合模型推导出是选择一个非空的类别，还是潜在的类别，每次文本选择一个潜在的类别时，FGSDMM+都会创建一个新的类别去存储这个文本，同时也减少了后来的文本选择潜在类别的概率。当数据集的所有文本都初始化后，通过吉布斯采样算法迭代几次得到最终的分类结果。本实验的结果展示，不管是短文本，还是长文本，都比k-means、LDA和GSDMM算法的聚类效果好。

二、算法的流程

1. 狄利克雷和多项分布的混合模型(DMM) 模型的参数：

图一用公式表示形式如下：

公式的解释：

(1) 是一个先验为狄利克雷分布的类别分布，类别分布是一个多项分布。

(2) 从（1）的多项分布中选择一个类别。

(3) 每个类别的文本分布也是一个先验为狄利克雷的多项分布

(4) 根据指定的类别和该类别的文本的分布，得到文本。

文档的生成过程：

首先根据先验超参数为的狄利克雷分布确定一个多项分布（类别分布），然后从这个类别分布中选择一个类别；类别中的文本也是一个超参数为的狄利克雷分布确定的多项分布（文本的分布），最后从指定的类别中的文本分布中选择一个文本。

从指定类别类别中选择文本，就有一下的限制，公式如下：

(1) 当文本的类别确定后，文本中的词的生成是独立的。

(2) 文本的词的位置是独立的，也就是与位置无关。

三、吉布斯采样算法推断后验分布

我们使用吉布斯采样过程去推导狄利克雷和多项分布混合模型，并得到后验分布的概率公式，也就是文本属于每个类别的概率，为迭代过程做准备。其推导公式如下：公式 (7) 的第一部分是：公式 (7) 的第二部分：整合后最终的结果为：

一个文本选择一个潜在的类别 (原来未知的类别) 的概率如下：

四、FGSDMM算法的流程

实验证明，只要选择的最大类别数比真实的类别数大， FGSDMM算法的效果就很好，一般会选择为语料库的文本数。FGSDMM的复杂度和非空类别的数量呈成正比。算法的具体过程过下：

五、FGSDMM+算法的流程

由于FGSDMM算法存储每个文档中每个词的词频和每个类别的大小，数据集中的词汇数是很大，且最大类数很大时，需要很多内存空间。FGSDMM在初始化文本时，随机的分配文本到类别时，也引入了很多噪音到类别中。本文提出了一个FGSDMM+算法，在开始的时候并不为个类别分配内存空间，每当文本选择一个潜在的类别时，才分配内存空间，存储这个文本中的词。算法的流程如下：

六、总结

本篇论文的实验数据集都是英文数据集，实验的效果不错，但是数据集中的文本都是短文本。我想利用该算法实现中文短文本的分类。希望翻译和理解的该论文对大家有帮助。想要看具体的论文就看参考文献。参考文献： http://www.kdd.org/kdd2016/papers/files/rpp0617-yinAemb.pdf

转载请注明原文地址: https://ju.6miu.com/read-670530.html

技术

最新回复(0)