2017.04.03:数据仓库与数据挖掘03

    xiaoxiao2021-03-25  192

    DBSAN优点

    1.与K-means方法相比,DBSCAN不需要事先知道要形成的簇类的数量。

    2.与K-means方法相比,DBSCAN可以发现任意形状的簇类。

    3.同时,DBSCAN能够识别出噪声点。

    4.DBSCAN对于数据库中样本的顺序不敏感,即Pattern的输入顺序对结果的影响不大。但是,对于处于簇类之间边界样本,可能会根据哪个簇类优先被探测到而其归属有所摆动。

    缺点:

    1. DBScan不能很好反映高维数据。

    2. DBScan不能很好反映数据集以变化的密度。

     

    聚合层次聚类:最初每个对象自成一个族,然后根据族之间的距离,这些原子族进行合并。

    划分层次聚类:最初所有对象都属于同一个族,然后对这个族进行划分。

     

    BIRCH:通过扫描数据库,建立一个初始存放于内存中的聚类特征树, 然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征(CF)和聚类特征树(CF Tree)。CF 是指三元组CF=(N,LS,SS),用来概括子簇信息,而不是存储所有的数据点。 其中:N:簇中d 维点的数目; LS:N 个点的线性和;SS:N 个点的平方和。

    Birch 算法主要分为以下两个阶段:

    (1) 扫描数据库,动态的建立一棵存放在内存的CF 树。若内存不够,则增大阈值,在 原树基础上构造一棵较小的树。

    (2) 对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。 由于 CF 树的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇 的大小,并且数据的输入顺序也会影响到聚类结果。因此,需要对叶节点进一步利用一个全 局性的聚类算法,改进聚类质量。

     

    基于模型的聚类:利用一定的数学模型进行聚类。

    GMM(GaussianMixture Model),高斯混合模型(或者混合高斯模型)。高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。

    GMM vs K-Means:GMM除了将数据对象指派给某个族外,还给出了对象属于该族的概率。

     

    SOM:自组织神经网络。当外界输入不同的样本数据到人工的自组织神经网络中,一开始,输入样本引起输出兴奋细胞的位置各不相同,但自组织后会形成一些细胞群,他们分别代表了输入样本,反映了输入样本的特征。

     

    基于网格的聚类:使用一种多分辨率的网络数据结构。它将对象空间量化成有限数目的单元,这些网格形成了网格结构,所有的聚类结构都在该结构上进行。这种方法的主要优点是处理速度快,其处理时间独立于数据对象数,而仅依赖于量化空间中的每一维的单元数。

    STING:利用网格单元保存数据统计信息,从而实现多分辨率的聚类

    CLIQUE:是一种结合了网格和密度的聚类算法

    转载请注明原文地址: https://ju.6miu.com/read-398.html

    最新回复(0)