2017.04.03：数据仓库与数据挖掘03

xiaoxiao2021-03-25 303

DBSAN优点

1.与K-means方法相比，DBSCAN不需要事先知道要形成的簇类的数量。

2.与K-means方法相比，DBSCAN可以发现任意形状的簇类。

3.同时，DBSCAN能够识别出噪声点。

4.DBSCAN对于数据库中样本的顺序不敏感，即Pattern的输入顺序对结果的影响不大。但是，对于处于簇类之间边界样本，可能会根据哪个簇类优先被探测到而其归属有所摆动。

缺点：

1. DBScan不能很好反映高维数据。

2. DBScan不能很好反映数据集以变化的密度。

聚合层次聚类：最初每个对象自成一个族，然后根据族之间的距离，这些原子族进行合并。

划分层次聚类：最初所有对象都属于同一个族，然后对这个族进行划分。

BIRCH：通过扫描数据库，建立一个初始存放于内存中的聚类特征树，然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征（CF）和聚类特征树（CF Tree）。CF 是指三元组CF=（N，LS，SS），用来概括子簇信息，而不是存储所有的数据点。其中：N：簇中d 维点的数目； LS：N 个点的线性和；SS：N 个点的平方和。

Birch 算法主要分为以下两个阶段：

(1) 扫描数据库，动态的建立一棵存放在内存的CF 树。若内存不够，则增大阈值，在原树基础上构造一棵较小的树。

(2) 对叶节点进一步利用一个全局性的聚类算法，改进聚类质量。由于 CF 树的叶节点代表的聚类可能不是自然的聚类结果，原因是给定的阈值限制了簇的大小，并且数据的输入顺序也会影响到聚类结果。因此，需要对叶节点进一步利用一个全局性的聚类算法，改进聚类质量。

基于模型的聚类：利用一定的数学模型进行聚类。

GMM（GaussianMixture Model），高斯混合模型（或者混合高斯模型）。高斯模型就是用高斯概率密度函数（正态分布曲线）精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。

GMM vs K-Means：GMM除了将数据对象指派给某个族外，还给出了对象属于该族的概率。

SOM：自组织神经网络。当外界输入不同的样本数据到人工的自组织神经网络中，一开始，输入样本引起输出兴奋细胞的位置各不相同，但自组织后会形成一些细胞群，他们分别代表了输入样本，反映了输入样本的特征。

基于网格的聚类：使用一种多分辨率的网络数据结构。它将对象空间量化成有限数目的单元，这些网格形成了网格结构，所有的聚类结构都在该结构上进行。这种方法的主要优点是处理速度快，其处理时间独立于数据对象数，而仅依赖于量化空间中的每一维的单元数。

STING：利用网格单元保存数据统计信息，从而实现多分辨率的聚类

CLIQUE：是一种结合了网格和密度的聚类算法

转载请注明原文地址: https://ju.6miu.com/read-398.html

技术

最新回复(0)