高维数据处理

xiaoxiao2021-03-25 82

PCALDASOM - 取差异性对周围范围的邻居进行更新 MDSReliefFLLE和ISOMAP一些总结

PCA

非监督利用协方差矩阵寻找投射函数

ω使得投射到低维空间后的最大离散（方差）使用拉格朗日解不等式根据求得的特征值进行特征向量的选择一般求信息率90%以上的特征向量集对于N远大于D的数据，使用SVD（奇异值）进行求解先进行一次自乘降维再进行训练

监督性寻求使得类内方差最小并且类间差异性最大的投射空间

聚类方法

非监督降维注重数据的相对距离（关系），有利于流型数据的降维和可视化但对原数据整体结构破坏严重三个基本步骤：计算stress更新投射函数检查disparity

ReliefF处理多分类的情况，Relief只能处理两分类用于对特征进行赋权，通过权值进行过滤算法输入: 数据集D, 包含c类样本，子集采样数m，权值阈值

δ , kNN系数k算法步骤： initial

W(Ai)=0 ;for 1 to m, sample x from D: label of x is yform dataset H and M, k near-hit

(Hj,j=0,1,2...k) and k near-miss

(Mj(c),c=0,1,2...C) for feature

Ai in all features:

W(Ai)=W(Ai)−∑Jdiff(A,R,Hj)mk+∑C≠class(R)p(C)1−P(class(R))∑Jdiff(A,R,HJ(c))mk

diff(A,R1,R2)=⎧⎩⎨⎪⎪⎪⎪|R1(A)−R2(A)|max(A)−min(A)； if A is continues0； if R1=R2 and A is discrete1； if R1≠R2 and A is discrete end forend forif

W(A)≥δ , add to feature set, otherwise filterout

高纬度数据建模的基本思想是寻找函数

f(x) ：

f(x) 将数据投射到一个低维的空间在低维空间中数据的某些特征可以保持方法的选择：注重降低维度并提高数据的可分析性则使用PCA，对于大量数据使用SVD注重类间区分和类内区分，则使用LDA注重数据的相互关联，并且数据复杂不可分，则使用MDS对于流形，使用LLE和IOSMAP

转载请注明原文地址: https://ju.6miu.com/read-39105.html

最新回复(0)