具体详述可见,提出该算法的论文 Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution
FCBF算法: 全称 Fast Correlation-Basd Filter Solution, 是一种快速过滤的特征选择算法,一种基于symmetrical uncertainty(SU)的方法。算法步骤如下: 1. 计算每个特征 Fi 与目标C之间的相关性 SUFi,c ,计算公式如下:
SU(X,Y)=2IG(X,Y)E(X)+E(Y) IG(X,Y)=E(X)−E(X|Y) , E(X)=−∑ci=1P(xi)∗log2(P(xi)) E(X|Y)=−∑i=1CyP(yi)∑j=1cP(xj|yi)log2(P(xj|yi)) 其中IG(X,Y)就代表信息增益,E(X)代表信息熵。 P(Xi) 代表X的值取i时的概率,c为类别数。 2. 然后将相关度大于预先设好的阈值δ的特征选择出来。 3. 将 SUFi,c 按从大到小的顺序排列,并依次计算每个特征 Fi 与排序中小于 SUFi,c 的其他所有特征 Fj 之间的相关性 SUFi,Fj 。 if SUFi,c>SUFj,c then compute SUFi,Fj 4. 删除掉SUi,j大于SUj,c的特征Fj,最后得到特征子集。 if SUFi,Fj>SUFj,c then delete feature Fj该方法的优势在于一对冗余特征 Fi,Fj 中,保留与目标C相关性更大的特征 Fi ,剔除相关性更小的特征,同时利用相关度更高的特征 Fi 去筛选其他特征,也减少了时间复杂度,因此是一种快速过滤特征选择算法。