浅谈分类中差异性(距离)

    xiaoxiao2021-03-25  80

    问题一:从实际问题出发

    现实生活中,我们往往能够找到很多分类的例子。假设某个疾病只跟k个因素有关,那么我们通过获取病人这k个因素的数据和不生病人k个因素的取值,可以建立起一个判别函数。当我们有一个检测样本进来的时候,我们通过k个因素的取值和检测函数就能最终判别出该样本的情况。

     

    问题二:数据属性差异性的刻画

    比较典型的算法是knn算法,我们通过计算未知数据周围最近的k个数据进行投票,最终确定出未知点的分类。所以,如何找到离未知数据最相似的k个点成为我们需要解决的问题。

    我们需要找到一个合适的距离计算来进行刻画对象的差异性,我们将分几种情况进行讨论:标称属性、二元属性、数值属性、序列属性。

    (一)标称属性

    当我们的数据属性如下图所示,为混合类型的样本时,对于test_1这类标称属性,我们可以采取不匹配率来进行计算数据间的差异性。m是匹配的数目,p是刻画对象的属性总数。

     

    (二)二元属性

     

    其中q表示对象ij都是取1(正匹配),t表示对象ij都是取0(负匹配)。在一些实际问题中,病情去1(阳性)会比取0(阴性)更加重要,所以对于非对称二元属性,两种状态不是一样重要,因此我们可以把相异性公式的分母简化。二元属性是指只有两种状态,01。其中0表示属性不出现,1表示属性出现。我们可以通过该方法计算出相似度sim(i,j) = 1 - d(i,j),称为Jaccard系数。

    (三)数值属性

     

    1、欧式距离

    如上图公式所示,欧式距离是h2的时候。

    2、曼哈顿距离

    又称城市快距离,是h1的情况。

    3、闵可夫斯基距离

    闵可夫斯基距离是欧式和曼哈顿的推广,定义就是图所示。

    4、上界距离

    上界距离又称切比雪夫距离,取max曼哈顿距离

    5、马氏距离

    但是在统计分析与计算情况中,我们如果还是采用简单的欧式距离或者曼哈顿距离就有点错误了。如下图所示,这是两个正态分布,u分别是04,方差为14,那么我们现在有个未知数据A点,A在距离上会比0近,那么我们就把A归为1类了吗?

    从概率统计角度来讲,A离二类会更加近。因此,对于概率分布的问题,应用马氏距离会更加适合计算

     

    (四)序列属性

    有些属性之间是具有意义的序或者排位的,比如说上图(混合型表格)的test_2中的成绩,分为良、好、优三类。三类是具有排序意义的,共有M = 3种状态。我们用数值表示排位顺序r = {1,2...,m}代替本来的良好优。并对排位顺序进行数据格式化,zi =ri - 1/M - 1)。

    则优对应为 z= 3-1/3-1= 1

    转载请注明原文地址: https://ju.6miu.com/read-40253.html

    最新回复(0)