【R语言】新手快速理解相关分析(一)

    xiaoxiao2021-03-25  46

    其实相关分析顾名思义,就是观察两个变量之间的关系是不是相关: 和函数关系的区别是,相关分析并不一定是严格的函数关系(或者说并非因果关系):函数关系是指因变量的值会随着某个自变量的值而改变; 相关关系是指当某一个标志值改变时,另一个标志值有可能发生改变,简单来说,相关关系就是两个标志值被同时观测到有关系的几率有多大,而这个关系有多密切。

    举个例子,爸爸妈妈的身高比较高,那么他们的孩子(设为A孩子)的身高也可能比较高,但是爸爸妈妈的身高比较矮的时候,他们的孩子(设为B孩子)身高也可能比较矮;那么如果按照函数关系来讲,A孩子的身高会比B孩子的身高要高,但是现实中并不一定是这样,有时候可能B孩子的身高会比A孩子的高,而爸爸妈妈的身高和孩子的身高只是一个不确定性的相关关系,而不是严格的因果关系,影响孩子的身高还有很多很多因素,你不能单纯地说因为父母的身高如何,导致孩子的身高如何,只能说父母的身高与孩子的身高有相关性

    所以做相关分析的时候,需要进行两个步骤: (1) 当某一标志值改变时,另一个标志值可能会发生怎样的变动,影响的强度怎样; 再拿孩子的身高举例子,A孩子的爸爸妈妈身高比较高,但是爷爷奶奶的身高比较矮,那么A孩子的身高是受爸爸妈妈的影响比较大呢,还是受爷爷奶奶的身高比较大呢?这就是一个影响强度的问题;

    所以这种强弱的程度可以用一个相关系数r来表示,r的取值范围在[-1:1],不同的范围有不同的解释: ① 当|r|<1,证明两个变量之间有相关关系,r为负时负相关,r为正时正相关,|r|越靠近1,两个变量之间的相关更密切 ② 当|r|=1,证明两个变量之间完全相关,也就是因变量随着自变量的变动而变动 ③ 当r=0时,证明两个变量之间不存在线性相关关系(但是不排除存在非线性关系)

    而r的计算过程就是: ① 抽样—获取n个家庭的父母和孩子的身高 ② 计算出r相关系数(至于怎么计算,每一种相关分析都不一样,所以先了解概念,接下来的文章会详细说每一种相关分析) (2) 当某一标志值改变时,另一个标志值发生的变动明不明显; 再一次拿孩子的身高举例子,到底在样本中,父母的身高与孩子的身高有关联的发生概率有多大?是不是能达到一个比较大的概率来说明父母的身高与孩子的身高有关联? 所以这里会做一个显著性检验,去检验在样本当中,父母的身高与孩子的身高有关联的几率,显著性检验的过程可以分成三步: ①假设 原假设H0:孩子的身高和父母的身高是没有关系的,即r=0 (相关分析做假设检验的时候,原假设都是:两变量之间没有显著关系(没有为什么,既定的,你尽管看能不能拒绝原假设就好)) 备择假设H1:孩子的身高和父母的身高是有关系的,即r≠0

    ②计算统计量t:

    ③根据t查表得到显著性水平α,做出决策

    所以总结一下,进行相关分析就两步: (1) 计算相关系数r (2) 计算显著水平α

    谨记,r和α并没有什么逻辑关系,用大白话说就是r是表示两变量之间的关系密不密切,α表示的是两变量之间的关系靠不靠谱(靠谱就是这个关系发生的几率比较大啰,要是关系不靠谱,即使关系影响密切也没有用,不存在普遍性)

    接下来就是详细讲Pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关

    转载请注明原文地址: https://ju.6miu.com/read-50379.html

    最新回复(0)