变量之间的关联关系如下:
1.相关关系。
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫做相关关系.即相关关系是一种非确定性关系。
当一个变量的值由小变大时,另一个变量的值也由小变大,则这两个变量正相关。
当一个变量的值由小变大时,而另一个变量的值由大变小,则这两个变量负相关。
【注意】相关关系与函数关系的异同点:
共同点:二者都是指两个变量间的关系。
不同点:函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系。
2.散点图。从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在从左上角到右下角的区域内,两个变量的相关关系为负相关。
什么是相关关系:
相关关系指多个变量间的变化有关联,其按某种规律在一定范围内变化的关系。有相关性、哪怕是很强的相关性也不能代表因果关系,我们只能依据相关的情况推测。
相关关系在生活中最广泛,几乎涵盖了生活中的方方面面,很多人也会把相关关系当作因果关系。
下面这两个非常好的笑话可以帮助理解相关关系与因果关系的差别:
①家门前的大树年年长大,国家经济年年增高,所以这棵大树影响国家经济。
②每年都有大量去过医院的人生病,所以医院和生病有相关关系,那是不是大家都不去医院就不会生病了?
大家都知道,不管经济持平还是下降,大树都会长大或者死亡,并不存在因果关系;正是由于人生病了要去医院,所以医院才有那么多病人,但是这并不代表“去医院”是“生病”的原因。
一、变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
二、两个变量的线性相关1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.当r>0时,表明两个变量正相关当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
1. 变量之间关系可以分为两类:函数关系:反映了事务之间某种确定性关系。
相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;
2. 为什么要对相关系数进行显著性检验?
实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。
当样本数较少,相关系数就很大。当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;
改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理,标准化处理,不会影响相关系数;我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量;
3. 增加变量个数,R2会增大;P值,F值只要满足条件即可,不必追求其值过小;
4. 多重共线性与统计假设检验傻傻分不清?
多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性;回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难;比如y~x1+x2;x·1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响;而x1与x2高度相关,就会解释没有意义。
一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。
5. 时间序列数据会自发呈现完全共线性问题,所以我们用自回归分析方法;