数学建模之相关性分析

参考链接:https://blog.csdn.net/ddjhpxs/article/details/105767589

person相关系数和spearman等级相关系数。
可以用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析

皮尔逊相关系数

先来看两个概念

总体—-所要考察对象的全部个体叫做总体。我们总是希望得到总体数据的一些特征(例如均值方差等)
样本—–从总体中所抽取的一部分个体叫做总体的一个样本
计算这些抽取的样本的统计量来估计总体的统计量:
比如使用样本均值、样本标差来估计总体的均值(平均水平)和总体的标准差(偏离程度)

总体的person相关系数

在这里插入图片描述
在这里插入图片描述


注意:协方差的大小和两个变量的量纲有关,因此在受到量纲的影响时不适合做比较。

因为X,Y的标准差的单位和X,Y一样,则用总体协方差除以X,Y的标准差就可以消除量纲的影响。
则皮尔逊系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差

样本person系数

在这里插入图片描述


这里应该注意:样本的方差分母为n-1

散点图判断x和y之间的关系

在这里插入图片描述


由图可以看出,当相关系数的绝对值越接近1,就越接近于直线。

关于皮尔逊相关系数的一些误区

皮尔逊相关系数只是用来衡量两个变量新型相关程度的指标;也就是说,你必须先确认
这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何。

在这里插入图片描述
在这里插入图片描述


则如上图可以发现
1.非线性相关也会导致线性相关系数很大,列如图1中的第二个图。
2.离群点对相关系数的影响很大。例如图1中的图3.且去掉离群点后,相关系数为0.98。
3.如果两个变量的相关系数很大也不能说明两者相关。列如图1中的图4.
4.香菇按系数计算结果为0,只能说明不是线性相关,但说不定会有更复杂的相关关系(非线性相关)。列入图2.

总结

  • 如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大就是相关行强,小就是相关性弱。
  • 在不确定两个变量是什么关系的情况下就算算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关。甚至不能说他们相关,我们一定要画出散点图来看才行。

例题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


首先要注意应该进行描述性统计

除了用Matlab来进行描述性统计,还可以用Excel或者spss来进行。
Excel:需要在开始->选项->加载项->数据分析中打开数据分析。
SPSS:

皮尔逊相关系数的计算

别忘了应该先判断指标间是否为线性关系

画散点图

在这里插入图片描述

因为这里的指标较多,因此选用SPSS来做散点图。

corrcoef函数

R=corrcoef(A)
返回A的相关系数的矩阵,其中A的列表表示随机变量(指标),行表示观测值(样本)。
R=corrcoef(A,B)
返回两个随机变量A,B之间的系数。

在这里插入图片描述
在这里插入图片描述

而这里我们要计算的六个指标的相关系数,只需使用R=corrcoef(A);

数据可以用Excel进行美化,过程如下。

发表评论

邮箱地址不会被公开。 必填项已用*标注