相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。
著名统计学家卡尔·皮尔逊设计了统计指标——相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
相关系数的几种定义
相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式。
简单相关系数:又叫相关系数或线性相关系数,一般用字母P 表示,是用来度量变量间的线性关系的量。
复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。
">编辑]相关系数的性质
(1)
![相关系数(图1) 相关系数(图1)](http://wiki.mbalib.com/w/images/math/7/4/c/74c4fb2f8a9fff2b6e143610d925bb75.png)
(2)定理: | ρ X Y | = 1的充要条件是,存在常数a,b,使得
![相关系数(图2) 相关系数(图2)](http://wiki.mbalib.com/w/images/math/3/9/5/395da209db6bc1c12eaaefb36624d760.png)
相关系数ρ X Y取值在-1到1之问,ρ X Y = 0时,
称X,Y不相关; | ρ X Y | = 1时,称X,Y完全相关,此时,X,Y之间具有线性函数关系; | ρ X Y | < 1时,X的变动引起Y的部分变动,ρ X Y的绝对值越大,X的变动引起Y的变动就越大, | ρ X Y | > 0.8时称为高度相关,当
![相关系数(图3) 相关系数(图3)](http://wiki.mbalib.com/w/images/math/e/6/7/e675153658640ab6b0e21b8bf030d866.png)
(3)推论:若Y=a+bX,则有
![相关系数(图4) 相关系数(图4)](http://wiki.mbalib.com/w/images/math/a/3/d/a3d7d012ca4a6a22509c76a5193990e1.png)
证明: 令 E( X) = μ, D( X) = σ2
则 E( Y) = bμ + a, D( Y) = b2σ2
E( X Y) = E( a X + b X2) = aμ + b(σ2 + μ2)
C o v( X, Y) = E( X Y) − E( X) E( Y) = bσ2
若b≠0,则
![相关系数(图5) 相关系数(图5)](http://wiki.mbalib.com/w/images/math/5/c/1/5c1a85509fe16d26ce3bbf472e3f37e0.png)
若b=0,则ρ X Y = 0。
相关系数的计算方法
相关系数的公式如下:
![相关系数(图6) 相关系数(图6)](http://wiki.mbalib.com/w/images/math/5/a/9/5a9c02e7fbcf242d33a52004f8f63a9b.png)
![相关系数(图7) 相关系数(图7)](http://wiki.mbalib.com/w/images/math/0/7/d/07d6fb200d51d18e0b89a6f7033ac79c.png)
![相关系数(图8) 相关系数(图8)](http://wiki.mbalib.com/w/images/math/b/9/4/b941c62a8ad0632636b7ea8d4ab8473d.png)
![相关系数(图9) 相关系数(图9)](http://wiki.mbalib.com/w/images/math/0/4/c/04c1a5c6354d743b2ecbf97d887d260b.png)
![相关系数(图10) 相关系数(图10)](http://wiki.mbalib.com/w/images/math/9/2/3/9235d343f6241e26b249bee5cda3fccf.png)
![相关系数(图11) 相关系数(图11)](http://wiki.mbalib.com/w/images/math/2/d/c/2dce389271df7bcea897684829e74dcb.png)
![相关系数(图12) 相关系数(图12)](http://wiki.mbalib.com/w/images/math/1/b/d/1bdf3b78c210ac0279e1bccc971181ad.png)
![相关系数(图13) 相关系数(图13)](http://wiki.mbalib.com/w/images/math/2/5/a/25af2916fc588d112f3a8172da4fecb6.png)
![相关系数(图14) 相关系数(图14)](http://wiki.mbalib.com/w/images/math/6/2/5/625b2a531804e757f807bf4ba5520bb4.png)
![相关系数(图15) 相关系数(图15)](http://wiki.mbalib.com/w/images/math/a/f/c/afc3f6cc31e51dbd1c2b936cfd0b446d.png)
![相关系数(图16) 相关系数(图16)](http://wiki.mbalib.com/w/images/math/6/8/1/68132c764edf25c8cc440a1fb2d40b38.png)
![相关系数(图17) 相关系数(图17)](http://wiki.mbalib.com/w/images/math/b/4/2/b4246aa3a92892da984e9db157e943d0.png)
相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:
当r>0时,表示两变量正相关,r<0时,两变量为负相关。当|r|=1时,表示两变量为完全线性相关,即为函数关系。当r=0时,表示两变量间无线性相关关系。当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。
例:某财务软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相关表,见表1:
表1 广告费与月平均销售额相关表 单位:万元
参照表1,可计算相关系数如表2:
![相关系数(图18) 相关系数(图18)](http://wiki.mbalib.com/w/images/math/4/4/3/44335b50ca3c7833ed427137d03f0285.png)
![相关系数(图19) 相关系数(图19)](http://wiki.mbalib.com/w/images/math/6/c/a/6ca4333faebdd8e03e0de3d1d51e80e0.png)
相关系数为0.9942,说明广告投入费与月平均销售额之间有高度的线性正相关关系。
">编辑]相关系数的应用
-
1.在概率论计算中的应用
例1.若将一枚硬币抛n次,X表示n次试验中出现正面的次数,Y表示n次试验中出现反面的次数。计算ρ X Y。
解:由于X+Y=n,则Y=-X+n,根据相关系数的性质推论,得ρ X Y = − 1。
例2.已知随机变量X、Y分别服从正态分布N(1,9),N(0,16)且X,Y的相关系数
![相关系数(图20) 相关系数(图20)](http://wiki.mbalib.com/w/images/math/1/c/d/1cd360638e7650e58b6d3bde6f317a9f.png)
设
![相关系数(图21) 相关系数(图21)](http://wiki.mbalib.com/w/images/math/8/f/1/8f1ddb27b3e52e637983f937d9d70974.png)
证明:由已知得E(X)=1,D(X)=9,E(Y)= 0, D( Y) = 16
![相关系数(图22) 相关系数(图22)](http://wiki.mbalib.com/w/images/math/2/8/d/28d437c400f409bb960655178e6685a0.png)
由于正态分布的随机变量的线性组合仍然服从正态分布,知Z是正态变量。
根据数学期望的性质有
![相关系数(图23) 相关系数(图23)](http://wiki.mbalib.com/w/images/math/4/3/c/43c386e3ff7649bc4880e1a71e3dff85.png)
根据方差的性质有
![相关系数(图24) 相关系数(图24)](http://wiki.mbalib.com/w/images/math/d/5/9/d59321c5813ef580893de3dc1d9d624d.png)
![相关系数(图25) 相关系数(图25)](http://wiki.mbalib.com/w/images/math/4/8/e/48ee5c0f23ec4fd0936d4f5bc2920797.png)
![相关系数(图26) 相关系数(图26)](http://wiki.mbalib.com/w/images/math/c/2/e/c2ef9b470eac106a5e43342dd25298a9.png)
由于 E( X Y) = C o v( X, Y) + E( X) E( Y) = − 6,
E( X2) = D( X) + 2 = 10
![相关系数(图27) 相关系数(图27)](http://wiki.mbalib.com/w/images/math/7/2/2/7221b64e4865ec306b4aeed7d9a3068a.png)
![相关系数(图28) 相关系数(图28)](http://wiki.mbalib.com/w/images/math/4/a/3/4a33e3cf6c2d00de876887f14fe9fe4d.png)
ρ X Z = 0,X,Z不相关。
由于正态随机变量的相互独立与互不相关等价,故X,Z相互独立。
因此,一般情况下两个随机变量不相关不一定相互独立。不相关仅指随机变量之问没有线性关系,而相互独立则表明随机变量之间互不影响,没有关系。
-
2.在企业物流上的应用
【例】一种新产品上市。在上市之前,公司的物流部需把新产品合理分配到全国的10个仓库,新品上市一个月后,要评估实际分配方案与之前考虑的其他分配方案中,是实际分配方案好还是其中尚未使用的分配方案更好,通过这样的评估,可以在下一次的新产品上市使用更准确的产品分配方案,以避免由于分配而产生的积压和断货。表1是根据实际数据所列的数表。
![相关系数(图29) 相关系数(图29)](http://wiki.mbalib.com/w/images/d/d8/%E8%A1%A81_%E4%BA%A7%E5%93%81%E5%88%86%E9%85%8D%E6%96%B9%E6%A1%88%E8%AF%84%E4%BC%B0.jpg)
通过计算,很容易得出这3个分配方案中,B的相关系数是最大的,这样就评估到B的分配方案比实际分配方案A更好,在下一次的新产品上市分配计划中,就可以考虑用B这种分配方法来计算实际分配方案。
-
3.在聚类分析中的应用
【例】如果有若干个样品,每个样品有n个特征,则相关系数可以表示两个样品问的相似程度。借此,可以对样品的亲疏远近进行距离聚类。例如9个小麦品种(分别用 A1, A2,..., A9表示)的6个性状资料见表2,作相关系数计算并检验。
![相关系数(图30) 相关系数(图30)](http://wiki.mbalib.com/w/images/0/0f/%E8%A1%A82_9%E4%B8%AA%E5%B0%8F%E9%BA%A6%E5%93%81%E7%A7%8D%E7%9A%846%E4%B8%AA%E6%80%A7%E7%8A%B6%E8%B5%84%E6%96%99.jpg)
由相关系数计算公式可计算出6个性状间的相关系数,分析及检验结果见表3。由表3可以看出,冬季分蘖与每穗粒数之间呈现负相关(ρ = − 0.8982),即麦冬季分蘖越多,那么每穗的小麦粒数越少,其他性状之间的关系不显著。
![相关系数(图31) 相关系数(图31)](http://wiki.mbalib.com/w/images/f/f5/%E8%A1%A83_6%E4%B8%AA%E6%80%A7%E7%8A%B6%E9%97%B4%E7%9A%84%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0.jpg)
相关系数的缺点
需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。
例如,就我国深沪两股市资产负债率与每股收益之间的相关关系做研究。发现1999年资产负债率前40名的上市公司,二者的相关系数为r=–0.6139;资产负债率后20名的上市公司,二者的相关系数r=0.1072;而对于沪、深全部上市公司(基金除外)结果却是,r沪=–0.5509,r深=–0.4361,根据三级划分方法,两变量为显著性相关。这也说明仅凭r的计算值大小判断相关程度有一定的缺陷。
参考文献
- ↑ 1.0 1.1 郭红霞.相关系数及其应用.武警工程学院学报.2010年3月,第26卷第2期
- ↑ 王爱莲.统计学.第七章 相关与回归分析.第一节 相关分析.西安石油大学.经济管理学院
-
相关文章