相關係數0.75怎麼來的(51相關係數)
2023-07-26 04:13:30 2
介紹兩種最為常用的相關係數:皮爾遜person相關係數和斯皮爾曼spearman等等級相關係數。他們可以用來衡量兩個變量之間的相關性的大小,根據數據滿足不同的條件,我們要選擇不同的相關係數進行計算和分析。(建模論文中最容易用錯的方法)
1、總體和樣本總體——所要考察對象的全部個體叫做總體.
我們總是希望得到總體數據的一些特徵(例如均值方差等)
樣本——從總體中所抽取的一部分個體叫做總體的一個樣本.
計算這些抽取的樣本的統計量來估計總體的統計量:
例如使用樣本均值、樣本標準差來估計總體的均值(平均水平)和總體的標準差(偏離程度)。 例子: 我國10年進行一-次的人口普查得到的數據就是總體數據。 大家自己在QQ群發問卷叫同學幫忙填寫得到的數據就是樣本數據。
2、總體皮爾遜Person相關係數回顧《概率論與數理統計》中的數理統計部分: 如果兩組數據和是總體數據(例如普查結果)
那麼總體均值:
總體協方差:
直觀理解協方差:如果X、Y變化方向相同,即當X大於(小於)其均值時,Y也大於(小於)其均值,在這兩種情況下,乘積為正。如果X、Y的變化方向一直保持相同,則協方差為正;同理,如果X、 Y變化方向一直相反,則協方差為負;如果X、Y變化方向之間相互無規律,即分子中有的項為正,有的項為負,那麼累加後正負抵消。
注意:假設X,Y變化方向一直相同,說明它們存在很強的正相關或負相關,但是協方差的大小和兩個變量的量綱有關,因此不適合做比較。
總體皮爾遜相關係數就是在總體協方差的基礎上消去量綱的影響
2.1 總體皮爾遜相關係數計算如果兩組數據和是總體數據(例如普查結果)
那麼總體均值:
總體協方差:
所以,定義總體皮爾遜Person相關係數為:
其中,就是對X、Y的標準差
我們知道就是用來標準化數據的,因此皮爾遜相關係數可以看作是剔除了兩個變量量綱的影響,即X和Y標準化之後的協方差。
而且可以證明
3、樣本皮爾遜Person相關係數如果兩組數據和是樣本數據(例如調查得到的數據)
那麼樣本均值:
樣本協方差:
所以,定義樣本皮爾遜Person相關係數為:
其中,就是對X、Y的樣本標準差
4、相關性可視化從圖中我們可以看出,散點圖為一條直線,即y與x的關係可以描述為y=kx b,相關性為1或-1,而越小於1的絕對值,相關性1越不顯著,散點圖越離散
實際上皮爾遜相關係數反應的是線性係數
5、關於皮爾遜相關係數的理解誤區上面四個圖的皮爾遜相關係數均為0.816
但是,可以發現第二幅圖(橫向)明顯是一個拋物線的這種相關性,直線很難刻畫它,第三幅圖出現了一個異常值,離散於其他的點,假如去掉這個離群點,相關係數可能會更大,因為其他的點還是服從於這條直線的;第四幅圖也出現了一個異常值,但是這個異常值對整體結果影響特別大,假如去掉這個異常值,x和y之間的相關係數應該是0。
也就是說異常值對皮爾遜相關係數的影響是很大的,我們也不能單純靠皮爾遜相關係數來理解數據。
再來看一張圖,冰激凌銷售量和氣溫之間的關係
冰激凌銷售量和氣溫之間的關係
這個數據計算出來的皮爾遜相關係數為0,但我們不能說x和y之間沒有關係,它們大致是服從於一個拋物線的。
因此這裡需要特別注意:
這裡的相關係數只是用來衡量兩個變量線性相關程度的指標;也就是說,你必須先確認這兩個變量是線性相關的,然後這個相關係數才能告訴你他倆相關程度如何。(1)因此得先畫散點圖,說明這兩個變量之間是線性的,說明有線性關係
(2)然後再來計算皮爾遜相關係數來刻畫相關程度
5.1總結:(1)非線性相關也會導致線性相關係數很大
(2)離群點對相關係數的影響很大,
(3)如果兩個變量的相關係數很大也不能說明兩者相關,可能是受到了異常值的影響。
(4)相關係數計算結果為0,只能說不是線性相關,但說不定會有更複雜的相關關係(非線性相關)。
5.2再來強調一下:(1) 如果兩個變量本身就是線性的關係,那麼皮爾遜相關係數絕對值大的就是相關性強,小的就是相關性弱;
(2)在不確定兩個變量是什麼關係的情況下,即使算出皮爾遜相關係數,發現很大,也不能說明那兩個變量線性相關,甚至不能說他們相關,我們一定要畫出散點圖來看才行。
6、對相關係數大小的解釋相關性 | 負 | 正數 |
無相關性 | -0.09~0.0 | 0.0~0.09 |
弱相關性 | -0.3~0.1 | 0.1~0.3 |
中相關性 | -0.5~0.3 | 0.3~0.5 |
強相關性 | -0.5~1 | 0.5~1 |
上表所定的標準是主觀性和不嚴格的,對相關係數的解釋是依賴於具體的應用背景和目的的。上表只做參考
事實上,比起相關係數的大小,我們更加關注的是顯著性(假設檢驗)
7.描述性統計計算係數之前需要做一些描述性統計,如下
matlab常用描述性統計函數
對各列數據計算一一些統計量,一般使用上面加粗的那幾個
可以將下面的描述性統計表格放到論文中:
身高 | 體重 | 肺活量 | 50米跑 | 立定跳遠 | 坐位體前屈 | |
最小值 | 135 | 16 | 1450 | 7.8 | 52 | 0.5 |
最大值 | 171 | 65 | 3272 | 15 | 205 | 17.5 |
均值 | 156.0033841 | 46.78341794 | 2333.233503 | 10.79201354 | 166.8257191 | 9.496615905 |
中位數 | 157 | 47 | 2391 | 10.7 | 167 | 9.6 |
偏度 | -0.295393671 | -0.360686808 | -0.285228204 | 0.709545507 | -0.836873414 | -0.224969278 |
峰度 | 2.742704116 | 9.43558535 | 2.751974067 | 3.299413754 | 8.431328913 | 2.755030069 |
標準差 | 7.389409879 | 5.031473399 | 350.4361539 | 1.310872852 | 16.81358657 | 2.938186121 |
藉助假設檢驗,我們對相關係數進行顯著性檢驗:
第一步:提出原假設H0和備擇假設H1 (兩個假設是截然相反的哦)假設我們計算出了一個皮爾遜相關係數r,我們]想檢驗它是否顯著的異於0.那麼我們可以這樣設定原假設和備擇假設: H0:r = 0,H1:r≠0
第二步:在原假設成立的條件下,利用我們要檢驗的量構造出一個符合某個分布的統計量(注1:統計量相當於我們要檢驗的量的一個函數,裡面不能有其他的隨機變量) (注2:這裡的分布一般有四種:標準正態分布、t分布、分布和F分布)
對於皮爾遜和關係數r而言,在滿足一定條件下,我們可以構造統計量:(言外之意就是首先要進行條件檢驗)
其中n就是樣本量,是一個常量,這個分布是自由度為n-2的標準正態分布
第三步:將我們要檢驗的這個值帶入這個統計量中,可以得到一個特定的值(檢驗值)。假設我們現在計算出來的相關係數為0.5,樣本為30,那麼我們可以得到第四步:由於我們知道統計量的分布情況,因此我們可以畫出該分布的概率密度函數pdf,並給定一個置信水平,根據這個置信水平查表找到臨界值,並畫出檢驗統計量的接受域和拒絕域。例如,我們知道上述統計量服從自由度為28的t分布,其概率密度函數圖形如下:
自由度為28的t分布概率密度函數圖形
代碼:
x = -4:0.4:4; y = tpdf(x, 28); plot(x,y,'-') grid on % 加上網格線
第四步:由於我們知道統計量的分布情況,因此我們可以畫出該分布的概率密度函數pdf,並給定一個置信水平,根據這個置信水平查表找到臨界值,並畫出檢驗統計量的接受域和拒絕域。常見的置信水平有三個:90%, 95%和99%, 其中95%是三者中最為常用的。
因為我們這裡是雙側檢驗,所以我們需要找出能覆蓋0.95概率的部分
t分布表: https://wenku.baidu.com/view/d94dbd116bd97f192279e94a.html,這個表裡的是單側檢驗,所以我們需要找到概率為0.975,自由度為28的臨界值
查表可知,對應的臨界值為2.048,因此我們可以做出接受域和拒絕域。
第五步:看我們計算出來的檢驗值是落在了拒絕域還是接受域,並下結論。因為我們得到的t* = 3.05505 > 2.048,因此我們可以下結論:在95%的置信水平上,我們拒絕原假設H0:r = 0,因此r是顯著的不為0的。在第四步需要去查表,其實我們還有一種不需要查表的方法:P值判斷法:
P值判斷法剛剛的例子是雙側檢驗,所以對於P值的計算和單側檢驗略有不同:P_value = (1 - tcdf(3.05505, 28))*2 % 雙側檢驗P值 最終計算結果為 0.0049% P_value = 1 - tcdf(3.05505, 28) 單側檢驗P值
P值 = 0.0049<0.05,即在95%的置信水平上拒絕原假設在本例中,拒絕原假設就表示顯著的異於0.p0.01,在99%的置信水平上無法拒絕原假設 |
p0.05,在95%的置信水平上無法拒絕原假設 |
p0.10,在90%的置信水平上無法拒絕原假設 |
補充:代表什麼意思?(顯著性標記)
0.5就代表不顯著
0.5^*就代表在90%的置信水平上顯著(也就是拒絕原假設),依次類推
0.1~0.05之間*,0.05-0.01之間**,<0.01***
***P<0.01,**P<0.05,*P30
雅克-貝拉檢驗(Jarque -Bera test)
對於一個隨機變量,假設其偏度為S,峰度為K,那麼我們可以構造JB統計量:
可以證明,如果\{X_i\}是正態分布,那麼在大樣本情況下JB~( 自由度為2的卡方分布)
注:正態分布的偏度為0,峰度為3
那麼進行假設檢驗的步驟如下:
H0:該隨機變量服從正態分,H1:該隨機變量不服從正態分布然後計算該變量的偏度和峰度,得到檢驗值JB*,並計算出其對應的p值將p值與0.05比較,如果小於0.05則可拒絕原假設,否則我們不能拒絕原假設。偏度和峰度
matlab實現JB檢驗:
MATLAB中進行JB檢驗的語法: [h,p] = jbtest(x,alpha) 當輸出h等於1時,表示拒絕原假設(不滿足正態分布); h等於0則代表不能拒絕原假設(滿足正態分布)。
alpha就是顯著性水平,一般取0.05,此時置信水平為1-0.05=0.95
x就是我們要檢驗的隨機變量,注意這裡的x只能是向量。
10.2 Shapiro-wilk檢驗 小樣本檢驗步驟:
H0:該隨機變量服從正態分,H1:該隨機變量不服從正態分布然後計算威爾克統計量,並計算出其對應的p值將p值與0.05比較,如果小於0.05則可拒絕原假設,否則我們不能拒絕原假設10.3 Q-Q圖——不推薦使用在統計學中,Q-Q圖(Q代表 分位數Quantile)是一種通過比較兩個概率分布的分位數對這兩個概率分布進行比較的概率圖方法。
首先選定分位數的對應概率區間集合,在此概率區間上,點(x,y)對應於第一個分布的一個分位數x和第二個分布在和x相同概率區間上相同的分位數。
這裡,我們選擇正態分布和要檢驗的隨機變量,並對其做出Q-Q圖,可想而知,如果要檢驗的隨機變量是正態分布,那麼Q-Q圖就是一條直線。
要利用Q-Q圖鑑別樣本數據是否近似於正態分布,只需看Q-Q圖上的點是否近似地在一條直線附近。(要求數據量非常大,遠大於30)
,