統計學操作大全(統計學基礎補漏)
2023-05-18 05:47:19
統計學操作大全?《量化投資:以python為工具》第二部分筆記,接下來我們就來聊聊關於統計學操作大全?以下內容大家不妨參考一二希望能幫到您!
統計學操作大全
《量化投資:以python為工具》第二部分筆記
通過分析有限樣本數據來推測總體的特徵是統計推斷要解決的主要問題,也是整個統計分析的精髓所在。 數據分為定性數據和定量數據。
數據的位置
算術平均數:所有數據相加後除以數據量。
幾何平均數:所有數據相乘後開n次方。
中位數:數據排序後位於中間的數值,若為偶數個,則為中間兩個數的平均數。
眾數:數據中數量最多的數。
百分位數:數據中相應百分比的數小於該數。
數據的離散度
極差:最大值與最小值之差。
平均絕對偏差:數據與平均值的差的絕對值的平均值。
方差:數據與均值之差的平方的平均值(但除以n-1而不是除以n)。
標準差:方差的平方根。 可以用numpy的random模塊中的choice來生成特定的服從特定概率質量函數的隨機數。
隨機變量的期望值是隨機變量所有可能值之乘積,是總體的中心位置。方差則是隨機變量與期望之差的平方的期望值。
伯努利分布:np.random.binomial進行多次伯努利實驗的結果。
正態分布:正態分布變量的線性變換仍然符合正態分布。np.random.normal來生成。
卡方分布:n個獨立的正態分布變量的平方之和符合卡方分布。n為自由度。卡方分布為偏態分布,以0為起點,非對稱的。
t分布:以0為中心,對稱分布,自由度越小,分布越分散。
F分布:非對稱分布。
聯合概率分布:兩個變量分別取值時的概率。期望值也類似。
變量的獨立性:聯合概率值等於兩個變量分別的概率值之積時,兩變量獨立。 兩變量之間的關係可以用協方差來衡量,描述兩隨機變量與各自期望值之差的共同變動狀況。若為正,兩變量同方向變動,反之則兩變量向相反方向變動。但協方差受比例的影響,不能直接衡量兩變量之間相關性的強弱。引入相關係數,用協方差除以兩變量的標準差之積。取值範圍為[-1,1]。絕對值越大線性相關性越強,為0代表線性不相關,但也有可能有非線性相關。
推斷統計包括參數估計和假設檢驗。 參數估計是用樣本數據來估計變量的概率分布。參數估計有點估計和區間估計兩種形式。 點估計更加直觀,但與真實值有偏差。區間估計往往包含準確值,但沒那麼直觀。
假設檢驗的著重點在於檢驗參數的取值是否等於某個目標值。
兩個隱含的思想:小概率事件和反證法。
t檢驗:標準差未知,服從正態分布的總體的均值。常用的有單樣本t檢驗,配對樣本t檢驗,獨立樣本t檢驗。
多個變量之間的定性分析——方差分析,其重點不在預測,而在於分析和比較各組間的差異。 python用statsmodel中的anova來實現方差分析。
回歸分析,當一個連續型變量變化時,另一個連續型變量會變多少。python擬合線性模型用statsmodels中的ols類完成。
總結一下:概率統計學主要是三個部分,統計描述用來對數據進行描述,主要是描述數據的集中和離散情況,隨機變量分布情況。統計推斷,對變量的情況進行推斷,包括參數估計和假設檢驗。還有回歸分析,研究變量之間的相關關係。具體的用到再說。
本文代碼: https://github.com/zwdnet/MyQuant/tree/master/08
,