@@ -145,52 +145,54 @@ plt.show()
145
145
146
146
### 相关性判定
147
147
148
- 在统计学中,我们通常使用协方差(covariance)来衡量两个随机变量的联合变化程度。如果变量 $X $ 的较大值主要与另一个变量 $Y $ 的较大值相对应,而两者较小值也相对应,那么两个变量倾向于表现出相似的行为,协方差为正。如果一个变量的较大值主要对应于另一个变量的较小值,则两个变量倾向于表现出相反的行为,协方差为负。简单的说,协方差的正负号显示着两个变量的相关性。方差是协方差的一种特殊情况,即变量与自身的协方差。
148
+ 在统计学中,我们通常使用协方差(covariance)来衡量两个随机变量的联合变化程度。如果变量 $\small{X} $ 的较大值主要与另一个变量 $\small{Y} $ 的较大值相对应,而两者较小值也相对应,那么两个变量倾向于表现出相似的行为,协方差为正。如果一个变量的较大值主要对应于另一个变量的较小值,则两个变量倾向于表现出相反的行为,协方差为负。简单的说,协方差的正负号显示着两个变量的相关性。方差是协方差的一种特殊情况,即变量与自身的协方差。
149
149
150
150
$$
151
151
cov(X,Y) = E((X - \mu)(Y - \upsilon)) = E(X \cdot Y) - \mu\upsilon
152
152
$$
153
153
154
- 如果 $X $ 和 $Y $ 是统计独立的,那么二者的协方差为0 ,这是因为在 $X $ 和 $Y $ 独立的情况下:
154
+ 如果 $\small{X} $ 和 $\small{Y} $ 是统计独立的,那么二者的协方差为 0 ,这是因为在 $\small{X} $ 和 $\small{Y} $ 独立的情况下:
155
155
156
156
$$
157
157
E(X \cdot Y) = E(X) \cdot E(Y) = \mu\upsilon
158
158
$$
159
159
160
- 协方差的数值大小取决于变量的大小,通常是不容易解释的,但是正态形式的协方差可以显示两变量线性关系的强弱。在统计学中,皮尔逊积矩相关系数就是正态形式的协方差,它用于度量两个变量 $X $ 和 $Y $ 之间的相关程度(线性相关),其值介于` -1 ` 到 ` 1 ` 之间。
160
+ 协方差的数值大小取决于变量的大小,通常是不容易解释的,但是正态形式的协方差可以显示两变量线性关系的强弱。在统计学中,皮尔逊积矩相关系数就是正态形式的协方差,它用于度量两个变量 $\small{X} $ 和 $\small{Y} $ 之间的相关程度(线性相关),其值介于 -1 到 1 之间。
161
161
162
162
$$
163
163
\frac {cov(X, Y)} {\sigma_{X}\sigma_{Y}}
164
164
$$
165
165
166
- 估算样本的协方差和标准差,可以得到样本皮尔逊系数,通常用希腊字母 $\rho$ 表示。
166
+ 估算样本的协方差和标准差,可以得到样本皮尔逊系数,通常用希腊字母 $\small{\ rho} $ 表示。
167
167
168
168
$$
169
169
\rho = \frac {\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})} {\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2} \sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}}
170
170
$$
171
171
172
- 我们用 $\rho$ 值判断指标的相关性时遵循以下两个步骤。
172
+ 我们用 $\small{\ rho} $ 值判断指标的相关性时遵循以下两个步骤。
173
173
174
174
1 . 判断指标间是正相关、负相关,还是不相关。
175
- - 当 $ \ rho \gt 0 $,认为变量之间是正相关,也就是两者的趋势一致。
176
- - 当 $ \ rho \lt 0 $,认为变量之间是负相关,也就是两者的趋势相反。
177
- - 当 $ \ rho \approx 0 $,认为变量之间是不相关的,但并不代表两个指标是统计独立的。
175
+ - 当 $\small{\ rho \gt 0} $,认为变量之间是正相关,也就是两者的趋势一致。
176
+ - 当 $\small{\ rho \lt 0} $,认为变量之间是负相关,也就是两者的趋势相反。
177
+ - 当 $\small{\ rho \approx 0} $,认为变量之间是不相关的,但并不代表两个指标是统计独立的。
178
178
2 . 判断指标间的相关程度。
179
- - 当 $ \ rho $ 的绝对值在 $ [ 0.6,1] $ 之间,认为变量之间是强相关的。
180
- - 当 $ \ rho $ 的绝对值在 $ [ 0.1,0.6) $ 之间,认为变量之间是弱相关的。
181
- - 当 $ \ rho $ 的绝对值在 $ [ 0,0.1) $ 之间,认为变量之间没有相关性。
179
+ - 当 $\small{\ rho} $ 的绝对值在 $\small{ [ 0.6,1] } $ 之间,认为变量之间是强相关的。
180
+ - 当 $\small{\ rho} $ 的绝对值在 $\small{ [ 0.1,0.6)} $ 之间,认为变量之间是弱相关的。
181
+ - 当 $\small{\ rho} $ 的绝对值在 $\small{ [ 0,0.1)} $ 之间,认为变量之间没有相关性。
182
182
183
183
皮尔逊相关系数适用于:
184
184
185
- 1 . 两个变量之间是线性关系,都是连续数据。
186
- 2 . 两个变量的总体是正态分布,或接近正态的单峰分布。
187
- 3 . 两个变量的观测值是成对的,每对观测值之间相互独立。
185
+ 1 . 两个变量之间是线性关系,都是连续数据。
186
+ 2 . 两个变量的总体是正态分布,或接近正态的单峰分布。
187
+ 3 . 两个变量的观测值是成对的,每对观测值之间相互独立。
188
188
189
189
这里,我们顺便说一下,如果两组变量并不是来自于正态总体的连续值,我们该如何判断相关性呢?对于定序尺度(等级),我们可以使用斯皮尔曼秩相关系数,其计算公式如下所示:
190
+
190
191
$$
191
192
r_{s}=1-{\frac {6\sum d_{i}^{2}}{n(n^{2}-1)}}
192
193
$$
193
- 其中,$d_ {i}=\operatorname {R} (X_ {i})-\operatorname {R} (Y_ {i})$,即每组观测中两个变量的等级差值,$n$为观测样本数。
194
+
195
+ 其中, $\small{d_ {i}=\operatorname {R} (X_ {i})-\operatorname {R} (Y_ {i})}$ ,即每组观测中两个变量的等级差值, $\small{n}$ 为观测样本数。
194
196
195
197
对于定类尺度(类别),我们可以使用卡方检验的方式来判定其是否相关。其实很多时候,连续值也可以通过分箱的方式处理成离散的等级或类别,然后使用斯皮尔曼秩相关系数或卡方检验的方式来判定相关性。
196
198
@@ -205,7 +207,7 @@ boston_df
205
207
206
208
输出:
207
209
208
- <img src =" /Users/Hao/Desktop/Python-Data-Analysis/ res/boston_house_price.png" style =" zoom :50% ;" >
210
+ <img src =" res/boston_house_price.png " style =" zoom :50% ;" >
209
211
210
212
> ** 说明** :上面代码中使用了相对路径来访问 CSV 文件,也就是说 CSV 文件在当前工作路径下名为` data ` 的文件夹中。如果需要上面例子中的 CSV 文件,可以通过下面的百度云盘地址进行获取。链接:< https://pan.baidu.com/s/1rQujl5RQn9R7PadB2Z5g_g?pwd=e7b4 > ,提取码:e7b4。
211
213
0 commit comments