From eb590f8cc392e4070930faba25972d482a93ce9e Mon Sep 17 00:00:00 2001 From: jackfrued Date: Sun, 19 Jun 2022 17:56:11 +0800 Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0=E4=BA=86=E7=AC=AC77=E5=A4=A9?= =?UTF-8?q?=E7=9A=84=E6=96=87=E6=A1=A3?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...7\273\237\350\256\241\345\237\272\347\241\200.md" | 12 ++++++------ 1 file changed, 6 insertions(+), 6 deletions(-) diff --git "a/Day66-80/77.\346\246\202\347\216\207\347\273\237\350\256\241\345\237\272\347\241\200.md" "b/Day66-80/77.\346\246\202\347\216\207\347\273\237\350\256\241\345\237\272\347\241\200.md" index 2a274efca..cffc8ad09 100644 --- "a/Day66-80/77.\346\246\202\347\216\207\347\273\237\350\256\241\345\237\272\347\241\200.md" +++ "b/Day66-80/77.\346\246\202\347\216\207\347\273\237\350\256\241\345\237\272\347\241\200.md" @@ -32,7 +32,7 @@ 我们经常会使用以下几个指标来描述一组数据的集中趋势: 1. 均值 - 均值代表某个数据集的整体水平,我们经常提到的客单价、平均访问时长、平均配送时长等指标都是均值。均值是对数据进行概括的一个强有力的方法,将大量的数据浓缩成了一个数据。均值的缺点是容易受极值的影响,可以使用加权平均值或去尾平均值来消除极值的影响;对于正数可以用几何平均值来替代算术平均值。 - - 算术平均值:$$\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\frac{x_{1}+x_{2}+\cdots +x_{n}}{n}$$,例如计算最近30天日均DAU、日均新增访客等,都可以使用算术平均值。 + - 算术平均值:$$\bar{x} = \frac{\sum_{i=1}^{n} {x_{i}}} {n} = \frac{x_{1}+x_{2}+\cdots +x_{n}}{n}$$,例如计算最近30天日均DAU、日均新增访客等,都可以使用算术平均值。 - 几何平均值:$$\left(\prod_{i=1}^{n}x_{i}\right)^{\frac{1}{n}}={\sqrt[{n}]{x_{1}x_{2} \cdots x_{n}}}$$,例如计算不同渠道的平均转化率、不同客群的平均留存率、不同品类的平均付费率等,就可以使用几何平均值。 2. 中位数 - 将数据按照升序或降序排列后位于中间的数,它描述了数据的中等水平。中位数的计算分两种情况: - 当数据体量$n$为奇数时,中位数是位于$\frac{n + 1}{2}$位置的元素。 @@ -82,14 +82,14 @@ A组的均值会大幅度提升,但中位数和众数却没有变化。 > **提示**:箱线图。 4. 方差:将每个值与均值的偏差进行平方,然后除以总数据量得到的值。简单来说就是表示数据与期望值的偏离程度。方差越大,就意味着数据越不稳定、波动越剧烈,因此代表着数据整体比较分散,呈现出离散的趋势;而方差越小,意味着数据越稳定、波动越平滑,因此代表着数据整体比较集中。简单的总结一下, - - 总体方差:$$ \sigma^2 = \frac {\sum_{i=1}^{N}(X_i - \mu)^2} {N} $$。 - - 样本方差:$$ S^2 = \frac {\sum_{i=1}^{N}(X_i - \bar{X})^2} {N-1} $$。 + - 总体方差:$$ \sigma^2 = \frac {\sum_{i=1}^{N} {(X_i - \mu)^2}} {N} $$。 + - 样本方差:$$ S^2 = \frac {\sum_{i=1}^{N} {(X_i - \bar{X})^2}} {N-1} $$。 > **说明**:Excel 中,计算总体方差和样本方差的函数分别是`VAR.P`和`VAR.S`。 5. 标准差:将方差进行平方根运算后的结果,与方差一样都是表示数据与期望值的偏离程度。 - - 总体标准差:$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \mu)^2}{N}} $$。 - - 样本标准差:$$ S = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \bar{X})^2}{N-1}} $$。 + - 总体标准差:$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N} {(X_i - \mu)^2}} {N}} $$ + - 样本标准差:$$ S = \sqrt{\frac{\sum_{i=1}^{N} {(X_i - \bar{X})^2}} {N-1}} $$ > **说明**:Excel 中,计算标准差的函数分别是`STDEV.P`和`STDEV.S`。 @@ -210,7 +210,7 @@ $$ 1. 伯努利分布(*Bernoulli distribution*):又名**两点分布**或者**0-1分布**,是一个离散型概率分布。若伯努利试验成功,则随机变量取值为1。若伯努利试验失败,则随机变量取值为0。记其成功概率为$ p (0 \le p \le 1) $,失败概率为$ q=1-p $,则概率质量函数为: - $$ {f(x)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p&{\mbox{if }}x=1,\\q\ &{\mbox{if }}x=0.\\\end{matrix}}\right.} $$ + $$ f(x)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p&{\mbox{if }}x=1,\\q\ &{\mbox{if }}x=0.\\\end{matrix}}\right. $$ 2. 二项分布(*Binomial distribution*):$n$个独立的是/非试验中成功次数的离散概率分布,其中每次试验的成功概率为$p$。一般地,如果随机变量$X$服从参数为$ n $和$ p $的二项分布,记为$ X\sim B(n,p) $。$ n $次试验中正好得到$ k $次成功的概率由概率质量函数给出, $$ P(X=k) = C_k^np^k(1-p)^{n-k} $$