Skip to content

Commit

Permalink
mind on stat
Browse files Browse the repository at this point in the history
  • Loading branch information
Travis-Sun committed Jan 29, 2013
1 parent dca6f3f commit b2c4ecb
Show file tree
Hide file tree
Showing 4 changed files with 86 additions and 7 deletions.
32 changes: 29 additions & 3 deletions draft/DataAnalysis/statsbook_mindonstats
Original file line number Diff line number Diff line change
Expand Up @@ -80,10 +80,27 @@ ggplot(data=data.f,aes(x=rownames(data.f), fill=data)) + geom_bar(width=1) + coo
pie(t(mdata[1:3]),col=rainbow(3))
</example>

ggplot的配色方案要找几套比较好看的,默认的太难看。
***TODO*** ggplot的配色方案要找几套比较好看的,默认的太难看。

** Exploring Features of Quantitative Data with Pictures



**Notes**
数据分为离散数据和连续数据。

在数据集(dataset)方面,category的数据输入离散的数据,对这种数据一般用pie,barplot展示出来。
pie一般指对一种Category的数据继续展示;barplot可以对多种数据进行展示。

连续数据的表示方法就比较多了,比如histogram, stem, boxplot.

histogram通过bar的宽度来调整信息的展示,太宽则信息丢失,太窄则细节信息被展示出来。
stem在某些情况既能够很好的展示数据summary信息,又能展示细节信息。
boxplot能够清楚的展示其五数summary信息,同时吧outlier展示出来。

宗旨是能够体现数据的location, spread, shape and outlier。
能够把数据的特点清楚的、一目了然的展示出来。

find information with visual display and summary about the data.

1. 直方图(histogram)的方式来描述Quantitative Data。
Expand Down Expand Up @@ -147,6 +164,8 @@ summary quantitative data注意下面几个点:
针对奇异点有时可能因为试验误差产生的,要去掉以减少干扰。
有时则对奇异点是有用的数据,可能着重的对其分析。

查找Outlies的比较好的方法是:boxplot方法。

上面所说的几个图形化的表示可以展示出这三个方面。

<b>画直方图注意几点:</b>
Expand All @@ -168,7 +187,7 @@ stem(cddata,scale=2)

观察shape,要不断的发掘其特点
1. 是单分布还是多分布组合
2. 有几个波峰值peak, bimodal
2. 有几个波峰值peak, unmodel, bimodal
3. 是skewed to the left(左拖尾)还是skewed to the right(右拖尾)
4. 其分布图形是一个什么形状,bell-shaped(钟形)

Expand Down Expand Up @@ -197,7 +216,7 @@ boxplot还可以表示出median

<b>fomulation</b>

n, Xi, mean, median.
<latex>$ n, x_i, mean, median. $</latex>


boxplot
Expand All @@ -212,6 +231,13 @@ IRQ is Interquartile range)

<b>Percentiles 百分位数</b>

当被人说什么什么<b>太</b>怎么样,影响到了……。
这种言论表明当前的状态是一个outlier,那此时就应该用历史判断一下是否是一个outlier。

比如书中说的一个例子,今天的雨太多了,达到往年的170%~180%,严重的影响了公司的performance。
听到这里,应该反映这个是真的,影响的前提就是今年的降雨量比较大,真的很大吗,
通过历史的数据判断一下该数据是否是outlier,如果不是则说明降雨量只是公司的一个托词。

*** 怎样处理Outliers

1. 不应该简单的将其删除,分析其原因,有可能是问题的兴趣点。
Expand Down
Binary file added publish/DataAnalysis/latex/_430558428.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added publish/DataAnalysis/latex/_499088943.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
61 changes: 57 additions & 4 deletions publish/DataAnalysis/statsbook_mindonstats.html
Original file line number Diff line number Diff line change
Expand Up @@ -175,13 +175,45 @@ <h3>summary for categorical variable</h3>
pie(t(mdata[1:3]),col=rainbow(3))
</pre>

<blockquote>
<p>
ggplot的配色方案要找几套比较好看的,默认的太难看。
<strong><em>TODO</em></strong> ggplot的配色方案要找几套比较好看的,默认的太难看。

</p>
</blockquote>

<h3>Exploring Features of Quantitative Data with Pictures</h3>

<p>
<strong>Notes</strong>
数据分为离散数据和连续数据。

</p>

<p>
在数据集(dataset)方面,category的数据输入离散的数据,对这种数据一般用pie,barplot展示出来。
pie一般指对一种Category的数据继续展示;barplot可以对多种数据进行展示。

</p>

<p>
连续数据的表示方法就比较多了,比如histogram, stem, boxplot.

</p>

<p>
histogram通过bar的宽度来调整信息的展示,太宽则信息丢失,太窄则细节信息被展示出来。
stem在某些情况既能够很好的展示数据summary信息,又能展示细节信息。
boxplot能够清楚的展示其五数summary信息,同时吧outlier展示出来。

</p>

<p>
宗旨是能够体现数据的location, spread, shape and outlier。
能够把数据的特点清楚的、一目了然的展示出来。

</p>

<p>
find information with visual display and summary about the data.

Expand Down Expand Up @@ -277,6 +309,11 @@ <h4>shape</h4>

</p>

<p>
查找Outlies的比较好的方法是:boxplot方法。

</p>

<p>
上面所说的几个图形化的表示可以展示出这三个方面。

Expand Down Expand Up @@ -326,7 +363,7 @@ <h4>shape</h4>
<ol>
<li>是单分布还是多分布组合
</li>
<li>有几个波峰值peak, bimodal
<li>有几个波峰值peak, unmodel, bimodal
</li>
<li>是skewed to the left(左拖尾)还是skewed to the right(右拖尾)
</li>
Expand Down Expand Up @@ -382,10 +419,13 @@ <h4>图形化显示的summary</h4>

</p>

<blockquote>
<p>
n, Xi, mean, median.
<a href="./latex/_499088943.png"><img src="./latex/_499088943.png" alt="" /></a>
<!-- end of latex2png with input: $ n, x_i, mean, median. $-->

</p>
</blockquote>

<p>
boxplot
Expand Down Expand Up @@ -414,6 +454,19 @@ <h4>图形化显示的summary</h4>

</p>

<p>
当被人说什么什么<b></b>怎么样,影响到了……。
这种言论表明当前的状态是一个outlier,那此时就应该用历史判断一下是否是一个outlier。

</p>

<p>
比如书中说的一个例子,今天的雨太多了,达到往年的170%~180%,严重的影响了公司的performance。
听到这里,应该反映这个是真的,影响的前提就是今年的降雨量比较大,真的很大吗,
通过历史的数据判断一下该数据是否是outlier,如果不是则说明降雨量只是公司的一个托词。

</p>

<h4>怎样处理Outliers</h4>

<ol>
Expand Down Expand Up @@ -673,7 +726,7 @@ <h5>how to ask survey questions</h5>
<col width="33%" /><col width="34%" /><col width="33%" />
<tr>
<td align="left">
<span class="footdate">Updated: 2013-01-25</span>
<span class="footdate">Updated: 2013-01-29</span>
</td>
<td align="center">
<span class="foothome">
Expand Down

0 comments on commit b2c4ecb

Please sign in to comment.