-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathch2.R
121 lines (111 loc) · 5.11 KB
/
ch2.R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
# 2.1
# 数値要約: データの持つ特徴を1つの数値にまとめること
# 2.3
# 質的変数: データを構成する人たちを分類する変数
# → 指導法データの「指導法」「性別」「数学」「統計」
# 二値変数: 選択肢が2つある質的変数
# → 指導法データの「性別」「数学」「統計」
# ※「指導法」は4通りあるので二値変数ではない
# 量的変数: 学力の大小を示すような変数
# → 指導法データの「心理学テスト」「統計テスト1」「統計テスト2」
# 2.4
指導法 <- c("C", "B", "B", "A", "B", "C", "A", "D", "D", "D", "A", "A", "A", "C", "B", "D", "C", "C", "B", "D")
指導法
table(指導法)
# 度数: 同じカテゴリに含まれるデータの個数
# 度数分布: 全てのカテゴリについて度数をまとめたもの
# 度数分布表: 度数分布を表にしたもの
心理学テスト <- c(13, 14, 7, 12, 10, 6, 8, 15, 4, 14, 9, 6, 10, 12, 5, 12, 8, 8, 12, 15)
心理学テスト
hist(心理学テスト)
# ヒストグラム: 何点から何点までに度数がどのくらいあって、ということを、棒と棒の隙間をあけずに図にしたもの
# 2.5
# 代表値: 分布の中心的位置を示す、そのデータを代表する値
# 平均: データの値を合計してデータの個数(n)で割る
10 + 13 + 8 + 15 + 8
sum(10 + 13 + 8 + 15 + 8)
テストa <- c(10, 13, 8, 15, 8)
テストa
sum(テストa)
sum(テストa) / 5
sum(テストa) / length(テストa)
mean(テストa)
# 2.6
median(テストa)
# 中央値: データを大きさの順に並べた場合真ん中に位置する値
table(テストa)
# 最頻値: 最も頻繁に観測される値。質的変数の代表値として用いられることが多い
# 双峰型分布: 最頻値が2つあるような分布
# 外れ値: 他のデータの値から極端に離れた値
# 2.7
# 散布度: 分布の散らばり度合い
# 2.8
テストa平均 <- mean(テストa)
テストa平均
平均からの偏差 <- テストa - テストa平均
平均からの偏差
# 平均からの偏差: 各データの値から平均を引いたもの
平均からの偏差の二乗 <- 平均からの偏差^2
平均からの偏差の二乗
平均からの偏差の二乗和 <- sum(平均からの偏差の二乗)
平均からの偏差の二乗和
データ数<-length(テストa)
データ数
分散 <- 平均からの偏差の二乗和 / データ数
分散
sqrt(分散)
# 標準偏差: 散布度の指標として最も多く使われる。標準偏差の値が大きいほど、そのデータの散らばりが大きい
var(テストa)
平均からの偏差の二乗和
平均からの偏差の二乗和 / 5
平均からの偏差の二乗和 / 4
不偏分散 <- var(テストa)
不偏分散
標本分散 <- 不偏分散 * (データ数 - 1) / データ数
標本分散
sd(テストa)
sqrt(sd(テストa)^2 * (データ数 - 1) / データ数)
sqrt(標本分散)
# 不偏分散: データの背後に母集団を想定し、母集団の値を推測する場合に使う
# 標本分散: 手元にデータがあり、そのデータ自体がどの程度散らばっているのか、とデータを記述する場合に使う
# 2.9
# 散布度として頻繁に用いられるもの: 分散、標準偏差(、平均偏差、範囲)
テストa
mean(テストa)
テストa - mean(テストa)
abs(テストa - mean(テストa))
mean(abs(テストa - mean(テストa)))
# 平均偏差: 「平均からの偏差」の絶対値の平均
# 範囲: 最大値から最小値を引いたもの
max(テストa)
min(テストa)
max(テストa) - min(テストa)
# 2.10
# 標準化: 平均と標準偏差がある特定の値になるように、すべてのデータの値を、同じ式を使って変換すること
# 標準得点: 標準化にて変換された得点
# z得点: 平均が0、標準偏差が1になるように変換した標準得点
心理学テスト
心理学平均 <- mean(心理学テスト)
心理学平均
心理学標準偏差 <- sqrt(mean((心理学テスト - 心理学平均)^2))
心理学標準偏差
心理学z得点 <- (心理学テスト - 心理学平均) / 心理学標準偏差
心理学z得点
心理学z得点平均 <- mean(心理学z得点)
心理学z得点平均
心理学z得点標準偏差 <- sqrt(mean((心理学z得点 - 心理学z得点平均)^2))
心理学z得点標準偏差
# 統計テスト1 <- c(6, 10, 6, 10, 5, 3, 5, 9, 3, 3, 11, 6, 11, 9, 7, 5, 8, 7, 7, 9)
# 統計1平均 <- mean(統計テスト1)
# 統計1標準偏差 <- sqrt(mean((統計テスト1 - 統計1平均)^2))
# 統計1z得点 <- (統計テスト1 - 統計1平均) / 統計1標準偏差
# 統計1z得点平均 <- mean(統計1z得点)
# 統計1z得点標準偏差 <- sqrt(mean((統計1z得点 - 統計1z得点平均)^2))
# 2.11
# 偏差値: 平均50、標準偏差10になるように標準化した標準得点
心理学偏差値 <- 10 * 心理学z得点 + 50
心理学偏差値
心理学偏差値平均 <- mean(心理学偏差値)
心理学偏差値平均
心理学偏差値標準偏差 <- sqrt(mean((心理学偏差値 - 心理学偏差値平均)^2))
心理学偏差値標準偏差