Skip to content

Commit 518c944

Browse files
committed
Neural network learning
1 parent fe2247b commit 518c944

File tree

1 file changed

+291
-0
lines changed

1 file changed

+291
-0
lines changed

Ch04.Neural_network_learning.ipynb

+291
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,291 @@
1+
{
2+
"cells": [
3+
{
4+
"cell_type": "code",
5+
"execution_count": 1,
6+
"metadata": {},
7+
"outputs": [],
8+
"source": [
9+
"import numpy as np\n",
10+
"import matplotlib.pyplot as plt"
11+
]
12+
},
13+
{
14+
"cell_type": "markdown",
15+
"metadata": {},
16+
"source": [
17+
"# 신경망 학습\n",
18+
"---\n",
19+
"**학습**이란 훈련 데이터로부터 가중치 매개변수의 최적값을 자동으로 획득하는 것을 뜻한다. \n",
20+
"신경망이 학습할 수 있도록 해주는 **지표**인 손실 함수를 소개한다. 이 손실 함수의 결괏값을 가장 작게 만드는 가중치 매개변수를 찾는 것이 학습의 목표이다."
21+
]
22+
},
23+
{
24+
"cell_type": "markdown",
25+
"metadata": {},
26+
"source": [
27+
"## 4.1 데이터에서 학습\n",
28+
"데이터에서 학습한다는 것은 가중치 매개변수의 값을 데이터를 보고 자동으로 결정한다는 뜻이다.\n",
29+
"\n",
30+
"### 4.1.1 데이터 주도 학습\n",
31+
"기계학습은 데이터가 생명이다. 데이터에서 답을 찾고 데이터에서 패턴을 발견하고 데이터로 이야기를 만드는, 그것이 바로 기계학습이다. \n",
32+
"그런 방법의 하나로, 이미지에서 **특징**<sup>feature</sup>을 추출하고 그 특징의 패턴을 기계학습 기술로 학습하는 방법이 있다. \n",
33+
"이미지의 특징은 보통 벡터로 기술하고, 컴퓨터 비전 분야에서는 SIFT, SURF, HOG 등의 특징을 많이 사용한다. \n",
34+
"이런 특징을 사용하여 이미지 데이터를 벡터로 변환하고, 변환된 벡터를 가지고 지도 학습 방식의 대표 분류 기법인 SVM, KNN 등으로 학습할 수 있다.\n",
35+
"\n",
36+
"하지만 신경망은 이미지를 '있는 그대로' 학습한다.\n",
37+
"\n",
38+
"**※ NOTE** \n",
39+
"딥러닝을 **종단간 기계학습**<sup>end-to-end machine learning</sup>이라고 한다. \n",
40+
"종단간은 '처음부터 끝까지' 라는 의미로, 데이터(입력)에서 목표한 결과(출력)을 사람의 개입 없이 얻는다는 뜻이다."
41+
]
42+
},
43+
{
44+
"cell_type": "markdown",
45+
"metadata": {},
46+
"source": [
47+
"### 4.1.2 훈련 데이터와 시험 데이터\n",
48+
"기계학습 문제는 데이터를 **훈련 데이터**<sup>training data</sup>와 **시험 데이터**<sup>test data</sup>로 나눠 학습과 실험을 수행하는 것이 일반적이다. \n",
49+
"우선 훈련 데이터만 사용하여 학습하면서 최적의 매개변수를 찾는다. 그런 다음 시험 데이터를 사용하여 앞서 훈련한 모델의 실력을 평가하는 것이다. \n",
50+
"이를 구분하는 이유는 범용적으로 사용할 수 있는 모델을 원하기 때문이다. \n",
51+
"그래서 데이터셋 하나로만 매개변수의 학습과 평가를 수행하면 올바른 평가가 될 수 없다. 한 데이터셋에만 지나치게 최적화된 상태를 **오버피팅**<sup>overfitting</sup> 이라고 한다."
52+
]
53+
},
54+
{
55+
"cell_type": "markdown",
56+
"metadata": {},
57+
"source": [
58+
"## 4.2 손실 함수\n",
59+
"신경망 학습에서는 현재의 상태를 '하나의 지표'로 표현한다. 그리고 그 지표를 가장 좋게 만들어주는 가중치 매개변수의 값을 탐색하는 것이다. \n",
60+
"최적의 매개변수를 탐색하는데 사용되는 지표를 **손실 함수**<sup>loss function</sup>라고 한다. \n",
61+
"일반적으로 손실 함수는 평균 제곱 오차와 교차 엔트로피 오차를 사용한다."
62+
]
63+
},
64+
{
65+
"cell_type": "markdown",
66+
"metadata": {},
67+
"source": [
68+
"### 4.2.1 평균 제곱 오차\n",
69+
"가장 많이 쓰이는 손실 함수는 **평균 제곱 오차**<sup>mean squared error, MSE</sup>이다.\n",
70+
"\n",
71+
"**[식 4.1]** \n",
72+
"$\n",
73+
"\\begin{align}\n",
74+
"E = \n",
75+
"\\frac{1}{n} \\sum_{i=1}^n(y_i - t_i)^2\n",
76+
"\\end{align}\n",
77+
"$\n",
78+
"\n",
79+
"- $y_i$는 신경망의 출력(신경망이 추정한 값)\n",
80+
"- $t_i$는 정답 레이블\n",
81+
"- $n$은 데이터의 차원 수"
82+
]
83+
},
84+
{
85+
"cell_type": "code",
86+
"execution_count": null,
87+
"metadata": {},
88+
"outputs": [],
89+
"source": [
90+
"y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]\n",
91+
"t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]"
92+
]
93+
},
94+
{
95+
"cell_type": "markdown",
96+
"metadata": {},
97+
"source": [
98+
"신경망의 출력 y 는 소프트맥스 함수의 출력이다. \n",
99+
"정답 레이블인 t는 정답을 가리키는 위치의 원소는 1로, 그 외에는 0으로 표기한다. 이는 **원-핫 인코딩** 이라 한다."
100+
]
101+
},
102+
{
103+
"cell_type": "code",
104+
"execution_count": 11,
105+
"metadata": {},
106+
"outputs": [],
107+
"source": [
108+
"def mean_squared_error(y, t):\n",
109+
" return np.sum((y-t)**2) / t.size"
110+
]
111+
},
112+
{
113+
"cell_type": "code",
114+
"execution_count": 18,
115+
"metadata": {},
116+
"outputs": [
117+
{
118+
"data": {
119+
"text/plain": [
120+
"0.019500000000000007"
121+
]
122+
},
123+
"metadata": {},
124+
"output_type": "display_data"
125+
},
126+
{
127+
"data": {
128+
"text/plain": [
129+
"0.11950000000000001"
130+
]
131+
},
132+
"metadata": {},
133+
"output_type": "display_data"
134+
}
135+
],
136+
"source": [
137+
"t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]\n",
138+
"\n",
139+
"y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]\n",
140+
"\n",
141+
"# 첫 번째 결과\n",
142+
"display(mean_squared_error(np.array(y),np.array(t)))\n",
143+
"\n",
144+
"y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]\n",
145+
"\n",
146+
"# 두 번째 결과\n",
147+
"display(mean_squared_error(np.array(y),np.array(t)))"
148+
]
149+
},
150+
{
151+
"cell_type": "markdown",
152+
"metadata": {},
153+
"source": [
154+
"위의 평균 제곱 오차의 결과는 첫 번째 추정 결과가 (오차가 더 작으므로) 정답에 더 가깝다는 것을 알 수 있다."
155+
]
156+
},
157+
{
158+
"cell_type": "markdown",
159+
"metadata": {},
160+
"source": [
161+
"### 4.2.2 교차 엔트로피 오차\n",
162+
"또 다른 손실 함수로서 **교차 엔트로피 오차**<sup>cross entropy error, CEE</sup>도 자주 이용한다.\n",
163+
"\n",
164+
"**[식 4.2]** \n",
165+
"$\n",
166+
"\\begin{align}\n",
167+
"E = \n",
168+
"-\\sum_{i=1}^n t_i \\log y_i\n",
169+
"\\end{align}\n",
170+
"$\n",
171+
"\n",
172+
"- $\\log$는 밑이 $e$인 자연로그 $\\log_e$\n",
173+
"- $y_i$는 신경망의 출력\n",
174+
"- $t_i$는 정답 레이블"
175+
]
176+
},
177+
{
178+
"cell_type": "code",
179+
"execution_count": 15,
180+
"metadata": {},
181+
"outputs": [
182+
{
183+
"data": {
184+
"image/png": "\n",
185+
"text/plain": [
186+
"<Figure size 432x288 with 1 Axes>"
187+
]
188+
},
189+
"metadata": {
190+
"needs_background": "light"
191+
},
192+
"output_type": "display_data"
193+
}
194+
],
195+
"source": [
196+
"x = np.arange(0.01, 1.0, 0.01)\n",
197+
"y = np.log(x)\n",
198+
"\n",
199+
"plt.plot(x, y, label=\"log\")\n",
200+
"plt.legend()\n",
201+
"\n",
202+
"plt.show()"
203+
]
204+
},
205+
{
206+
"cell_type": "code",
207+
"execution_count": 17,
208+
"metadata": {},
209+
"outputs": [],
210+
"source": [
211+
"def cross_entropy_error(y, t):\n",
212+
" # np.log() 함수에 0을 입력하면 마이너스 무한대가 되므로 보정한다.\n",
213+
" delta = 1e-7\n",
214+
" return -np.sum(t * np.log(y + delta))"
215+
]
216+
},
217+
{
218+
"cell_type": "code",
219+
"execution_count": 19,
220+
"metadata": {},
221+
"outputs": [
222+
{
223+
"data": {
224+
"text/plain": [
225+
"0.510825457099338"
226+
]
227+
},
228+
"metadata": {},
229+
"output_type": "display_data"
230+
},
231+
{
232+
"data": {
233+
"text/plain": [
234+
"2.302584092994546"
235+
]
236+
},
237+
"metadata": {},
238+
"output_type": "display_data"
239+
}
240+
],
241+
"source": [
242+
"t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]\n",
243+
"\n",
244+
"y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]\n",
245+
"\n",
246+
"# 첫 번째 결과\n",
247+
"display(cross_entropy_error(np.array(y),np.array(t)))\n",
248+
"\n",
249+
"y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]\n",
250+
"\n",
251+
"# 두 번째 결과\n",
252+
"display(cross_entropy_error(np.array(y),np.array(t)))"
253+
]
254+
},
255+
{
256+
"cell_type": "markdown",
257+
"metadata": {},
258+
"source": [
259+
"### 4.3.3 미니배치 학습\n"
260+
]
261+
},
262+
{
263+
"cell_type": "code",
264+
"execution_count": null,
265+
"metadata": {},
266+
"outputs": [],
267+
"source": []
268+
}
269+
],
270+
"metadata": {
271+
"kernelspec": {
272+
"display_name": "Python 3",
273+
"language": "python",
274+
"name": "python3"
275+
},
276+
"language_info": {
277+
"codemirror_mode": {
278+
"name": "ipython",
279+
"version": 3
280+
},
281+
"file_extension": ".py",
282+
"mimetype": "text/x-python",
283+
"name": "python",
284+
"nbconvert_exporter": "python",
285+
"pygments_lexer": "ipython3",
286+
"version": "3.7.1"
287+
}
288+
},
289+
"nbformat": 4,
290+
"nbformat_minor": 2
291+
}

0 commit comments

Comments
 (0)