Skip to content

Commit 0666676

Browse files
committed
오타 수정
1 parent d0fbd75 commit 0666676

File tree

1 file changed

+6
-6
lines changed

1 file changed

+6
-6
lines changed

_posts/2019-04-27-Hands-On(Ch8).md

Lines changed: 6 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -10,7 +10,7 @@ comments: true
1010
<br><br>
1111
핸즈온 머신러닝
1212
[코딩관련깃허브](https://github.com/rickiepark/handson-ml)
13-
<br><br>
13+
<br><br>
1414
_Author : Duck Hyeun, Ryu_
1515
<br><br>
1616
안녕하세요. 팀 언플(Team Unsolved Problem)의 Polar B 입니다!
@@ -96,7 +96,7 @@ def image_path(fig_id, image_path_k2h=IMAGE_PATH):
9696
모든 샘플이 서로 멀리 떨어져 있으므로 예측을 하더라도 불안정합니다. 이것을 차원의 저주라고 합니다. 이론적인 해결 방법은 훈련 샘플의 밀도가 충분히 높아질 때까지 훈련 세트의 크기를 키우는 것입니다. 하지만 특성이 100개만 가지고 있더라도 각 샘플을 서로 평균 0.1 이내에 위치시키려면 관측 가능한 우주에 있는 원자 수 모두를 합친 것보다 더 많은 훈련 샘플을 모아야 합니다.
9797
<br><br>
9898

99-
간단히 말해 특성 수(차원 수)를 무작정 많이 늘인다고 해도 모델이 개선이 될지 불확실하고 데이터의 양만 exponential하게 증가해서 훈련시간만 무지 길어집니다.
99+
간단히 말해 특성 수(차원 수)를 무작정 많이 늘인다고 해도 모델이 개선이 될지 불확실하고 데이터의 양만 기하학적으로 증가해서 훈련시간만 무지 길어집니다.
100100
<br><br>
101101

102102
## 8.2 차원 축소를 위한 접근 방법
@@ -160,7 +160,7 @@ def image_path(fig_id, image_path_k2h=IMAGE_PATH):
160160

161161
![분산_보존](/assets/images/Hands-on/Ch8fig6.png){: width="70%" height="auto" .image-center}
162162
<br>
163-
2차원에서 1차원 직선으로 투영을 시키고자 할 때는 분산이 잘 보존된 직선에 투영시키는 것이 좋습니다. 위의 그림에서는 첫 번째 실선이 분산을 잘 보존시킵니다. 다르게 말하면 원본 데이터셋과 투영된 데이터셋 사이의 평균 제곱거리를 최소화하는 축으로 투영을 시키는 것이 좋습니다.
163+
2차원에서 1차원 직선으로 투영을 시키고자 할 때는 분산이 잘 보존된 직선에 투영시키는 것이 좋습니다. 다르게 말하면 원본 데이터셋과 투영된 데이터셋 사이의 평균 제곱거리를 최소화하는 축으로 투영을 시키는 것이 좋습니다. 위의 그림에서는 첫 번째 실선이 분산을 잘 보존시킵니다.
164164
<br><br>
165165

166166
#### 8.3.2 주성분(Principal Component)
@@ -233,7 +233,7 @@ $AV = U \Sigma$
233233
따라서 $A = U \Sigma V^t$
234234
<br><br>
235235
236-
그래서 $V$의 열벡터가 주성분 행렬이 됩니다.
236+
그래서 $V$ 주성분 행렬이 됩니다.
237237
<br><br>
238238
239239
코드를 통해 주성분을 구하는 예제를 보겠습니다.
@@ -467,7 +467,7 @@ print(grid_search.best_params_) ## best_params_ 변수에 저장
467467
~~~
468468
<br>
469469

470-
kPCA는 PCA처럼 역전시키면 데이터 포인트가 원본공간이 아닌 커널트릭을 이용한 특성 공간에 놓이게 됩니다. 여기서는 에러를 계산할 수 없는데 대신 재구성된 포인트에 가깝게 매핑된 원본 공간의 포인트를 찾을 수 있습니다. 이를 재구성 원상(Pre-image)라고 합니다. 이 재구성 원상과 원본 샘플의 오차를 최소화하는 방향으로 최상의 하이퍼파라미터와 커널을 찾습니다. 재구성 원상을 찾는 방법 중 하나는 투영된 샘플을 훈련 세트로, 원본 샘플을 타깃으로 하는 지도학습 회귀모델을 훈련시키는 것입니다. 사이킷런에서는 IPCA의 변수 중 fit_inverse_transform을 True로 지정하면 이를 자동으로 수행합니다.
470+
kPCA는 PCA처럼 역전시키면 데이터 포인트가 원본공간이 아닌 커널트릭을 이용한 특성 공간에 놓이게 됩니다. 이때 재구성된 포인트에 가깝게 매핑된 원본 공간의 포인트를 찾을 수 있습니다. 이를 재구성 원상(Pre-image)라고 합니다. 이 재구성 원상과 원본 샘플의 오차를 최소화하는 방향으로 최상의 하이퍼파라미터와 커널을 찾습니다. 재구성 원상을 찾는 방법 중 하나는 투영된 샘플을 훈련 세트로, 원본 샘플을 타깃으로 하는 지도학습 회귀모델을 훈련시키는 것입니다. 사이킷런에서는 IPCA의 변수 중 fit_inverse_transform을 True로 지정하면 이를 자동으로 수행합니다.
471471
<br><br>
472472

473473
~~~
@@ -495,7 +495,7 @@ mean_squared_error(X, X_preimage)
495495
- 1단계
496496
1. 각 훈련 샘플에 대해서 $x^{(i)}$에 대해 가장 가까운 $k$개의 샘플을 찾습니다.
497497
2. $x^{(i)}$와 $\sum_{j=1}^{m} w_{i,j}x^{(j)}$ 사이의 제곱거리가 최소가 되는 $w_{(i,j)}$를 찾습니다.
498-
3. $x^{(j)}$가 $x^{(i)}$ 아닐 경우 $w_{i,j}=0$
498+
3. $x^{(j)}$가 $x^{(i)}$의 가장 가까운 $k$개의 샘플이 아닐 경우 $w_{i,j}=0$
499499
<br>
500500
식으로 표현하면 밑의 식이 됩니다.
501501
<br>

0 commit comments

Comments
 (0)