이 GitHub Page에 등록되는 포스팅은 2017년 사내 임직원 대상 R 강의용으로 작성된 자료를 2018년 강의에 맞춰 업데이트한 것입니다. 이 강의는 다양한 기계학습 알고리즘을 이해한 후 실습을 통해 숙달함으로써 개인 프로젝트를 수행할 수 있는 기초를 다지는 것을 목표로 합니다.
기계학습은 종속변수(타겟변수) 유무에 따라 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 그리고 강화학습(Reinforcement Learning)으로 나뉩니다. 아울러 종속변수의 종류에 따라 회귀(Regression)과 분류(Classification) 모델링으로 구분되며, 종속변수가 설명변수와 같은 시점이면 추정, 미래 시점이면 예측 모델링이 됩니다. 이 강의에서는 지도학습과 비지도학습에 사용되는 일부 알고리즘으로 회귀 및 분류 모델링을 학습하게 됩니다.
- R 기초 : R 자료형 소개, Indexing과 Slicing
- R 웹크롤러 (GET, POST, User-agent, JavaScript, RSelenium, Open API)
- 탐색적 데이터 분석 (Explorative Data Analysis)
- 데이터 시각화 : ggpot2, google map API
- 상관분석, t검정, 분산분석
- 차원축소 : 주성분분석 (PCA), 요인분석 (FA), 다차원척도법 (MDS)
- 군집분석 (Clustering) : 계층적 군집분석, K-평균 군집분석
- K근접이웃(KNN)
- 나이브 베이즈(Naive Bayes)
- 의사결정나무 (Decision Tree)
- 단순선형회귀분석 (Linear Regression)
- 다중선형회귀분석 변수선택 (Linear Regression with variable selection)
- 벌점화 회귀모형 : Ridge, LASSO, Elastic Net
- 로지스틱 회귀분석 (Logistic Regression)
- 랜덤포레스트 (Random Forest)
- 서포트벡터머신 (Support Vector Machine)