Index์์๋ ์ฃผ์ ์ฉ์ด์ ๋ํ ๋งํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
-
์ธ๊ณต์ง๋ฅ(AI, Artificial Intelligence)์ ์ฌ๋์ฒ๋ผ ํ์ตํ๊ณ ์ถ๋ก ํ ์ ์๋ ์ง๋ฅ์ ๊ฐ์ง ์์คํ ์ ๋ง๋๋ ๊ธฐ์ ์ ์๋ฏธํฉ๋๋ค.
-
๋จธ์ ๋ฌ๋(ML, Machine Learning)์ ๊ท์น์ ํ๋ก๊ทธ๋๋ฐํ์ง ์์๋ ์๋์ผ๋ก ๋ฐ์ดํฐ์์ ๊ท์น์ ํ์ตํฉ๋๋ค. ๋ฒ์ฉ์ ์ธ ๋ชฉ์ ์ ์ ํฉํ์ง๋ง, ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํ ํน์ฑ ์ถ์ถ(Feature Extraction)์ ์ธ๊ฐ์ด ์ฒ๋ฆฌ(์ ์ฒ๋ฆฌ)ํด์ผ ํฉ๋๋ค.
-
๋ฅ๋ฌ๋(DL, Deep Learning)์ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๊ธฐ๋ฐํ ๋จธ์ ๋ฌ๋์ผ๋ก์ TensorFlow, PyTorch๊ฐ ํด๋น๋ฉ๋๋ค. ๋๋์ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฒฝ๋ง์ ์ ์ฉํ๋ฉด ์ปดํจํฐ๊ฐ ์ค์ค๋ก ๋ถ์ํ์ฌ ํน์ฑ ์ถ์ถ(Feature Extraction)์ ์ํํฉ๋๋ค.
Preprocessing์์๋ ํ์ค์ ์(z)๋ฅผ ์ด์ฉํ ๋ฐ์ดํฐ ์ ๊ทํ ๋ฐ Train/Test Dataset์ ์ค๋นํ๋ ๊ณผ์ ์ ์ค๋ช ํฉ๋๋ค.
๋จธ์ ๋ฌ๋์์ ํน์ฑ(Feature)๋ ์ํ๋ ๊ฐ์ ์์ธกํ๊ธฐ ์ํด ํ์ฉํ๋ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํ๊ณ , ํ๊น(Target)์ ์์ธกํด์ผ ํ ๊ฐ์ ๋๋ค.
ํน์ฑ๊ณตํ(Feature Engineering)์ ์ฃผ์ด์ง ํน์ฑ์ ์กฐํฉํ์ฌ ์๋ก์ด ํน์ฑ์ ๋ง๋๋ ๊ณผ์ ์ ๋๋ค.
-
Feature engineering is the process of using domain knowledge of the data to create features that make machine learning algorithms work (e.g., separating time from a date/time field, combining fields โ height/weight). Feature engineering can improve model accuracy and speed up training.
-
Feature transfomation: Putting data in a format optimized for machine learning and generalization
-
Feature selection (variable selection, attribute selection) is the process of selecting a subset of relevant features (independent variables, predictors) for use in model construction. Feature selection can improve model accuracy, simplify models, shorten model training times, and reduce overfitting.
-
Correlation analysis is a method of statistical evaluation used to study the strength of a relationship between two, numerically measured, continuous variables (e.g., height and weight). This particular type of analysis is useful when a researcher wants to establish if there are possible connections between variables.
-
Label encoding: Converting categorical text data into model-understandable numerical data
ํ๊ท(Regression)์ ์์ธกํ๊ณ ์ถ์ ์ข ์๋ณ์๊ฐ ์ซ์์ผ๋ ์ฌ์ฉํ๋ ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ์ ๋๋ค. Regression์์๋ Regression์ ๋ํ ๊ธฐ๋ณธ ์ค๋ช ๋ฐ ๊ตฌํํ๋ ์ฝ๋๋ฅผ ์์ ๋ก ์ค๋ช ํฉ๋๋ค.
๋ถ๋ฅ(Classification)์ Sample์ ๋ช๊ฐ์ Class์ค์ ํ๋๋ก ๋ถ๋ฅํ ์ ์์ต๋๋ค. Classification์ ํตํด ์์ ์ค์ฌ์ผ๋ก ์ค๋ช ํฉ๋๋ค.
Clustering์ ๋ํ์ ์ธ ์๋ก k-Means๊ฐ ์์ต๋๋ค. k-Means๋ ๋น์ง๋ํ์ต(Unsupervised Learning)์ผ๋ก ์ ๋ต label์ด ์๋ ๋ฐ์ดํฐ์์ ์ ์ฌ๋๋ฅผ ๊ธฐ์ค์ผ๋ก k๊ฐ์ ๊ตฐ์ง์ผ๋ก ๋ถ๋ฅํ ์ ์์ต๋๋ค.
- K-means is an unsupervised learning algorithm. It attempts to find discrete groupings within data, where members of a group are as similar as possible to one another and as different as possible from members of other groups. You define the attributes you want the algorithm to use to determine similarity.
Dimensionally Reduction์ ์๋ก์๋ PCA (Principal Component Analysis)๊ฐ ์์ต๋๋ค. PCA๋ฅผ ์ด์ฉํด ๋ฐ์ดํฐ์ ๋ถ์ฐ(variance)์ ์ต๋ํ ๋ณด์กดํ๋ฉด์ ์ถ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ต๋ฐ์ดํฐ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
Deep Learning Algorithms์์๋ Deep Learning์ ๋ํ ์ค๋ช ๋ฐ ์์ ์ ๋ํด ๋ค๋ฃจ๊ณ ์์ต๋๋ค.
regularization์์๋ ๋ชจ๋ธ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํฉ๋๋ค.
ํ๊ฐ (Evaluation)์ ์๊ณ ๋ฆฌ์ฆ์ ๋ชจ๋ธ ํ๊ฐ ์งํ์ ๋ํด ์ค๋ช ํฉ๋๋ค.
Hyperparameter Optimization์์๋ ๋จธ์ ๋ฌ๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ๋ณ ์ต์ ์ Hyperparameter ์กฐํฉ์ ์ฐพ์๊ฐ๋ ๊ณผ์ ์ ์๋ฏธ ํฉ๋๋ค.
ML๋ก ์ํํ ์ ์๋ ์์ฉ ์์ญ์ ๋ํด ์ค๋ช ํฉ๋๋ค.
XGBoost Algorithms์์๋ XGBoost๋ฅผ ์ฌ์ฉํ ๋ค์ํ ์ฌ๋ก์ ๋ํด ์ค๋ช ํฉ๋๋ค.
- Numpy๋ก ๋ฐ์ดํฐ๋ฅผ ์ค๋นํฉ๋๋ค.
Built-in Algorithms์์๋ AWS์์ ์ ๊ณตํ๋ ML ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์ค๋ช ํฉ๋๋ค.
๋ ธํธ๋ถ์ผ๋ก ์์ฑํ ML ์๊ณ ๋ฆฌ์ฆ์ Python ์ฝ๋๋ก ๋ณํํฉ๋๋ค.
Transformer ๋ชจ๋ธ์ ์ด๋ก ์ ์ดํด
ํผ์ ๊ณต๋ถํ๋ ๋จธ์ ๋ฌ๋+๋ฅ๋ฌ๋
๋จธ์ ๋ฌ๋ยท๋ฅ๋ฌ๋ ๋ฌธ์ ํด๊ฒฐ ์ ๋ต - ์ ๋ฐฑ๊ท , ๊ณจ๋ ๋๋น
[Machine Learning at Work - ํ๋น๋ฏธ๋์ด]
XGBoost์ ์ฌ์ดํท๋ฐ์ ํ์ฉํ ๊ทธ๋ ์ด๋์ธํธ ๋ถ์คํ - ํ๋น ๋ฏธ๋์ด