๐ ์์ฌ๊ฒฐ์ ๋๋ฌด
- ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ๋ฐ์ดํฐ์ ๋ด์ฌ๋์ด ์๋ ํจํด์ ํตํด ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ธก ๋ฐ ๋ถ๋ฅํ๋ ๋ชจ๋ธ
- ๋ถ๋ฆฌ ๊ธฐ์ค๊ณผ ์ ์ง ๊ท์น์ ์ง์ ํด์ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ฅผ ์์ฑ
์ฅ์
1๏ธโฃ ์ดํดํ๊ธฐ ์ฝ๊ณ ์ ์ฉํ๊ธฐ ์ฝ๋ค
2๏ธโฃ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๋ํ ์ค๋ช ๊ฐ๋ฅ
โ๏ธ ์๋ฃ๋ถ๋ถ์ด๋ ๊ธ์ต๋ถ๋ถ์์ ์ด์ ๋ฅผ ์๋ ค์ค ์ ์์ด ์์ฉ์ด ๊ฐ๋ฅํจ
3๏ธโฃ ์ค์ํ ๋ณ์ ์ ํ์ ์ ์ฉ
โ๏ธ ์๋จ์ ์ฌ์ฉ๋ ๋ณ์๊ฐ ์ค์ํ ๋ณ์ ( ์์ ์ฌ์ง์ผ๋ก๋ ๋ ์จ )
4๏ธโฃ ๋ฐ์ดํฐ์ ํต๊ณ์ ๊ฐ์ ์ด ํ์ ์์
โ๏ธ ex ) LDA : ๋ฐ์ดํฐ ์ ๊ท์ฑ์ด๋ผ๋ ๊ฐ์ ์ด ํ์ํ์
๋จ์
1๏ธโฃ ๋ง์ ๋ฐ์ดํฐ ํ์
2๏ธโฃ ํธ๋ฆฌ๋ฅผ ๋ง๋๋๋ฐ ์๋์ ์ผ๋ก ์๊ฐ์ด ๋ง์ด ์์
3๏ธโฃ ๋ฐ์ดํฐ ๋ณํ์ ๋ฏผ๊ฐ
โ๏ธ ํ์ต ๋ฐ์ดํฐ ↔๏ธ ํ ์คํธ ๋ฐ์ดํฐ์ ๋๋ฉ์ธ(์์ญ)์ด ์ ์ฌํด์ผํจ
4๏ธโฃ ์ ํ ๊ตฌ์กฐ์ธ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ ๋ ๋ณต์ก
โ๏ธ ์ด ๊ฒฝ์ฐ ์์ฌ๊ฒฐ์ ๋๋ฌด๊ฐ ์๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ์ข์
๐ ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ ๋ง๋๋ ๋ฐฉ๋ฒ
๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฆฌ ๊ธฐ์ค์ ๋ฐ๋ผ 2๊ฐ or ๊ทธ ์ด์์ผ๋ก ๋ถํ
๐ป
๋ฐ์ดํฐ ์๋๊ฐ ๊ท ์ผํด์ง๋๋ก ์ฌ๊ท์ ๋ถํ
๋ถ๋ฅ(Classification) vs ์์ธก(Regression)
๐ธ ๋ถ๋ฅ
โ๏ธ ๋ถํ ์ข ๋ฃ ์กฐ๊ฑด : ๋ ๋ ธ๋์ ๋น์ทํ ๋ฒ์ฃผ(ํด๋์ค)๋ฅผ ๊ฐ๊ณ ์๋ ๊ด์ธก ๋ฐ์ดํฐ ๋ผ๋ฆฌ
โ๏ธ ํ๋ณ : ๋ ๋ ธ๋์์ ๊ฐ์ฅ ๋น๋๊ฐ ๋์ ์ข ์๋ณ์(y)๋ฅผ ์๋ก์ด ๋ฐ์ดํฐ์ ๊ฒฐ๊ณผ๋ก ๋ถ์ฌ
๐ ๊ฒฝํฅ์ฑ๋ ํ๋ฅ ๋ก ํํ ๊ฐ๋ฅ
๐ธ ์์ธก
โ๏ธ ๋ถํ ์ข ๋ฃ ์กฐ๊ฑด: ๋ ๋ ธ๋์ ๋น์ทํ ์์น๋ฅผ ๊ฐ๊ณ ์๋ ๊ด์ธก๋ฐ์ดํฐ ๋ผ๋ฆฌ
โ๏ธ ํ๋ณ : ๋ ๋ ธ๋์ ์ข ์๋ณ์(y)์ ํ๊ท ์ ์๋ก์ด ๋ฐ์ดํฐ์ ๊ฒฐ๊ณผ๋ก ๋ถ์ฌ
๐ ์์ธก์ ๊ฒฝ์ฐ ํ๊ท ๋๋ฌด๋ณด๋ค ์ ๊ฒฝ๋ง (neural network) or ํ๊ท ๋ถ์์ด ๋ ์ข์
๐ ๊ณผ์ ํฉ
- ํ์ต์ฉ ๋ฐ์ดํฐ์ ์์ ํ ์ ํฉํ๊ฒ ๋ง๋ค์ด์ ธ ํ ์คํธ ๋ฐ์ดํฐ์์ ์ค์ฐจ๊ฐ ์ผ๋ฐ์ ์ผ๋ก ์ฆ๊ฐ
๐ ํผํ๋ ๋ฐฉ๋ฒ
๐ ๊ฐ์น์น๊ธฐ
- ๋ฐ์ดํฐ๋ฅผ ๋ฒ๋ฆฌ๋ ๊ฐ๋ ์ด ์๋ ํฉ์น๋ ๊ฐ๋
- ๋๋ฌด ๋ชจ๋ธ ์์ฑ ํ ํ์ ์๋ ๊ฐ์ง ์ ๊ฑฐ
- ์ฑ์ฅ ๋ฉ์ถ๊ธฐ ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ
- ๊ฐ์ง์น๊ธฐ ๋น์ฉํจ์๋ฅผ ์ต์๋ก ํ๋ ๋ถ๊ธฐ๋ฅผ ์ฐพ์
๐ ์ฑ์ฅ๋ฉ์ถ๊ธฐ
- ๋๋ฌด ๋ชจ๋ธ์ max depth๋ฅผ ์ค์
- ๋๋ฌด ๋ชจ๋ธ์ ์ฑ์ฅ์ํค๋ฉด์ ํน์ ์กฐ๊ฑด์ ์ฑ์ฅ์ ์ค๋จ
[ ๋ถ๋ฅ ๋๋ฌด / ๋ฐ์ดํฐ : ์์ธ ๋ถ๋ฅ ]
1๏ธโฃ ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
### ์์ธ
from sklearn import datasets
wine=datasets.load_wine()
n_samples = len(wine.data)
data = wine.data.reshape((n_samples, -1))
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data, wine.target, test_size=0.3, shuffle=True)
2๏ธโฃ ๋ชจ๋ธ ๋ง๋ค๊ธฐ
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier(criterion='gini', random_state=1)
dtc.fit(X_train, y_train)
[ DecisionTreeClassifier ๋งค๋ด์ผ ]
3๏ธโฃ ์ฑ๋ฅ ์ธก์
[ ์์ธก ๋๋ฌด / ๋ฐ์ดํฐ : ๋ณด์คํด ์ง๊ฐ ์์ธก ]
1๏ธโฃ ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
### Boston Housing
from sklearn import datasets
price=datasets.load_boston()
n_samples = len(price.data)
data = price.data.reshape((n_samples, -1))
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data, price.target, test_size=0.3, shuffle=True)
2๏ธโฃ ๋ชจ๋ธ ๋ง๋ค๊ธฐ
from sklearn.tree import DecisionTreeRegressor
regressor = DecisionTreeRegressor(random_state=1)
regressor.fit(X_train, y_train)
[ DecisionTreeRegressior ๋งค๋ด์ผ ]
3๏ธโฃ ์ฑ๋ฅ ์ธก์
'CODING > AI & ML & DL' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[NLP] python / Keras๋ฅผ ์ฌ์ฉํ ์ฑ๋ด ๋ง๋ค๊ธฐ (0) | 2021.06.06 |
---|---|
[ML] BoVW : bag of visual words | Feature engineering (1) | 2020.12.22 |
[๊ธฐ๊ณํ์ต] ์ด์ฐจ ํ๋ณ ๋ถ์ | Quadratic Discriminat Analysis (0) | 2020.10.15 |
[๊ธฐ๊ณํ์ต] ์ ํ ํ๋ณ ๋ถ์ | Linear Discriminant Analysis (0) | 2020.10.14 |
[๊ธฐ๊ณํ์ต] ํ๋ณ ๋ถ์ | Discriminant analysis (0) | 2020.10.13 |
๋๊ธ