๐ ๋ค์ค์ ํํ๊ท(Multiple Linear Regression)
- ์์นํ ์ค๋ช ๋ณ์ X + ์ฐ์ํ ์ซ์๋ก ์ด๋ฃจ์ด์ง ์ข ์๋ณ์ Y์ ๊ด๊ณ๋ฅผ ์ ํ์ผ๋ก ๊ฐ์ ํ๊ณ ์ด๋ฅผ ๊ฐ์ฅ ์ ํํํ ์ ์๋ ํ๊ท๊ณ์(β)๋ฅผ ์ถ์
- ์ฝ๊ฒ ๋งํ๋ฉด X์ ๋ฐ๋ผ Y๊ฐ์ด ์ด๋ป๊ฒ ๋ฌ๋ผ์ง์ง ์์ธกํ๋ ๊ฒ
ex) ์ฃผํ ์๋๋ฃ ์์ธกํ ๋
X : ์ผ๋ง๋ ์ค๋ ๋์๋์ง(X1) , ์งํ์ฒ ์ญ๊ณผ์ ๊ฑฐ๋ฆฌ(X2), ์ฃผ๋ณ ํธ์์์ค์ ๊ฐ์(X3) ••• (Xn)
Y : ์ฃผํ ์๋๋ฃ ๊ฐ๊ฒฉ
(X1 * β1) + (X2 * β2) + (X3 * β3) ••• + ( Xn * βn ) = Y
(β1, β2, β3•••, βn) : ํ๊ท๊ณ์
๐ ํ๊ท ๊ณ์(β1, β2, β3•••, βn) ๊ตฌํ๋ ๋ฒ
( ์ค์ ๊ฐ(Y) - ์์ธก๊ฐ(Y') ) ^ 2 = Error = Loss ๊ฐ ๊ฐ์ฅ ์์ ๊ฒ
- ์์ error์์ ๋ฏธ๋ถ๊ฐ = 0 ์ผ๋ก ๋๊ณ ํ๋ฉด ๋ช ์์ ์ธ ํด๋ฅผ ๊ตฌํ ์ ์์ง๋ง 0์ด ๋์ง ์์ ์๋ ์๊ณ ๋ฏธ๋ถ์ด ๋์ง ์์ ์๋ ์์
โฌ๏ธ ๊ทธ๋ด ๋
โ๏ธ Numerical Search - ๊ฒฝ์ฌํ๊ฐ๋ฒ (gradient descent)์ ์ฌ์ฉ
๐ ๊ฒฝ์ฌํ๊ฐ๋ฒ
- ์๋ฌ๊ฐ์ ์ต์ํํ๊ธฐ์ํด ๊ฒฝ์ฌ(๊ทธ๋๋์ธํธ)๋ฅผ ๊ตฌํ๊ณ ๊ฒฝ์ฌ์ ๋ฐ๋๋ฐฉํฅ์ผ๋ก ์กฐ๊ธ์ฉ ์ด๋ํ๋ ๊ณผ์ ์ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํ๋ ๊ฒ
๐ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ข ๋ฅ
1๏ธโฃ Batch Gradient Descent (GD) - ๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
- ํ๋ผ๋ฏธํฐ (ํ๊ท๊ณ์ : β1, β2, β3•••, βn ) ๋ฅผ ์ ๋ฐ์ดํธ ํ ๋๋ง๋ค ๋ชจ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ cost function(error๊ฐ)์ gradient(๊ฒฝ์ฌ)๊ฐ์ ๊ตฌํจ
- ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ์ด๋ผ Vanilla Gradient Descent ๋ผ ๋ถ๋ฆผ
๋จ์ - ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๊ธฐ๋๋ฌธ์ ๋ง์ ์๊ฐ์ด ํ์ โก๏ธ ๋งค์ฐ ๋ฎ์ ํ์ต ํจ์จ
2๏ธโฃ Stochastic Gradient Descent (SGD) - ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
- ํ๋ผ๋ฏธํฐ (ํ๊ท๊ณ์ : β1, β2, β3•••, βn ) ๋ฅผ ์ ๋ฐ์ดํธ ํ ๋๋ง๋ค ๋ฌด์์๋ก ์ํ๋ง๋ ํ์ต๋ฐ์ดํฐ๋ฅผ ํ๋ ( N๊ฐ ์ค์ 1 ๊ฐ )์ฉ๋ง ์ด์ฉํ์ฌ cost function(error๊ฐ)์ gradient(๊ฒฝ์ฌ)๊ฐ์ ๊ตฌํจ
์ฅ์ - ํ๋๋ฅผ ๊ณจ๋ผ์ ์ ๋ฐ์ดํธํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ ์์ฃผ ์ ๋ฐ์ดํธ ํ ์ ์์ โก๏ธ ์ฑ๋ฅ ๊ฐ์ ์ ๋ ๋น ๋ฅด๊ฒ ํ์ธ ๊ฐ๋ฅ
- Local minima์ ๋น ์ง ๊ฐ๋ฅ์ฑ
๋จ์ - ์ต์ cost์ ์๋ ดํ๋์ง ํ๋จ์ด ์๋์ ์ผ๋ก ์ด๋ ค์
3๏ธโฃ Mini Batch Gradient Descent - ๋ฏธ๋ ๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
- ํ๋ผ๋ฏธํฐ (ํ๊ท๊ณ์ : β1, β2, β3•••, βn ) ๋ฅผ ์ ๋ฐ์ดํธ ํ ๋๋ง๋ค ํ๋์ ์ํ์ด ์๋ ' ๋ฏธ๋ ๋ฐฐ์น '๋ผ ๋ถ๋ฅด๋ ์์ ์ํ ์ธํธ์ ์ฌ์ฉํ์ฌ cost function(error๊ฐ)์ gradient(๊ฒฝ์ฌ)๊ฐ์ ๊ตฌํจ
- 1๏ธโฃ GD์ ์ ์ฒด ๋ฐฐ์น๋ณด๋ค ํจ์จ์ฑ ๐บ โ 2๏ธโฃ SGD ์ ๋ ธ์ด์ฆ ๐ป = 3๏ธโฃ Mini batch GD
๋๊ธ