- Today
- Total
hye-log
[๋ถ์คํธ์บ ํ AI Tech]WEEK 01_DAY 03 ๋ณธ๋ฌธ
๐ ๊ฐ๋ณํ์ต
[2] ํ๋ ฌ์ด ๋ญ์์
1. ํ๋ ฌ
1) ๋ฒกํฐ๋ฅผ ์์๋ก ๊ฐ์ง๋ 2์ฐจ์ ๋ฐฐ์ด
x = np.array([[1, -2, 3], # ํ๋์ ํ์ ๋ํ๋
[7, 5, 0],
[-2, -1, 2]])
2) ํ(row)๊ณผ ์ด(column) ์ธ๋ฑ์ค๋ฅผ ๊ฐ์ง
3) ์ ์น ํ๋ ฌ(transpose matrix) : ํ๊ณผ ์ด์ ์ธ๋ฑ์ค๊ฐ ๋ฐ๋ ํ๋ ฌ
2. ํ๋ ฌ์ ์ดํดํ๋ ๋ฐฉ๋ฒ (1)
1) ํ๋ ฌ - ์ฌ๋ฌ ์ ๋ค์ ๋ํ๋ (vs. ๋ฒกํฐ - ๊ณต๊ฐ์์์ ํ ์ )
2) xij : i๋ฒ์งธ ๋ฐ์ดํฐ์ j๋ฒ์งธ ๋ณ์์ ๊ฐ
3. ํ๋ ฌ์ ์ฐ์ฐ
1) ํ๋ ฌ์ ๋ง์ , ๋บ์ : ํ๋ ฌ๋ผ๋ฆฌ ๊ฐ์ ๋ชจ์์ ๊ฐ์ง๋ฉด ๊ณ์ฐ ๊ฐ๋ฅ
2) ํ๋ ฌ์ ์ฑ๋ถ๊ณฑ, ์ค์นผ๋ผ๊ณฑ : ๋ฒกํฐ์ ๋์ผ
3) ํ๋ ฌ์ ๊ณฑ์ : i๋ฒ์งธ ํ๋ฒกํฐ์ j๋ฒ์งธ ์ด๋ฒกํฐ ์ฌ์ด์ ๋ด์
+ Xํ์ ๊ฐ์์ Y์ ์ด์ ๊ฐ์๊ฐ ๊ฐ์์ผ ํจ
# ํ๋ ฌ์ ๊ณฑ์
X = np.array([[1, -2, 3], [7, 5, 0], [-2, -1, 2]])
Y = np.array([[0, 1], [1, -1], [-2, 1]])
X @ Y
>> array([[-8, 6], [5, 2], [-5, 1]])
4) ํ๋ ฌ์ ๋ด์ : i๋ฒ์งธ ํ๋ฒกํฐ์ j๋ฒ์งธ ํ๋ฒกํฐ ์ฌ์ด์ ๋ด์ ์ ์ฑ๋ถ์ผ๋ก ๊ฐ์ง๋ ํ๋ ฌ
+ X์ ํ์ ๊ฐ์์ Y์ ํ์ ๊ฐ์๊ฐ ๊ฐ์์ผ ํจ
# ํ๋ ฌ์ ๋ด์
X = np.array([[1, -2, 3], [7, 5, 0], [-2, -1, 2]])
Y = np.array([[0, 1, -1], [1, -1, 0]])
np.inner(X, Y)
>> array([[-5, 3], [5, 2], [-3, -1]])
4. ํ๋ ฌ์ ์ดํดํ๋ ๋ฐฉ๋ฒ(2)
1) ๋ฒกํฐ๊ณต๊ฐ์์ ์ฌ์ฉ๋๋ ์ฐ์ฐ์(operator)
2) ํ๋ ฌ๊ณฑ์ ํตํด ๋ฒกํฐ๋ฅผ ๋ค๋ฅธ ์ฐจ์์ ๊ณต๊ฐ์ผ๋ก ๋ณด๋ผ ์ ์์ -> ํจํด ์ถ์ถ, ๋ฐ์ดํฐ ์์ถ
5. ์ญํ๋ ฌ
1) ์ญํ๋ ฌ(inverse matrix) : ํ๋ ฌ A์ ์ฐ์ฐ์ ๊ฑฐ๊พธ๋ก ๋๋๋ฆฌ๋ ํ๋ ฌ
+ ํ๊ณผ ์ด ์ซ์๊ฐ ๊ฐ๊ณ ํ๋ ฌ์์ด 0์ด ์๋ ๊ฒฝ์ฐ์๋ง ๊ฐ๋ฅ
2) AA^-1 = A^-1A = I (ํญ๋ฑํ๋ ฌ)
# ์ญํ๋ ฌ
X = np.array([[1, -2, 3], [7, 5, 0], [-2, -1, 2]])
np.linalg.inv(x) # ์ญํ๋ ฌ
X @ np.linalg.inv(x) # ํญ๋ฑํ๋ ฌ
3) ์ญํ๋ ฌ์ ๊ณ์ฐํ ์ ์๋ค๋ฉด, ์ ์ฌ์ญํ๋ ฌ(pseudo-inverse) / ๋ฌด์ด-ํ๋ก์ฆ(Moore-Penrose) ์ญํ๋ ฌ ์ฌ์ฉ
# ์ ์ฌ์ญํ๋ ฌ
X = np.array([[0, 1], [1, -1], [-2, 1]])
np.linalg.pinv(x) # ์ ์ฌ์ญํ๋ ฌ
X @ np.linalg.pinv(x) # ํญ๋ฑํ๋ ฌ
[3] ๊ฒฝ์ฌํ๊ฐ๋ฒ(์ํ๋ง)
1. ๋ฏธ๋ถ
1) ๋ณ์์ ์์ง์์ ๋ฐ๋ฅธ ํจ์๊ฐ์ ๋ณํ๋ฅผ ์ธก์ ํ๊ธฐ ์ํ ๋๊ตฌ
2) ์ต์ ํ์์ ์ ์ผ ๋ง์ด ์ฌ์ฉํ๋ ๊ธฐ๋ฒ
# ๋ฏธ๋ถ์ ๊ณ์ฐ
import sympy as sym
from sympy.abc import x
sym.diff(sym.poly(x**2 + 2*x + 3), x)
>> Poly(2*x + 2, x, domain='ZZ')
3) ํจ์ f์ ์ฃผ์ด์ง ์ (x, f(x))์์์ ์ ์ ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ๋ ๊ฒ
4) ์ ์ ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์๋ฉด -> ์ด๋ ๋ฐฉํฅ์ผ๋ก ์ ์ ์์ง์ด์ผ ํจ์๊ฐ์ด ์ฆ๊ฐ/๊ฐ์ํ๋์ง ์ ์ ์์
5) ๊ฒฝ์ฌ์์น๋ฒ(gradient ascent) : ๋ฏธ๋ถ๊ฐ์ ๋ํ์ฌ ํจ์์ ๊ทน๋๊ฐ ์์น๋ฅผ ๊ตฌํจ
6) ๊ฒฝ์ฌํ๊ฐ๋ฒ(gradient descent) : ๋ฏธ๋ถ๊ฐ์ ๋นผ์ ํจ์์ ๊ทน์๊ฐ ์์น๋ฅผ ๊ตฌํจ
7) ๊ทน๊ฐ์ ๋๋ฌํ๋ฉด ์์ง์์ ๋ฉ์ถ๋ค = ๋ชฉ์ ํจ์ ์ต์ ํ๊ฐ ๋๋๋ค
8) ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์๊ณ ๋ฆฌ์ฆ
- Input : gradient(๋ฏธ๋ถ์ ๊ณ์ฐํ๋ ํจ์), init(์์์ ), lr(ํ์ต๋ฅ ), eps(์๊ณ ๋ฆฌ์ฆ ์ข ๋ฃ์กฐ๊ฑด)
- Output : var
var = init
grad = gradient(var)
while(abs(grad) > eps): # ์๊ณ ๋ฆฌ์ฆ ์ข
๋ฃ ์กฐ๊ฑด
var = var - lr * grad # ๋ฏธ๋ถ์ ํตํด ์
๋ฐ์ดํธ ์๋ ์กฐ์
grad = gradient(var) # ๋ฏธ๋ถ๊ฐ ์
๋ฐ์ดํธ
9) ๋ค๋ณ์ ํจ์์ ๊ฒฝ์ฐ ํธ๋ฏธ๋ถ(partial differentiation)์ ์ฌ์ฉ
10) ๊ทธ๋ ๋์ธํธ ๋ฒกํฐ : (์) f(x, y) = x^2 + 2*y^2 => ∇f = (2x, 4y)
11) ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์๊ณ ๋ฆฌ์ฆ(2)
- Input : gradient(๊ทธ๋ ๋์ธํธ ๋ฒกํฐ๋ฅผ ๊ณ์ฐํ๋ ํจ์), init(์์์ ), lr(ํ์ต๋ฅ ), eps(์๊ณ ๋ฆฌ์ฆ ์ข ๋ฃ์กฐ๊ฑด)
- Output : var
var = init
grad = gradient(var)
while(norm(grad) > eps): # ์๊ณ ๋ฆฌ์ฆ ์ข
๋ฃ ์กฐ๊ฑด
var = var - lr * grad # ๊ทธ๋ ๋์ธํธ๋ฅผ ํตํด ์
๋ฐ์ดํธ ์๋ ์กฐ์
grad = gradient(var) # ๊ทธ๋ ๋์ธํธ๊ฐ ์
๋ฐ์ดํธ
[4] ๊ฒฝ์ฌํ๊ฐ๋ฒ(๋งค์ด๋ง)
1. ์ ํํ๊ท๋ถ์ ๋ณต์ต
1) np.linalg.pinv(์ญํ๋ ฌ)๋ฅผ ์ด์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ ํ๋ชจ๋ธ๋ก ํด์ํ๋ ์ ํํ๊ท์์ ์ฐพ์ ์ ์์
2) ์ญํ๋ ฌ ๋์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ด์ฉํ ์ ํ๋ชจ๋ธ์ ์ฐพ์๋ณด์ -> L2 ๋ ธ๋ฆ ํ์ฉ
2. ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ด์ฉํ ์ ํํ๊ท
1) ์ ํํ๊ท์ ๋ชฉ์ ์
2) ๋ชฉ์ ์์ ์ต์ํํ๋ β๋ฅผ ๊ตฌํ๋ ๊ฒฝ์ฌํ๊ฐ๋ฒ ์๊ณ ๋ฆฌ์ฆ
+ L2 ๋ ธ๋ฆ ๋์ L2 ๋ ธ๋ฆ์ ์ ๊ณฑ์ผ๋ก ๊ตฌํด๋ ๋จ -> ๊ณ์ฐ์ด ๊ฐ๋จํด์ง
3) ๊ฒฝ์ฌํ๊ฐ๋ฒ ๊ธฐ๋ฐ ์ ํํ๊ท ์๊ณ ๋ฆฌ์ฆ
- Input : X, y, lr(ํ์ต๋ฅ ), T(ํ์ตํ์)
- Output : beta
for t in range(T):
error = y - X @ beta
grad = -transpose(X) @ error # ๊ทธ๋ ๋์ธํธ ๋ฒกํฐ
beta = beta = lr * grad # beta ์
๋ฐ์ดํธ
4) ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ณ , ๋ณผ๋กํ(convex) ํจ์์ ๋ํด์ ์ ์ ํ ํ์ต๋ฅ ๊ณผ ํ์ตํ์๋ฅผ ์ ํํ์ ๋ ์๋ ด์ด ๋ณด์ฅ
5) ๋น์ ํํ๊ท์ ๊ฒฝ์ฐ ๋ชฉ์ ์์ด ๋ณผ๋กํ์ง ์์ผ๋ฏ๋ก ์๋ ด์ด ํญ์ ๋ณด์ฅ๋์ง ์์ -> ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ฌ์ฉ
3. ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ(SGD, Stochastic Gradient Descent)
1) ๋ฐ์ดํฐ ํ ๊ฐ ๋๋ ์ผ๋ถ๋ฅผ ํ์ฉํ์ฌ ์ ๋ฐ์ดํธ
2) ๋ณผ๋ก์ด ์๋(non-convex) ๋ชฉ์ ์์ ์ต์ ํํ ์ ์์
3) ๋ฏธ๋๋ฐฐ์น๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์ ํํ๊ธฐ ๋๋ฌธ์ ๋ชฉ์ ์ ๋ชจ์์ด ๋ฐ๋ ์ ์์
4) ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ ์ฌ์ด์ฆ๋ ํฌ๊ณ ํฌ๊ธฐ๋ ํฌ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋ก๋ํ๋ฉด ๋ฉ๋ชจ๋ฆฌ๊ฐ ๋ถ์กฑํ๋ฏ๋ก SGD ํ์ฉ
[5] ๋ฅ๋ฌ๋ ํ์ต๋ฐฉ๋ฒ ์ดํดํ๊ธฐ
1. ์ ๊ฒฝ๋ง(neural network)
1) ๋น์ ํ๋ชจ๋ธ = ์ ํ๋ชจ๋ธ + ํ์ฑํจ์(activation function)
2) O = X * W + b
- ํ ๋ฒกํฐ oi๋ ๋ฐ์ดํฐ xi์ ๊ฐ์ค์น ํ๋ ฌ W ์ฌ์ด์ ํ๋ ฌ๊ณฑ๊ณผ ์ ํธ b ๋ฒกํฐ์ ํฉ์ผ๋ก ํํ
- O(n x p) = X(n x d) * W(d x p) + b(n x p)
3) ๋ค์ธต(multi-layer) ํผ์ ํธ๋ก (MLP) : ์ ๊ฒฝ๋ง ์ฌ๋ฌ์ธต์ด ํฉ์ฑ๋ ํจ์
4) ์ธต์ด ๊น์์๋ก -> ๋ชฉ์ ํจ์๋ฅผ ๊ทผ์ฌํ๋๋ฐ ํ์ํ ๋ด๋ฐ์ ์ซ์๊ฐ ํจ์ฌ ๋นจ๋ฆฌ ์ค์ด๋ค์ด -> ํจ์จ์ ํ์ต ๊ฐ๋ฅ
+ ์ธต์ด ๊น๋ค๊ณ -> ์ต์ ํ๊ฐ ์ฌ์ด ๊ฒ์ ์๋
2. ์ํํธ๋งฅ์ค(Softmax)
1) ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํ๋ฅ ๋ก ํด์ํ ์ ์๊ฒ ๋ณํํด์ฃผ๋ ์ฐ์ฐ
2) softmax(o) = softmax(Wx+b)
def softmax(vec):
denumerator = np.exp(vec - np.max(vec, axis=-1, keepdims=True))
numerator = np.sum(denumerator, axis=-1, keepdims=True)
val = denumerator / numerator
return val
3) ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ํ ๋ ์ ํ๋ชจ๋ธ๊ณผ ์ํํธ๋งฅ์ค ํจ์๋ฅผ ๊ฒฐํฉํ์ฌ ์์ธก
4) ์ถ๋ก ์ ํ ๋๋ ์-ํซ(one-hot) ๋ฒกํฐ๋ก ์ต๋๊ฐ์ ๊ฐ์ง ์ฃผ์๋ง 1๋ก ์ถ๋ ฅํ๋ ์ฐ์ฐ์ ์ฌ์ฉ
3. ํ์ฑํจ์(activation function)
1) ๋ฅ๋ฌ๋์์ ์ ํ๋ชจ๋ธ๊ณผ ์ฐจ์ด๋ฅผ ์ถ๊ธฐ ์ํด์ ํ์ฑํจ์๋ฅผ ์ฌ์ฉ
2) sigmoid, tanh -> ์ ํต์ ์ผ๋ก ๋ง์ด ์ฐ์ด๋ ํ์ฑํจ์ / ReLU -> ๋ฅ๋ฌ๋์์ ์์ฃผ ์ฌ์ฉ
4. ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ(backpropagation)
1) ๋ฅ๋ฌ๋์ ํ์ต์๋ฆฌ
2) forwardpropagation : ์ ๋ ฅ -> ์ ํ๋ชจ๋ธ -> ํ์ฑํํจ์ -> ์ถ๋ ฅ ํํ
3) backpropagation : ๊ฒฝ์ฌํ๊ฐ๋ฒ ์ ์ฉํ์ฌ gradient vector๋ฅผ ๊ณ์ฐ
4) ์ฐ์๋ฒ์น(chain-rule) ๊ธฐ๋ฐ ์๋ ๋ฏธ๋ถ(auto-differentiation)
[6] ํ๋ฅ ๋ก ๋ง๋ณด๊ธฐ
1. ๋ฅ๋ฌ๋๊ณผ ํ๋ฅ ๋ก
1) ๋ฅ๋ฌ๋์ ํ๋ฅ ๋ก ๊ธฐ๋ฐ์ ๊ธฐ๊ณํ์ต ์ด๋ก ์ ๋ฐํ์ ๋
2) ์์คํจ์(loss function)์ ์๋ ์๋ฆฌ : ๋ฐ์ดํฐ ๊ณต๊ฐ์ ํต๊ณ์ ์ผ๋ก ํด์ํด์ ์ ๋ํจ
(์) ํ๊ท ๋ถ์์ ์์ค ํจ์๋ก ์ฌ์ฉ๋๋ L2-๋ ธ๋ฆ : ์์ธก์ค์ฐจ์ ๋ถ์ฐ์ ๊ฐ์ฅ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต
(์) ๋ถ๋ฅ ๋ฌธ์ ์ ๊ต์ฐจ ์ํธ๋กํผ(cross-entropy) : ๋ชจ๋ธ ์์ธก์ ๋ถํ์ค์ฑ์ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต
2. ํ๋ฅ ๋ถํฌ
1) ๋ฐ์ดํฐ๊ณต๊ฐ : X × Y, ๋ฐ์ดํฐ๊ณต๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๋ ๋ถํฌ : D
+ ์ ๋ต ๋ ์ด๋ธ์ด ์๋ ์ง๋ํ์ต์ด๋ผ๊ณ ๊ฐ์
2) ๋ฐ์ดํฐ : ํ๋ฅ ๋ณ์ (x, y) ~ ํ๋ฅ ๋ถํฌ D ( (x, y) ∈ X × Y )
3) ํ๋ฅ ๋ณ์ : ํ๋ฅ ๋ถํฌ D ์ ๋ฐ๋ผ ๊ตฌ๋ถ
- ์ด์ฐํ๋ฅ ๋ณ์(discrete) : ํ๋ฅ ๋ณ์๊ฐ ๊ฐ์ง ์ ์๋ ๊ฒฝ์ฐ์ ์๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ์ฌ ํ๋ฅ ์ ๋ํด์ ๋ชจ๋ธ๋ง
- ์ฐ์ํ๋ฅ ๋ณ์(continuous) : ๋ฐ์ดํฐ ๊ณต๊ฐ์ ์ ์๋ ํ๋ฅ ๋ณ์์ ๋ฐ๋ ์์์ ์ ๋ถ์ ํตํด ๋ชจ๋ธ๋ง
4) ๊ฒฐํฉ๋ถํฌ P(x, y)๋ D๋ฅผ ๋ชจ๋ธ๋ง
5) P(x) : ์ ๋ ฅ x ์ ๋ํ ์ฃผ๋ณํ๋ฅ ๋ถํฌ. y์ ๋ํ ์ ๋ณด๋ ์์
6) P(x | y) : ์กฐ๊ฑด๋ถํ๋ฅ ๋ถํฌ. ๋ฐ์ดํฐ๊ณต๊ฐ์์ ์ ๋ ฅ x์ ์ถ๋ ฅ y ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง
3. ์กฐ๊ฑด๋ถํ๋ฅ
1) P(y | x) : ์ ๋ ฅ๋ณ์ x์ ๋ํด ์ ๋ต์ด y์ผ ํ๋ฅ
(์) ๋ก์ง์คํฑ ํ๊ท์์ ์ฌ์ฉํ ์ ํ๋ชจ๋ธ + ์ํํธ๋งฅ์ค๋ ๋ฐ์ดํฐ์์ ์ถ์ถ๋ ํจํด์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฅ ์ ํด์ํ๋๋ฐ ์ฌ์ฉ
(์) softmax(WΦ + b)๋ ๋ฐ์ดํฐ x๋ก๋ถํฐ ์ถ์ถ๋ ํน์งํจํด Φ(x)๊ณผ ๊ฐ์ค์นํ๋ ฌ W๋ฅผ ํตํด ์กฐ๊ฑด๋ถํ๋ฅ P(y|x)๋ฅผ ๊ณ์ฐ
(์) ํ๊ท ๋ฌธ์ ์์๋ ์กฐ๊ฑด๋ถ๊ธฐ๋๊ฐ E[y | x]๋ฅผ ์ถ์ ํจ
4. ๊ธฐ๋๊ฐ(expectation)
1) ๋ฐ์ดํฐ๋ฅผ ๋ํํ๋ ํต๊ณ๋
2) ์ด์ฐํ๋ฅ ๋ถํฌ์ ๊ธฐ๋๊ฐ : ๊ธ์๋ฅผ ์ฌ์ฉ
+ ์ด์ฐํ๋ฅ ๋ถํฌ์ ๊ธฐ๋๊ฐ์ E[x]๋ผ ํ ๋, ๋ถ์ฐ์ V[x]=E[x^2]-E[x]^2
3) ์ฐ์ํ๋ฅ ๋ถํฌ์ ๊ธฐ๋๊ฐ : ์ ๋ถ์ ์ฌ์ฉ
4) ๋ฅ๋ฌ๋์ ๋ค์ธต์ ๊ฒฝ๋ง์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ก๋ถํฐ ํน์งํจํด์ ์ถ์ถํจ
5. ๋ชฌํ ์นด๋ฅผ๋ก ์ํ๋ง(Monte Carlo)
1) ํ๋ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ฅผ ๋ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๊ธฐ๋๊ฐ์ ๊ณ์ฐํ๋ ค๋ฉด ๋ชฌํ ์นด๋ฅผ๋ก ์ํ๋ง ๋ฐฉ๋ฒ์ ์ฌ์ฉ
2) ๋ ๋ฆฝ์ถ์ถ๋ง ๋ณด์ฅ๋๋ค๋ฉด ๋์์ ๋ฒ์น์ ์ํด ์๋ ด์ฑ ๋ณด์ฅ
[7] ํต๊ณ๋ก ๋ง๋ณด๊ธฐ
1. ๋ชจ์
1) ํต๊ณ์ ๋ชจ๋ธ๋ง์ ์ ์ ํ ๊ฐ์ ์์์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๊ฒ์ด ๋ชฉํ
2) ์ ํํ ๊ฐ์์ ๋ฐ์ดํฐ๋ง ๊ด์ฐฐํด์ ๋ชจ์ง๋จ์ ๋ถํฌ๋ฅผ ์๊ธฐ ์ด๋ ค์ -> ๊ทผ์ฌ์ ์ผ๋ก ํ๋ฅ ๋ถํฌ๋ฅผ ์ถ์
3) ๋ชจ์์ (parametric) ๋ฐฉ๋ฒ๋ก : ๋ฐ์ดํฐ๊ฐ ํน์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ์ ํ์ ์ผ๋ก ๊ฐ์ ํ ํ ๊ทธ ๋ถํฌ๋ฅผ ๊ฒฐ์ ํ๋ ๋ชจ์๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ
4) ๋น๋ชจ์(nonparametric) ๋ฐฉ๋ฒ๋ก : ํน์ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ง ์๊ณ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋ชจ๋ธ์ ๊ตฌ์กฐ ๋ฐ ๋ชจ์์ ๊ฐ์๊ฐ ์ ์ฐํ๊ฒ ๋ฐ๋๋ ๋ฐฉ๋ฒ -> ๊ธฐ๊ณํ์ต์ ๋ง์ ๋ฐฉ๋ฒ๋ก
(์) ํ๋ฅ ๋ถํฌ ๊ฐ์ ํ๊ธฐ -> ์ฐ์ ํ์คํ ๊ทธ๋จ์ ํตํด ๋ชจ์์ ๊ด์ฐฐ
- ๋ฐ์ดํฐ๊ฐ 2๊ฐ์ ๊ฐ(0 ๋๋ 1)๋ง ๊ฐ์ง -> ๋ฒ ๋ฅด๋์ด ๋ถํฌ
- ๋ฐ์ดํฐ๊ฐ n๊ฐ์ ์ด์ฐ์ ์ธ ๊ฐ์ ๊ฐ์ง -> ์นดํ ๊ณ ๋ฆฌ ๋ถํฌ
- ๋ฐ์ดํฐ๊ฐ [0, 1] ์ฌ์ด์์ ๊ฐ์ ๊ฐ์ง -> ๋ฒ ํ ๋ถํฌ
- ๋ฐ์ดํฐ๊ฐ 0 ์ด์์ ๊ฐ์ ๊ฐ์ง -> ๊ฐ๋ง ๋ถํฌ, ๋ก๊ทธ์ ๊ท ๋ถํฌ
- ๋ฐ์ดํฐ๊ฐ R ์ ์ฒด์์ ๊ฐ์ ๊ฐ์ง -> ์ ๊ท ๋ถํฌ, ๋ผํ๋ผ์ค ๋ถํฌ ๋ฑ
5) ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์๋ฆฌ๋ฅผ ๋จผ์ ๊ณ ๋ คํ ๊ฒ
2. ๋ชจ์ ์ถ์
1) ํ์ง๋ถํฌ(sampling distribution) : ํต๊ณ๋์ ํ๋ฅ ๋ถํฌ
2) ์ค์ฌ๊ทนํ์ ๋ฆฌ(Central Limit Theorem) : N์ด ์ปค์ง์๋ก ์ ๊ท๋ถํฌ N(μ, σ^2/N)์ ๋ฐ๋ฆ
3. ์ต๋๊ฐ๋ฅ๋ ์ถ์ ๋ฒ(MLE, Maximum Likelihood Estimation)
1) ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ์ด ๋์ ๋ชจ์๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ ์ค ํ๋
2) ๊ฐ๋ฅ๋(likelihood) : ๋ชจ์ θ๋ฅผ ๋ฐ๋ฅด๋ ๋ถํฌ x๋ฅผ ๊ด์ฐฐํ ๊ฐ๋ฅ์ฑ
+ ํ๋ฅ ๋ก ํด์ X. ๋์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ ํจ์ ์ ๋๋ก ํด์ O
3) ๋ฐ์ดํฐ ์งํฉ X๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ถ์ถ๋์์ ๊ฒฝ์ฐ ๋ก๊ทธ๊ฐ๋ฅ๋๋ฅผ ์ต์ ํํจ
+ ๋ก๊ทธ๊ฐ๋ฅ๋๋ฅผ ์ฌ์ฉํ๋ ์ด์ : ์ฐ์ฐ๋์ ์ค์ฌ์ค
4) ๋ฅ๋ฌ๋์์ ์ต๋๊ฐ๋ฅ๋ ์ถ์ ๋ฒ : ์ํซ๋ฒกํฐ๋ก ํํํ ์ ๋ต๋ ์ด๋ธ์ ์ด์ฉํด ํ๋ฅ ๋ณ์์ธ ์ํํธ๋งฅ์ค ๋ฒกํฐ์ ๋ก๊ทธ๊ฐ๋ฅ๋๋ฅผ ์ต์ ํ
4. ํ๋ฅ ๋ถํฌ์ ๊ฑฐ๋ฆฌ
1) ์์คํจ์๋ ๋ชจ๋ธ์ด ํ์ตํ๋ ํ๋ฅ ๋ถํฌ ~ ๋ฐ์ดํฐ์์ ๊ด์ฐฐ๋๋ ํ๋ฅ ๋ถํฌ์ ๊ฑฐ๋ฆฌ๋ฅผ ํตํด ์ ๋
2) ์ด๋ณ๋ ๊ฑฐ๋ฆฌ(TV, Total Variation Distance)
3) ์ฟจ๋ฐฑ-๋ผ์ด๋ธ๋ฌ ๋ฐ์ฐ(KL, Kullback-Leibler Divergence)
- ์ด์ฐํ๋ฅ ๋ณ์
- ์ฐ์ํ๋ฅ ๋ณ์
- ๋ถํด
- ์ ๋ต ๋ ์ด๋ธ์ P, ๋ชจ๋ธ ์์ธก์ Q๋ผ๊ณ ํ ๋, ์ต๋๊ฐ๋ฅ๋ ์ถ์ ๋ฒ์ ์ฟจ๋ฐฑ-๋ผ์ด๋ธ๋ฌ ๋ฐ์ฐ์ ์ต์ํํจ
4) ๋ฐ์ํ์ธ ๊ฑฐ๋ฆฌ(Wasserstein Distance)
๐ ์ค๋์ ํ๊ณ
์ค์ ์ ํผ์ด์ธ์ ์ดํผ์์ต๋๋ค๐ธ๋ฅผ ์์์ผ๋ก ํ๋ฃจ๊ฐ ์์๋์๋ค. ๊ฐ์ ํธ๋์ ๋ค๋ฅธ ์บ ํผ๋ถ๋ค๋ ๊ถ๊ธํ๋๋ฐ ์ด๋ฒ ์ธ์ ์ ํตํด์ ๋ค๋ฅธ ์บ ํผ๋ถ๋ค์ ์ด๋ค ๋ถ๋ค์ธ์ง, ์ด๋ป๊ฒ ๊ทธ๋ผ์ด๋ ๋ฃฐ์ ์ ํ๊ณ ํผ์ด์ธ์ ์ ์ด์ํ๊ณ ์๋์ง ์์๋ณผ ์ ์์๋ค. CV ํธ๋์ ํ์ด ๋ง์์ ๋ฐ์ฉ ๋๋์ด์ ํ ๊ฒ ์์ฌ์ ๋คใ -ใ ์ธ์ ์ด ๋๋๊ณ ์ ๊น ์ฌ๊ณ ์ ์ฌ์ ๋จน๊ณ , ๋ค์ ํ์ต์ ๋ค์ด๊ฐ๋ค. ์ด์ ๋ถํฐ ์ด์ง ๊ฐ์๋ฅผ ๋ค ๋ค์ ์ ์์์ง ๊ฑฑ์ ์ด ๋์ด์ ์ค๋์ ์์ ์ง์คํด์ ๊ฐ์๋ ํด์ฆ๋ฅผ ํ์๋ค๐ฅ ์ฌ์ ํ ํ๋ฅ ๊ณผ ํต๊ณ ํํธ๋ ๋๋ฌด๋๋ฌด ์ด๋ ต๋คใ ใ ๋๋๋ก์ด๋ฉด 10์~7์ ์ง์ผ์ ๊ณต๋ถํ๋ ค๊ณ ํ์ง๋ง ์ค๋์ 10์๊น์ง ๊ฐ์ ๋ฃ๊ณ ํด์ฆ ํ๊ณ , ์ฌํ ๊ณผ์ 1๋ฒ๋ ํด๊ฒฐํด๋ดค๋ค! ์ฌ์ค ์ฒ์ ์ฌํ ๊ณผ์ ๋ดค์ ๋์๋ ๋ด๊ฐ ์ด ๋ฌธ์ ๋ค์ ํ ์ ์์๊น ๊ฑฑ์ ๋ง ๋ง์๋๋ฐ, ๋ง์ ๊ฐ์ ๋ฃ๊ณ ํ๊ณ ์คํ์ ๋๋ฅด๋... ์คํ์ด.. ๋..๋ค...(๊ตฟ) ์ค๋ ์ง์คํ๋งํผ ๋ด์ผ๋ ์ง์คํด์ AI Math ๊ฐ์ ๋๋ด๊ณ ๋ค์ ํ์ด์ฌ ๊ฐ์ ๋ค์ด๊ฐ๋๊ฑธ๋กโจ
'Boostcourse > AI Tech 4๊ธฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ถ์คํธ์บ ํ AI Tech]WEEK 02_DAY 06 (1) | 2022.09.26 |
---|---|
[๋ถ์คํธ์บ ํ AI Tech]WEEK 01_DAY 05 (1) | 2022.09.23 |
[๋ถ์คํธ์บ ํ AI Tech]WEEK 01_DAY 04 (1) | 2022.09.22 |
[๋ถ์คํธ์บ ํ AI Tech]WEEK 01_DAY 02 (1) | 2022.09.21 |
[๋ถ์คํธ์บ ํ AI Tech]WEEK 01_DAY 01 (1) | 2022.09.20 |