-
Regression(회귀) : 데이터의 경향성으로 연속적인 수치를 예측 vs Classification(분류) : 데이터를 정해진 범주에 따라 분류
→ Regression은 반응 변수가 연속적이라는 점을 제외하면 Classification과 같습니다.
RSS (Residual Sum of Squares) :
→ loss function, cost function으로 사용Finding the MLE :
→ Normal Equation :
, Ordinary Least Square : 
Gradient Descent Method :
Learning Rate)Stochastic Gradient Descent : Only using randomly picked one xi per step
Linear Regression with Gaussian Distribution Likelihood :

Laplace Distribution :
(
) → Outlier가 가우시안 분포보다 더 잘 나옴Regularization : Overfitting 문제를 해결하기 위해 매개변수 앞에 가우시안을 추가하여 크기를 작게 하는 것
-
NLL (Negative Log-Likelihood) :

Q. Logistic Regression****에서 Sigmoid 함수를 사용하는 이유**?**
-
k-NN : k 개의 가장 가까운 이웃이 어떻게 구성되어 있는지 비교하여 분류를 수행한다.
step 1. 입력에서 훈련 세트 데이터까지의 거리 계산
\2. 가장 가까운 이웃 거리의 "k"를 검사
\3. class의 대다수에 따라 class를 결정한다.
-
Supervised Learning : 입력과 출력 데이터에 의해 구동된다 “training 세트“
Unsupervised Learning : 입력 데이터에 의해서만 구동된다.
Clustering : 대표적인 Unsupervised Learning 알고리즘
k-Means Clustering Algorithm
Initialize Z={z1, z2, ..., zk}
while (true)
for (i=1 to N) // M step (Maximization)
Map xi into the nearest zj
if (No change of mapping from the previous loop)
break
for (j=1 to K) // E step (Expectation)
replace zj with the mean of the xi mapped to zj
for (j=1 to K)
allocate the samples mapped to zj to cj
Categorial Distribution : 여러 개의 값을 가질 수 있는 독립 확률 변수들에 대한 확률분포
Mixture Model :
, prior :
, likelihood : 
Gaussian Mixture Model :
→ 가우시안 분포가 여러 개 혼합된 Clustering 모델Soft Clustering : 각
에 대해 확률을 다 내는 것 vs Hard Clustering : 최대 확률을 가지는
에 대해서만 내는 것 -
Transforming Data : Increasing Dimension
Linearizing Decision Boundary : D-차원 벡터로의 적절한 변환으로, 데이터는 더 높은 Q-차원에서 선형으로 분리 가능
Kernel Function :
고차원에서의 벡터 계산을 저차원에서 계산으로 바꿔주는 역할 -
Lagrange Multiplier : Minimize f(x,y)=ax+by subject to g(x,y)=x2+y2-r →
⇒
KKT↓Handling Inequality Constraints : Minimize f(x) subject to g(x)
0 →
⇒
, 
-
Support Vector : 경계를 결정하는 샘플들
Support Vector Machine : 마진을 최대화하여 일반적으로 분류 모델의 정확성을 향상시키는 것
Boundary hyperplane : h(x)=wTx+b=0 , h(x)>0 → yi=+1 / h(x)<0 → yi=-1
Distance Point to Hyperplane : (a1, a2, a3) ~ (b1, b2, b3)T
(x1, x2, x3)=c → a1b1+a2b2+a3b3-c ⇒ 
SVM apply Lagrange : Minimize
subject to 
































