# ML : Gradient Descent for Linear Regression

# ML : Gradient Descent for Linear Regression

1. Gradient Descent Algorithm을 Linear Regression Model에 연관시키는 방법

우리는 actual cost function과 actual hypothesis function을 대체함으로써 다음과 같은 식을 도출할 수 있게 된다.

좌측의 J(θ₀,θ₁) 에 우측의 식을 대입하게 되면 다음과 같다.

이를 이용하여 식을 유도하게 되면,

결국 θ₀,θ₁에 대해 각각을 미분하게 되면, 다음과 같은 공식을 도출할 수 있다.

이를 정리하면 다음과 같다.

θ₀,θ₁를 두개의 case로 분리시킴으로서, 별도의 방정식으로 구성하였다.
이 때, θ₁는 맨 마지막에 x_i를 추가적으로 곱해준다. (파생적으로)
m = training set의 크기
θ₀= 주어진 training set의 θ_{1 ,}x_i, y_i값과 simultaneously 하게(동시에 개별적으로) 변화하는 상수 값

위의 식을 통하여 얻을 수 있는 식은 다음과 같다.

위를 통해 hypothesis를 추측하고, gradient descent algorithm을 반복적으로 적용하게 되면, 세운 가설의 정확도를 향상시킬 수 있다.

2. Batch Gradient Descent

위에서 세운 gradient descent에 대한 공식은 original cost function J에 대한 내용
전체 training set의 모든 경우를 확인 = Batch Gradient Descent라고 불림
Note that, while gradient descent can be susceptible to local minimal in general, the optimization problem we have posed here for linear regression has only one global, and no other local, optima.

일반적으로 지역적 최소 점에 영향을 받을 수 있음
하지만 최적화 문제는 전역적으로 발생하며, 지역적 최적화는 존재하지 않음

그러므로 Gradient Descent는 α가 적당한 크기를 갖는다고 가정할 때, 전역 최소값으로 항상 수렴하게 된다.

위의 그림은 2차 함수의 윤곽을 표시하고 있는데, 초기 값으로 맨 오른쪽 포인트인 (48,30)으로부터 시작하여 왼쪽으로 이동하고 있다.
θ의 연속적인 값으로 인하여 포인트가 원의 중심으로 이동할수록, Gradient Descent가 최소 값으로 수렴하게 된다.

3. Additional Example

일반적으로 Linear Regression의 경우 항상 convex function(Bowl shape)를 지닌다.
이 함수는 기본적으로 전역 최적값(global optimum)만을 갖는다.

하나의 해만을 갖는다는 의미

h(x)의 그래프(기울기)는 점점 straight function이 되는데, 이는 J(θ₀,θ₁) 가 원의 중심부로 점점 이동하고 있음을 보여준다.
원의 중심부로 이동할수록, 최적의 hypothesis를 확인할 수 있게 된다.

댓글