# ML : Gradient Descent for Linear Regression
1. Gradient Descent Algorithm을 Linear Regression Model에 연관시키는 방법
- 우리는 actual cost function과 actual hypothesis function을 대체함으로써 다음과 같은 식을 도출할 수 있게 된다.
- 좌측의 J(θ0,θ1) 에 우측의 식을 대입하게 되면 다음과 같다.
- 이를 이용하여 식을 유도하게 되면,
- 결국 θ0,θ1 에 대해 각각을 미분하게 되면, 다음과 같은 공식을 도출할 수 있다.
- 이를 정리하면 다음과 같다.
- θ0,θ1 를 두개의 case로 분리시킴으로서, 별도의 방정식으로 구성하였다.
- 이 때, θ1 는 맨 마지막에 xi 를 추가적으로 곱해준다. (파생적으로)
- m = training set의 크기
- θ0 = 주어진 training set의 θ1 , xi , yi 값과 simultaneously 하게(동시에 개별적으로) 변화하는 상수 값
- 위의 식을 통하여 얻을 수 있는 식은 다음과 같다.
- 위를 통해 hypothesis를 추측하고, gradient descent algorithm을 반복적으로 적용하게 되면, 세운 가설의 정확도를 향상시킬 수 있다.
2. Batch Gradient Descent
- 위에서 세운 gradient descent에 대한 공식은 original cost function J에 대한 내용
- 전체 training set의 모든 경우를 확인 = Batch Gradient Descent라고 불림
- Note that, while gradient descent can be susceptible to local minimal in general, the optimization problem we have posed here for linear regression has only one global, and no other local, optima.
- 일반적으로 지역적 최소 점에 영향을 받을 수 있음
- 하지만 최적화 문제는 전역적으로 발생하며, 지역적 최적화는 존재하지 않음
- 그러므로 Gradient Descent는 α가 적당한 크기를 갖는다고 가정할 때, 전역 최소값으로 항상 수렴하게 된다.
- 위의 그림은 2차 함수의 윤곽을 표시하고 있는데, 초기 값으로 맨 오른쪽 포인트인 (48,30)으로부터 시작하여 왼쪽으로 이동하고 있다.
- θ의 연속적인 값으로 인하여 포인트가 원의 중심으로 이동할수록, Gradient Descent가 최소 값으로 수렴하게 된다.
3. Additional Example
댓글
댓글 쓰기