# ML : Classification
What is 'Classification'?
The classification problem is just like the regression problem, except that the values we now want to predict take on only a small number of discrete values.
- Supervised Learning의 한 종류
- True / False , 0 / 1 등 '명확하게 구분되어지는' 내용들로 분류되는 경우
- 꼭 2가지가 아니라 여러개로 구분되는 (Multi Classification) 경우도 존재
위의 그림은 악성 종양의 크기(x)에 대한 양성 판정(y)의 가정을 나타내는 h(x)의 그래프를 나타낸다.
빨간색의 X 표시들을 이용하여 우리가 h(x) 그래프를 만들고자 할 때, 우리는 다음과 같은 식을 이용할 수 있다.
첫번째로 보라색 선을 예로 들자. h(x)의 값이 0.5일 때, 다음과 같이 구분할 수 있다.
- h(x) >= 0.5 -> y = 1(Malignant)
- h(x) < 0.5 -> y = 0 (Benign)
하지만 추후에 맨 오른쪽에 있는 빨간 X가 추가되면서 그래프가 변형되었다고 할 때, 변형된 내용에 대한 새로운 그래프를 파란색과 같이 그린다고 하자.
이 경우에는 0.5를 기준으로 악성 종양의 여부를 '정확하게 구분하기 어렵게' 된다. 결국 정확하지 않은 그래프를 가지고 데이터를 구별하게 될 수 있다는 것이다.
이를 해결하기 위한 방법이 Logistic Regression 이다. 이는 다음에 설명한다.
댓글
댓글 쓰기