(해당 내용은 아래 강의 내용을 보면서 정리한 내용입니다.)
https://www.coursera.org/learn/machine-learning
지난번 포스팅에서 내가 ML이 무엇인지 간단하게 정리를 했었다.
https://devkingdom.tistory.com/229?category=944143
아주 간단하게 설명을 드리겠다. 강의의 내용에서는 주택 가격을 가지고 설명을 했는데, 나는 조금 더 쉽게 공감이 가게 우리나라 전세 가격 예측으로 설명을 드리겠다.
아래 그래프를 보자.
실제 정확한 데이터는 아니지만 주택의 전세가격이 위의 데이터를 따른다고 가정해보자.
여기서 저 점을 따라서 선을 죽 그어 보자.
이렇게 줄을 그어 놓으면 (이론적으로는) 우리가 주택 전세가격을 예상가능하게 된다.
예를들어서 50m²의 집은 1.5억 정도 하고, 100m²의 집은 6억 정도 하는구나 하고 예측이 가능해진다.
머신러닝에 조금이라도 관심이 있으신 분들은 학습이라는 단어를 들어보신적 있을 것이다.
여기서 내가 그은 저 빨간 선을 학습 알고리즘이라고 표현한다.
오늘 내가 제목으로 단게 지도학습(Supervised Learning) 인데 지도학습이 뭔지 간단하게 요약을 해보면
우리가 알고리즘이 학습할 수 있도록 데이터 집합을 주는데 여기서 주는 데이터들은 다 정답이 포함되어 있는 것이다.
우리는 정답이 있는 데이터들을 학습시킴으로써 알고리즘이 정답을 더 많이 만들어 내도록한다.
여기서 정답이란 각 면적에 대한 주택 전세 가격이 될 것이다. 즉 , 저 점들이 정답이 될 것이다. 이 점들이 늘어나면 늘어날 수록 데이터는 정교해지고 정확해질 것이다.
맨 처음 점만 찍혀있는 그래프는 어찌보면 불연속적인 상태였다. 하지만 우리는 그 점에 대략적인 곡선을 그으면서 연속된 값을 가진 결과를 예측하려고한다. 이걸 바로 회귀 문제( regression problem) 이라고 한다.
이번엔 또 새로운 문제를 다뤄 보자.
어떤 병이 있다고 가정하자. (아무런 의학적 근거가 없는 내가 지어낸 병이다). 편하게 A라는 병이라고 하겠다.
위의 그래프에서 빨간점이 그 병에 걸린사람이고 파란점이 안 걸린사람이라 생각해보자.
나이와 기침 횟수를 속성으로 하여 분포를 그려보니 위의 그래프가 나왔다라고 했을때, 아 나이와 기침 횟수가 A병에 연관이 있다고 생각이 들 것이다. 여기서 우리가 정확하게 구분하는 선을 하나 그어보자.
이렇게 선을 그으면 우리는 대략적으로 기침횟수와 나이를 대입해 A병인지 아닌지를 판단할 수 있다.
예상하시는 것처럼 이 선이 바로 학습 알고리즘이다. 그리고 이와 같이 이다 아니다를 분류하는 문제를 지도학습 중 분류 문제(classfication problem) 이라 부른다.
분류문제는 불연속적인 값을 예측하려고하는 건데 , 즉 결과 값들이 이산적인것들을 분류 문제로 처리할 수 있다고 생각하면 된다.
자... 지도 학습 대충 이해가 되나모르겠다.
오늘 예시는 회귀문제든 분류문제든 2가지 특성(feature)이나 속성(attribute)를 써서 사용한 걸 보여드렸는데
실제 머신러닝을 할때는 속성을 더 많이 쓴다. 거의 무한대로 가깝게 까지 쓴다. 그래야 우리가 원하는 예측이 가능해진다.
오늘은 지도학습에 대해 열심히 얘기를 해봤으니 다음은 비지도학습에 대해 얘기를 해보겠다. 그럼 다들 즐거운 주말되시길~~~!
'ETC > ML and AI' 카테고리의 다른 글
[ML] 비지도학습 (Unsupervised Learning)이란? (0) | 2021.06.01 |
---|---|
[ML] 머신러닝이란? (0) | 2021.05.06 |
댓글