본문 바로가기
ETC/ML and AI

[ML] 지도학습 (Supervised Learning)이란?

by 코딩의성지 2021. 5. 28.

(해당 내용은 아래 강의 내용을 보면서 정리한 내용입니다.)

https://www.coursera.org/learn/machine-learning

 

기계 학습

스탠퍼드 대학교에서 제공합니다. Machine learning is the science of getting computers to act without being explicitly programmed. In the past decade, machine ... 무료로 등록하십시오.

www.coursera.org

 

지난번 포스팅에서 내가 ML이 무엇인지 간단하게 정리를 했었다.

 

https://devkingdom.tistory.com/229?category=944143 

 

[ML] 머신러닝이란?

머신러닝에 대해서 처음으로 글을 써보려 한다. 요즘 강의를 듣고 있는게 하나 있는데 ... 아래 링크의 이 강의를 열심히 듣고 내용을 여기다 좀 정리해보려고한다. www.coursera.org/learn/machine-learning

devkingdom.tistory.com

 

아주 간단하게 설명을 드리겠다. 강의의 내용에서는 주택 가격을 가지고 설명을 했는데, 나는 조금 더 쉽게 공감이 가게 우리나라 전세 가격 예측으로 설명을 드리겠다.

 

아래 그래프를 보자.

 

 

실제 정확한 데이터는 아니지만 주택의 전세가격이 위의 데이터를 따른다고 가정해보자.

 

여기서 저 점을 따라서 선을 죽 그어 보자.

 

이렇게 줄을 그어 놓으면 (이론적으로는) 우리가 주택 전세가격을 예상가능하게 된다.

예를들어서 50m²의 집은 1.5억 정도 하고, 100m²의 집은 6억 정도 하는구나 하고 예측이 가능해진다.

 

머신러닝에 조금이라도 관심이 있으신 분들은 학습이라는 단어를 들어보신적 있을 것이다.

 

여기서 내가 그은 저 빨간 선을 학습 알고리즘이라고 표현한다.

 

오늘 내가 제목으로 단게 지도학습(Supervised Learning) 인데  지도학습이 뭔지 간단하게 요약을 해보면

 

우리가 알고리즘이 학습할 수 있도록 데이터 집합을 주는데 여기서 주는 데이터들은 다 정답이 포함되어 있는 것이다.

우리는 정답이 있는 데이터들을 학습시킴으로써 알고리즘이 정답을 더 많이 만들어 내도록한다.

여기서 정답이란 각 면적에 대한 주택 전세 가격이 될 것이다. 즉 , 저 점들이 정답이 될 것이다. 이 점들이 늘어나면 늘어날 수록 데이터는 정교해지고 정확해질 것이다.

 

맨 처음 점만 찍혀있는 그래프는 어찌보면 불연속적인 상태였다. 하지만 우리는 그 점에 대략적인 곡선을 그으면서 연속된 값을 가진 결과를 예측하려고한다. 이걸 바로 회귀 문제( regression problem) 이라고 한다.

 

이번엔 또 새로운 문제를 다뤄 보자.

 

어떤 병이 있다고 가정하자. (아무런 의학적 근거가 없는 내가 지어낸 병이다). 편하게 A라는 병이라고 하겠다.

위의 그래프에서 빨간점이 그 병에 걸린사람이고 파란점이 안 걸린사람이라 생각해보자.

나이와 기침 횟수를 속성으로 하여 분포를 그려보니 위의 그래프가 나왔다라고 했을때, 아 나이와 기침 횟수가 A병에 연관이 있다고 생각이 들 것이다. 여기서 우리가 정확하게 구분하는 선을 하나 그어보자.

 

이렇게 선을 그으면 우리는 대략적으로 기침횟수와 나이를 대입해 A병인지 아닌지를 판단할 수 있다.

예상하시는 것처럼 이 선이 바로 학습 알고리즘이다. 그리고 이와 같이 이다 아니다를 분류하는 문제를 지도학습 중 분류 문제(classfication problem) 이라 부른다.

 

분류문제는 불연속적인 값을 예측하려고하는 건데 , 즉 결과 값들이 이산적인것들을 분류 문제로 처리할 수 있다고 생각하면 된다.

 

자... 지도 학습 대충 이해가 되나모르겠다.

오늘 예시는 회귀문제든 분류문제든 2가지 특성(feature)이나 속성(attribute)를 써서 사용한 걸 보여드렸는데

실제 머신러닝을 할때는 속성을 더 많이 쓴다. 거의 무한대로 가깝게 까지 쓴다. 그래야 우리가 원하는 예측이 가능해진다.

 

오늘은 지도학습에 대해 열심히 얘기를 해봤으니 다음은 비지도학습에 대해 얘기를 해보겠다. 그럼 다들 즐거운 주말되시길~~~!

반응형

'ETC > ML and AI' 카테고리의 다른 글

[ML] 비지도학습 (Unsupervised Learning)이란?  (0) 2021.06.01
[ML] 머신러닝이란?  (0) 2021.05.06

댓글