머신러닝이란? 다수의 데이터가 모여있는 집합인 데이터셋으로부터 데이터 과학자가 고려하고 있는 문제를 학습하고, 모델이 전혀 보지 못했던 데이터셋을 통해 예측하는 것. 그리고 이 예측의 정확도가 높을 수록 성능이 좋은 모델이라고 할 수 있다. 머신러닝에서 다루는 문제의 카테고리를 다음과 같이 나눌 수 있다. supervised learning a. classification : 2개 또는 이상의 클래스에 속하는 샘플들을 학습하고 클래스 라벨링이 되어있지 않은 데이터를 입력으로 줬을 때 클래스를 맞추는(분류하는) 문제, 분류 문제는 이산적인 카테고리로 구성되어 있다. b. regression : 하나 또는 이상의 연속적인 변수들로 구성된 출력을 예측하는 문제 unsupervised learning clust..