앎을 경계하기

sklearn 3

2. 사이킷런을 사용하는 머신러닝

머신러닝이란? 다수의 데이터가 모여있는 집합인 데이터셋으로부터 데이터 과학자가 고려하고 있는 문제를 학습하고, 모델이 전혀 보지 못했던 데이터셋을 통해 예측하는 것. 그리고 이 예측의 정확도가 높을 수록 성능이 좋은 모델이라고 할 수 있다. 머신러닝에서 다루는 문제의 카테고리를 다음과 같이 나눌 수 있다. supervised learning a. classification : 2개 또는 이상의 클래스에 속하는 샘플들을 학습하고 클래스 라벨링이 되어있지 않은 데이터를 입력으로 줬을 때 클래스를 맞추는(분류하는) 문제, 분류 문제는 이산적인 카테고리로 구성되어 있다. b. regression : 하나 또는 이상의 연속적인 변수들로 구성된 출력을 예측하는 문제 unsupervised learning clust..

<DAFIT> 06 머신러닝을 통한 당뇨병 예측 - 05 Decision Tree를 이용한 당뇨병 예측

의사결정트리(Decision Tree)는 여러 분류 규칙을 적용하여 분류문제 또는 회귀문제에 적용할 수 있는 분류 모형이다. 아래 그림과 같이 트리 구조로 되어있는 분류 규칙을 따라서 classification 할 수 있다. scikit-learn에서 쉽게 decision tree를 사용할 수 있도록 제공하고 있다. from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split import pandas as pd import numpy as np 필요 패키지들 임포트해주고, data = pd.read_csv("/content/drive/My Drive/다핏문제/906/datas..

<DAFIT> 06 머신러닝을 통한 당뇨병 예측 - 04 데이터 분할

이번 문제는 본격적으로 데이터 셋을 만드는 문제이다. 학습데이터셋, 검증데이터셋, 테스트데이터셋으로 나누면 되는 문제. 사실 train validation test ratio만 검색해도 어떤 비율로 데이터를 나눠야하는 지 많이 나온다. 주로 train/test만 사용할때는 70/30 비율로 사용하고 train/validation/test는 60/20/20으로 사용한다. scikit-learn에서 제공하는 메소드를 사용하면 쉽게 데이터셋을 분리할 수 있다. train_test_split(x,y,test_size=0.25,random_state=1) 이런식으로 사용하면 된다. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection...