이번 문제는 본격적으로 데이터 셋을 만드는 문제이다. 학습데이터셋, 검증데이터셋, 테스트데이터셋으로 나누면 되는 문제. 사실 train validation test ratio만 검색해도 어떤 비율로 데이터를 나눠야하는 지 많이 나온다. 주로 train/test만 사용할때는 70/30 비율로 사용하고 train/validation/test는 60/20/20으로 사용한다. scikit-learn에서 제공하는 메소드를 사용하면 쉽게 데이터셋을 분리할 수 있다. train_test_split(x,y,test_size=0.25,random_state=1) 이런식으로 사용하면 된다. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection...