앎을 경계하기

dataset 3

DATASET - Semantic Segmentation

Semantic Segmentation(계속 업데이트 중) 1. Cityscapes URL - https://www.cityscapes-dataset.com/ Cityscapes는 도시 길거리의 의미론적 이해를 위한 대용량 데이터셋입니다. 이 데이터셋은 semantic, instance-wise, dense pixel annotation된 라벨을 제공합니다. 라벨링은 8개 카테고리(평지, 사람, 차량, 건축물, 객체, 자연, 하늘, void)로 그룹화된 30개 클래스로 구성되어 있습니다. 5000개의 fine label 이미지들과 20000 coarse label 이미지들로 구성되어 있습니다. 이미지들은 여러 날짜, 좋은 날씨에서 50개의 도시에서 촬영되었습니다. 원래는 비디오로 녹화된 데이터였는데 각 ..

Machine Learning 2021.02.05

DATASET - Image Classification

Image Classification(계속 업데이트 중) 1. ImageNet URL - http://image-net.org/download WordNet 계층구조를 따른 14,197,122 장의 supervised learning(labeled) 데이터셋입니다. ImageNet Large Scale Visual Recognition Challenge(ILSVRC) 대회에서 Image classification과 Object Detection 성능평가 데이터셋으로 사용되었습니다. 라벨링된 Train 데이터와 라벨링되지 않은 Test 데이터셋 전부 공개된 데이터셋입니다. ILSVRC annotations는 두개의 범주 중 하나에 속합니다. (1)이미지 안에 객체 클래스가 존재하는지 아닌지에 대한 Bina..

Machine Learning 2021.02.05

<DAFIT> 06 머신러닝을 통한 당뇨병 예측 - 04 데이터 분할

이번 문제는 본격적으로 데이터 셋을 만드는 문제이다. 학습데이터셋, 검증데이터셋, 테스트데이터셋으로 나누면 되는 문제. 사실 train validation test ratio만 검색해도 어떤 비율로 데이터를 나눠야하는 지 많이 나온다. 주로 train/test만 사용할때는 70/30 비율로 사용하고 train/validation/test는 60/20/20으로 사용한다. scikit-learn에서 제공하는 메소드를 사용하면 쉽게 데이터셋을 분리할 수 있다. train_test_split(x,y,test_size=0.25,random_state=1) 이런식으로 사용하면 된다. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection...