Scikit-learn
- Benchmark용 Dataset example
- Data preprocessing
- Supervised Learning
- Unsupervised Learning
- Model evaluation and selection
sklearn.datasets
: 예제 데이터셋 제공
- load 계열 : scikit-learn 패키지에 같이 포함된 데이터
- fetch 계열 : 인터넷에서 다운로드할 수 있는 대량의 데이터
- make 계열 : 확률분포를 사용해 가상의 데이터 생성
load_boston
: 보스턴 집값 (회귀 분석용)
load_diabetes
: 당뇨병 (회귀 분석용)
load_linnerud
: linnerud (회귀 분석용)
load_iris
: 붓꽃 (분류용)
load_digits
: 숫자 필기 (분류용)
load_wine
: 포도주 등급 (분류용)
load_breast_cancer
: 유방암 진단 (분류용)
fetch_california_housing
: 캘리포니아 집값 (회귀 분석용)
fetch_covtype
: 토지 조사 (회귀 분석용)
fetch_20newsgroups
: 뉴스 그룹 텍스트 자료
fetch_livetti_faces
: 얼굴 이미지
fetch_lfw_people
: 유명인 얼굴 이미지
fetch_lfw_pairs
: 유명인 얼굴 이미지
fetch_kddcup99
: Kddcup 99 TCP dump
fetch_rcv1
: 로이터 뉴스 말뭉치
make_regression
: 회귀 분석용 가상 데이터 생성
make_classification
: 분류용 가상 데이터 생성
make_blobs
: 클러스터링용 가상 데이터 생성
데이터 형식
scikit-learn dataset은 Bunch
라는 클래스 객체 형식으로 생성
data
: 독립 변수, ndarraytarget
: 종속 변수, ndarrayfeature_names
: 독립 변수 이름 리스트target_names
: 종속 변수 이름 리스트DESCR
: 자료 설명
출처 : https://datascienceschool.net/view-notebook/293ece8b0d124fbaa4d4d52bb8f1cb42/
'Machine Learning' 카테고리의 다른 글
[머신러닝 개념정리] Normalization/Standardization/Regularization (0) | 2020.04.08 |
---|---|
[머신러닝 개념 정리] learning rate (0) | 2020.04.08 |
선형(Linear)에 대한 이해 (0) | 2019.11.23 |
Monte Carlo Tree Search (0) | 2019.10.28 |
PyTorch - What is PyTorch (1) (0) | 2019.10.16 |