Scikit-learn
- Benchmark용 Dataset example
- Data preprocessing
- Supervised Learning
- Unsupervised Learning
- Model evaluation and selection
sklearn.datasets : 예제 데이터셋 제공
- load 계열 : scikit-learn 패키지에 같이 포함된 데이터
- fetch 계열 : 인터넷에서 다운로드할 수 있는 대량의 데이터
- make 계열 : 확률분포를 사용해 가상의 데이터 생성
load_boston : 보스턴 집값 (회귀 분석용)
load_diabetes : 당뇨병 (회귀 분석용)
load_linnerud : linnerud (회귀 분석용)
load_iris : 붓꽃 (분류용)
load_digits : 숫자 필기 (분류용)
load_wine : 포도주 등급 (분류용)
load_breast_cancer : 유방암 진단 (분류용)
fetch_california_housing : 캘리포니아 집값 (회귀 분석용)
fetch_covtype : 토지 조사 (회귀 분석용)
fetch_20newsgroups : 뉴스 그룹 텍스트 자료
fetch_livetti_faces : 얼굴 이미지
fetch_lfw_people : 유명인 얼굴 이미지
fetch_lfw_pairs : 유명인 얼굴 이미지
fetch_kddcup99 : Kddcup 99 TCP dump
fetch_rcv1 : 로이터 뉴스 말뭉치
make_regression : 회귀 분석용 가상 데이터 생성
make_classification : 분류용 가상 데이터 생성
make_blobs : 클러스터링용 가상 데이터 생성
데이터 형식
scikit-learn dataset은 Bunch 라는 클래스 객체 형식으로 생성
data: 독립 변수, ndarraytarget: 종속 변수, ndarrayfeature_names: 독립 변수 이름 리스트target_names: 종속 변수 이름 리스트DESCR: 자료 설명
출처 : https://datascienceschool.net/view-notebook/293ece8b0d124fbaa4d4d52bb8f1cb42/
'Machine Learning' 카테고리의 다른 글
| [머신러닝 개념정리] Normalization/Standardization/Regularization (0) | 2020.04.08 |
|---|---|
| [머신러닝 개념 정리] learning rate (0) | 2020.04.08 |
| 선형(Linear)에 대한 이해 (0) | 2019.11.23 |
| Monte Carlo Tree Search (0) | 2019.10.28 |
| PyTorch - What is PyTorch (1) (0) | 2019.10.16 |