Machine Learning

Scikit-learn Datasets 관련 정리

양갱맨 2020. 2. 14. 09:56

Scikit-learn

Benchmark용 Dataset example
Data preprocessing
Supervised Learning
Unsupervised Learning
Model evaluation and selection

sklearn.datasets : 예제 데이터셋 제공

load 계열 : scikit-learn 패키지에 같이 포함된 데이터
fetch 계열 : 인터넷에서 다운로드할 수 있는 대량의 데이터
make 계열 : 확률분포를 사용해 가상의 데이터 생성

load_boston : 보스턴 집값 (회귀 분석용)

load_diabetes : 당뇨병 (회귀 분석용)

load_linnerud : linnerud (회귀 분석용)

load_iris : 붓꽃 (분류용)

load_digits : 숫자 필기 (분류용)

load_wine : 포도주 등급 (분류용)

load_breast_cancer : 유방암 진단 (분류용)

fetch_california_housing : 캘리포니아 집값 (회귀 분석용)

fetch_covtype : 토지 조사 (회귀 분석용)

fetch_20newsgroups : 뉴스 그룹 텍스트 자료

fetch_livetti_faces : 얼굴 이미지

fetch_lfw_people : 유명인 얼굴 이미지

fetch_lfw_pairs : 유명인 얼굴 이미지

fetch_kddcup99 : Kddcup 99 TCP dump

fetch_rcv1 : 로이터 뉴스 말뭉치

make_regression : 회귀 분석용 가상 데이터 생성

make_classification : 분류용 가상 데이터 생성

make_blobs : 클러스터링용 가상 데이터 생성

데이터 형식

scikit-learn dataset은 Bunch 라는 클래스 객체 형식으로 생성

data : 독립 변수, ndarray
target : 종속 변수, ndarray
feature_names : 독립 변수 이름 리스트
target_names : 종속 변수 이름 리스트
DESCR : 자료 설명

출처 : https://datascienceschool.net/view-notebook/293ece8b0d124fbaa4d4d52bb8f1cb42/

저작자표시 비영리 변경금지 (새창열림)

'Machine Learning' 카테고리의 다른 글

[머신러닝 개념정리] Normalization/Standardization/Regularization (0)	2020.04.08
[머신러닝 개념 정리] learning rate (0)	2020.04.08
선형(Linear)에 대한 이해 (0)	2019.11.23
Monte Carlo Tree Search (0)	2019.10.28
PyTorch - What is PyTorch (1) (0)	2019.10.16

현재글Scikit-learn Datasets 관련 정리

Reinforcement Learning, 강화학습, 텐서플로우, 백준, 파이썬, 딥러닝, RL, DAFIT, CV, 다핏, python, deeplearning, 파이토치, pyTorch, 알고리즘, 머신러닝, OpenCV, 가벼운학습지, TensorFlow, 데이터분석,

Today :
Yesterday :

양갱로그

Scikit-learn Datasets 관련 정리

Scikit-learn

데이터 형식

'Machine Learning' 카테고리의 다른 글

'Machine Learning'의 다른글

티스토리툴바

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Scikit-learn Datasets 관련 정리

Scikit-learn

데이터 형식

'Machine Learning' 카테고리의 다른 글

'Machine Learning'의 다른글

관련글

티스토리툴바