앎을 경계하기

Machine Learning

Scikit-learn Datasets 관련 정리

양갱맨 2020. 2. 14. 09:56

Scikit-learn


  • Benchmark용 Dataset example
  • Data preprocessing
  • Supervised Learning
  • Unsupervised Learning
  • Model evaluation and selection

sklearn.datasets : 예제 데이터셋 제공

  • load 계열 : scikit-learn 패키지에 같이 포함된 데이터
  • fetch 계열 : 인터넷에서 다운로드할 수 있는 대량의 데이터
  • make 계열 : 확률분포를 사용해 가상의 데이터 생성

load_boston : 보스턴 집값 (회귀 분석용)

load_diabetes : 당뇨병 (회귀 분석용)

load_linnerud : linnerud (회귀 분석용)

load_iris : 붓꽃 (분류용)

load_digits : 숫자 필기 (분류용)

load_wine : 포도주 등급 (분류용)

load_breast_cancer : 유방암 진단 (분류용)


fetch_california_housing : 캘리포니아 집값 (회귀 분석용)

fetch_covtype : 토지 조사 (회귀 분석용)

fetch_20newsgroups : 뉴스 그룹 텍스트 자료

fetch_livetti_faces : 얼굴 이미지

fetch_lfw_people : 유명인 얼굴 이미지

fetch_lfw_pairs : 유명인 얼굴 이미지

fetch_kddcup99 : Kddcup 99 TCP dump

fetch_rcv1 : 로이터 뉴스 말뭉치


make_regression : 회귀 분석용 가상 데이터 생성

make_classification : 분류용 가상 데이터 생성

make_blobs : 클러스터링용 가상 데이터 생성


데이터 형식

scikit-learn dataset은 Bunch 라는 클래스 객체 형식으로 생성

  • data : 독립 변수, ndarray
  • target : 종속 변수, ndarray
  • feature_names : 독립 변수 이름 리스트
  • target_names : 종속 변수 이름 리스트
  • DESCR : 자료 설명

 

출처 : https://datascienceschool.net/view-notebook/293ece8b0d124fbaa4d4d52bb8f1cb42/