앎을 경계하기

Contents 356

Scikit-learn Datasets 관련 정리

Scikit-learn Benchmark용 Dataset example Data preprocessing Supervised Learning Unsupervised Learning Model evaluation and selection sklearn.datasets : 예제 데이터셋 제공 load 계열 : scikit-learn 패키지에 같이 포함된 데이터 fetch 계열 : 인터넷에서 다운로드할 수 있는 대량의 데이터 make 계열 : 확률분포를 사용해 가상의 데이터 생성 load_boston : 보스턴 집값 (회귀 분석용) load_diabetes : 당뇨병 (회귀 분석용) load_linnerud : linnerud (회귀 분석용) load_iris : 붓꽃 (분류용) load_digits : 숫자..

Machine Learning 2020.02.14

Python N-gram 생성

출처 : https://dojang.io/mod/page/view.php?id=2332 파이썬 코딩 도장: 28.2 N-gram 만들기 N-gram은 문자열에서 N개의 연속된 요소를 추출하는 방법입니다. 만약 'Hello'라는 문자열을 문자(글자) 단위 2-gram으로 추출하면 다음과 같이 됩니다. 즉, 문자열의 처음부터 문자열 끝까지 한 글자씩 이동하면서 2글자를 추출합니다. 3-gram은 3글자, 4-gram은 4글자를 추출하겠죠? 28.2.1 반복문으로 N-gram 출력하기 이제 반복문으로 문자 단위 2-gram을 출력해보겠습니다. 2_gram_character.py text = dojang.io N-gram : 문자열에서 N개 요소를 연속으로 추출한다. 1. 반복문 사용하기 #반복문을 사용한 2-..

Programming/Python 2020.01.02

Python Palindrome(회문) 판별

출처 : https://dojang.io/mod/page/view.php?id=2331 파이썬 코딩 도장: 28.1 회문 판별하기 Unit 28. 회문 판별과 N-gram 만들기 이번에는 문자열을 응용해서 회문을 판별하는 방법과 N-gram을 만드는 방법을 알아보겠습니다. 회문은 유전자 염기서열 분석에서 많이 쓰고, N-gram은 빅 데이터 분석, 검색 엔진에서 많이 쓰입니다. 특히 구글은 책들을 스캔해서 N-gram viewer를 만들었는데 사람들의 언어 패턴을 시대별로 분석하기도 했습니다. 28.1 회문 판별하기 회문(palindrome)은 순서를 거꾸로 읽어도 제대로 읽은 것과 dojang.io Palindrome : 회문, 단어나 문장이 그 순서를 뒤집은 경우와 같은 것을 말한다. example ..

Programming/Python 2020.01.02