가장 먼저 해야할 일
"형태소 분석기 라이브러리"를 설치하자.
그냥 구글에 형태소 분석기 라이브러리 검색하니까 나온 라이브러리
https://konlpy-ko.readthedocs.io/
코엔엘파이라고 한다.
pip install konlpy
명령어를 사용해서 아나콘다 가상환경 안에 패키지를 설치한다.
설치가 다 되었다면, 이제 형태소 분석을 해야하는데 형태소가 뭐였더라..(나 고등학교 문과였는데 기억이..)
형태소(形態素, 영어: morpheme)는 언어학에서 (일반적인 정의를 따르면) 일정한 의미가 있는 가장 작은 말의 단위로 발화체 내에서 따로 떼어낼 수 있는 것을 말한다. 즉, 더 분석하면 뜻이 없어지는 말의 단위이다. 음소와 마찬가지로 형태소는 추상적인 실체이며 발화에서 다양한 형태로 실현될 수 있다.
- 출처 위키백과
가장 작은 말의 단위!
형태소는 형식형태소, 실질형태소, 의존형태소, 자립형태소, 근원형태소, 불구형태소로 나뉜다.
이런건 찾아보면 나오니까 패스~
먼저 konlpy에서 tag패키지에 있는 Kkma 클래스를 사용할것이다.
from konlpy.tag import Kkma
konlpy doc을 보니
morphs를 사용해서 형태소로 분리하는 것이 가능하다.
pos (Part Of Speech, POS)를 사용하면 형태소 품사를 태그해서 결과를 볼 수 있다.
http://kkma.snu.ac.kr/documents/?doc=postag
text = '아름답지만 다소 복잡하기도한 한국어는 전세계에서 13번째로 많이 사용되는 언어입니다.'
kkma = Kkma()
print(kkma.morphs(text))
print(kkma.pos(text))
'DAFIT > 904 - 한국어 데이터 Tokenizer' 카테고리의 다른 글
<DAFIT> 04 한국어 데이터 Tokenizer 03 - 형태소 분석기 라이브러리 (0) | 2019.11.16 |
---|---|
<DAFIT> 04 한국어 데이터 Tokenizer 02 - 형태소 분석기 라이브러리 (0) | 2019.11.11 |