앎을 경계하기

DAFIT/904 - 한국어 데이터 Tokenizer

<DAFIT> 04 한국어 데이터 Tokenizer 01 - 형태소 분석기 라이브러리

양갱맨 2019. 11. 9. 01:06

 

가장 먼저 해야할 일

"형태소 분석기 라이브러리"를 설치하자.

그냥 구글에 형태소 분석기 라이브러리 검색하니까 나온 라이브러리

https://konlpy-ko.readthedocs.io/

 

KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.4.3 documentation

KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가볍게 기본 지식을 습득할 수 있으며, KoNLPy의 사용법 가이드는 사용하기, 각 모듈의 상세사항은 API 문서에서 보실 수 있습니다. >>> from konlpy.tag import Kkma >>> from konlpy.utils import pprin

konlpy-ko.readthedocs.io

코엔엘파이라고 한다.

pip install konlpy

명령어를 사용해서 아나콘다 가상환경 안에 패키지를 설치한다.


설치가 다 되었다면, 이제 형태소 분석을 해야하는데 형태소가 뭐였더라..(나 고등학교 문과였는데 기억이..)

형태소(形態素, 영어: morpheme)는 언어학에서 (일반적인 정의를 따르면) 일정한 의미가 있는 가장 작은 말의 단위로 발화체 내에서 따로 떼어낼 수 있는 것을 말한다. 즉, 더 분석하면 뜻이 없어지는 말의 단위이다. 음소와 마찬가지로 형태소는 추상적인 실체이며 발화에서 다양한 형태로 실현될 수 있다.

- 출처 위키백과

가장 작은 말의 단위!

형태소는 형식형태소, 실질형태소, 의존형태소, 자립형태소, 근원형태소, 불구형태소로 나뉜다.

이런건 찾아보면 나오니까 패스~


먼저 konlpy에서 tag패키지에 있는 Kkma 클래스를 사용할것이다.

from konlpy.tag import Kkma

konlpy doc을 보니

morphs를 사용해서 형태소로 분리하는 것이 가능하다.

pos (Part Of Speech, POS)를 사용하면 형태소 품사를 태그해서 결과를 볼 수 있다.

http://kkma.snu.ac.kr/documents/?doc=postag

 

꼬꼬마, 한글 형태소 분석기 (Kind Korean Morpheme Analyzer, KKMA)

한글 형태소 품사 (Part Of Speech, POS) 태그표 한글 형태소의 품사를 '체언, 용언, 관형사, 부사, 감탄사, 조사, 어미, 접사, 어근, 부호, 한글 이외'와 같이 나누고 각 세부 품사를 구분한다. 대분류 세종 품사 태그 심광섭 품사 태그 KKMA 단일 태그 V 1.0 태그 설명 Class 설명 묶음1 묶음2 태그 설명 확률태그 저장사전 체언 NNG 일반 명사 NN 명사 N NN NNG 보통 명사 NNA noun.dic NNP 고유 명사

kkma.snu.ac.kr

text = '아름답지만 다소 복잡하기도한 한국어는 전세계에서 13번째로 많이 사용되는 언어입니다.'

kkma = Kkma()
print(kkma.morphs(text))
print(kkma.pos(text))