앎을 경계하기

DAFIT/904 - 한국어 데이터 Tokenizer 3

<DAFIT> 04 한국어 데이터 Tokenizer 03 - 형태소 분석기 라이브러리

token.. id.. 이것들이 정확히 어떤 형태인지 몰라서 계속 문제를 못풀었는데.. 힌트가 있었다..왜 몰랐지..ㅠ (힌트 알려주신 다핏 방장님 감사합니다.) 무튼 Vocab에는 태깅이 된 형태소가 token이고 순서대로 id가 저장된다. python에서는 key로 value 가져오기는 쉽지만 value로 key를 가져오는 것은 함수가 존재하지 않기 때문에 다른 처리를 통해서 가능하다. 힌트에도 나와있지만 딕셔너리 구성은 token이 key이고 id가 value이다. vocab = {} with open('.\DF904_02_ㅁㅁㅁ.txt', mode='r', encoding='utf-8') as output: # 형태소/tag로 구성 id = 0 for opline in output.readline..

<DAFIT> 04 한국어 데이터 Tokenizer 02 - 형태소 분석기 라이브러리

데이터는 dafit에서 제공하는 html파일에서 다운로드 받을 수 있다. 링크를 들어가면 날짜별로 kowiki dump file을 다운로드 받을 수 있다. 문장 형태의 데이터가 있어야 형태소 분석을 했을 때 만족스러운 결과가 나타날 것이라고 생각했다. 그래서 아래 abstract가 있는 xml파일을 사용하기로 함. (파일을 빨리 열어서 구조를 봐야하기 때문에 사이즈가 좀 작은 파일을 선택한 것도 이유 중 하나) 뭐 이런식으로 생겼다. abstract 태그 데이터만 추출해서 형태소 분석을 하자. from konlpy.tag import Kkma import xml.etree.ElementTree as elemTree 사용할 라이브러리를 임포트한다. xml을 다뤄야하기 때문에 python 표준 라이브러리인 ..

<DAFIT> 04 한국어 데이터 Tokenizer 01 - 형태소 분석기 라이브러리

가장 먼저 해야할 일 "형태소 분석기 라이브러리"를 설치하자. 그냥 구글에 형태소 분석기 라이브러리 검색하니까 나온 라이브러리 https://konlpy-ko.readthedocs.io/ KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.4.3 documentation KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가볍게 기본 지식을 습득할 수 있으며, KoNLPy의 사용법 가이드는 사용하기, 각 모듈의 상세사항은 API 문서에서 보실 수 있습니다. >>> from konlpy.tag import Kkma >>> from konlpy.utils ..