앎을 경계하기

nlp 3

<DAFIT> 04 한국어 데이터 Tokenizer 02 - 형태소 분석기 라이브러리

데이터는 dafit에서 제공하는 html파일에서 다운로드 받을 수 있다. 링크를 들어가면 날짜별로 kowiki dump file을 다운로드 받을 수 있다. 문장 형태의 데이터가 있어야 형태소 분석을 했을 때 만족스러운 결과가 나타날 것이라고 생각했다. 그래서 아래 abstract가 있는 xml파일을 사용하기로 함. (파일을 빨리 열어서 구조를 봐야하기 때문에 사이즈가 좀 작은 파일을 선택한 것도 이유 중 하나) 뭐 이런식으로 생겼다. abstract 태그 데이터만 추출해서 형태소 분석을 하자. from konlpy.tag import Kkma import xml.etree.ElementTree as elemTree 사용할 라이브러리를 임포트한다. xml을 다뤄야하기 때문에 python 표준 라이브러리인 ..

<DAFIT> 04 한국어 데이터 Tokenizer 01 - 형태소 분석기 라이브러리

가장 먼저 해야할 일 "형태소 분석기 라이브러리"를 설치하자. 그냥 구글에 형태소 분석기 라이브러리 검색하니까 나온 라이브러리 https://konlpy-ko.readthedocs.io/ KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.4.3 documentation KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가볍게 기본 지식을 습득할 수 있으며, KoNLPy의 사용법 가이드는 사용하기, 각 모듈의 상세사항은 API 문서에서 보실 수 있습니다. >>> from konlpy.tag import Kkma >>> from konlpy.utils ..

google 텐서플로우 머신러닝잼 시작!

지난 2월 8일까지 구글 머신러닝잼 신청을 받고,약 9명의 팀원을 모아 머신러닝잼에 참여했다.입문반으로 시작했는데,강의진행은 퀵랩에서 진행된다.영상을 보고 따라하거나 배우는 그런 강의일 줄 알았는데,전혀 아니고 튜토리얼이 나와있으면 그대로 따라하는 형식이었다. 아래는 입문반 코스에서 필수로 수료해야하는 미션!1. entity and sentiment analysis with the natural language API2. cloud natural language API: Qwik Start3. google cloud speech API: Qwik Start4. speech to text transcription with the cloud speech API 이 4개 강의가 미션 강의이다.구글에서 주는 쿠..

Machine Learning 2019.02.13