앎을 경계하기

DAFIT/901 - 자연어데이터전처리연습

<DAFIT> 01 자연어 데이터 전처리 연습 - 01 특수 기호 제거

양갱맨 2019. 10. 19. 01:53

import re

inputFile = 'Beta01_NLP.txt'
outputFile = 'DF901_01_이름.txt'
p = re.compile('[ ㄱ-ㅣ가-힣A-Za-z]')
f = open(inputFile, mode='r', encoding='euc-kr')
s = f.read()
f.close()
s = p.findall(s)
s = ''.join(s)
print(s)
f = open(outputFile, mode='w', encoding='euc-kr')
f.write(s)
f.close()

 나는 정규표현식 처리를 사용해서 특수 문자를 제거했다.

한글 처리 방법을 몰랐었는데 자,모음 'ㄱ-ㅣ' 과 음절 '가-힣' 을 알파벳 대소문자 'A-Z', 'a-z' 와 함께 []를 사용하여 문자클래스로 처리면 된다.

www.dafit.me

 

다핏

데이터사이언스 커뮤니티

www.dafit.me