import re
inputFile = 'Beta01_NLP.txt'
outputFile = 'DF901_01_이름.txt'
p = re.compile('[ ㄱ-ㅣ가-힣A-Za-z]')
f = open(inputFile, mode='r', encoding='euc-kr')
s = f.read()
f.close()
s = p.findall(s)
s = ''.join(s)
print(s)
f = open(outputFile, mode='w', encoding='euc-kr')
f.write(s)
f.close()
나는 정규표현식 처리를 사용해서 특수 문자를 제거했다.
한글 처리 방법을 몰랐었는데 자,모음 'ㄱ-ㅣ' 과 음절 '가-힣' 을 알파벳 대소문자 'A-Z', 'a-z' 와 함께 []를 사용하여 문자클래스로 처리면 된다.
'DAFIT > 901 - 자연어데이터전처리연습' 카테고리의 다른 글
<DAFIT> 01 자연어 데이터 전처리 연습 - 03 사전순 배열시키기 (0) | 2019.10.19 |
---|---|
<DAFIT> 01 자연어 데이터 전처리 연습 - 02 알파벳을 한글로 (0) | 2019.10.19 |