앎을 경계하기

DAFIT/901 - 자연어데이터전처리연습 3

<DAFIT> 01 자연어 데이터 전처리 연습 - 03 사전순 배열시키기

import re filePath = 'drive/My Drive/다핏문제/01/Beta01_NLP.txt' p = re.compile('[ A-Z-a-z]') f = open(filePath, mode='r', encoding='euc-kr') s = f.read() f.close() s = p.findall(s) print(s) s = ''.join(s).split(' ') s = list(set(s)) for i in range(len(s)): s[i] = s[i].lower() s = sorted(s) f = open('drive/My Drive/다핏문제/03/DF901_03_이름.txt', mode='w', encoding='euc-kr') f.write('\n'.join(s)) f...

<DAFIT> 01 자연어 데이터 전처리 연습 - 02 알파벳을 한글로

import pandas as pd soundPath = 'drive/My Drive/다핏문제/02/NLP02_Sound.xlsx' data = pd.read_excel(soundPath) f = open('drive/My Drive/다핏문제/01/Beta01_NLP.txt', mode='r', encoding='euc-kr') s = f.read() buf = '' for s in s: s = s.upper() if s in data: s = s.replace(s, data[s][0]) buf += s f = open('drive/My Drive/다핏문제/02/DF901_02_이름.txt', mode='w', encoding='euc-kr') f.write(buf) f.close() 한영 대..

<DAFIT> 01 자연어 데이터 전처리 연습 - 01 특수 기호 제거

import re inputFile = 'Beta01_NLP.txt' outputFile = 'DF901_01_이름.txt' p = re.compile('[ ㄱ-ㅣ가-힣A-Za-z]') f = open(inputFile, mode='r', encoding='euc-kr') s = f.read() f.close() s = p.findall(s) s = ''.join(s) print(s) f = open(outputFile, mode='w', encoding='euc-kr') f.write(s) f.close() 나는 정규표현식 처리를 사용해서 특수 문자를 제거했다. 한글 처리 방법을 몰랐었는데 자,모음 'ㄱ-ㅣ' 과 음절 '가-힣' 을 알파벳 대소문자 'A-Z', 'a-z' 와 함께 []를 사용하여 문자클..