import pandas as pd
soundPath = 'drive/My Drive/다핏문제/02/NLP02_Sound.xlsx'
data = pd.read_excel(soundPath)
f = open('drive/My Drive/다핏문제/01/Beta01_NLP.txt', mode='r', encoding='euc-kr')
s = f.read()
buf = ''
for s in s:
s = s.upper()
if s in data:
s = s.replace(s, data[s][0])
buf += s
f = open('drive/My Drive/다핏문제/02/DF901_02_이름.txt', mode='w', encoding='euc-kr')
f.write(buf)
f.close()
한영 대치표가 xlsx 파일이 주어졌기 때문에 Pandas 라이브러리를 사용했다.
대소문자 구분을 하지 않고 한글로 모두 변환해야했기 때문에 txt 파일을 읽으면서 upper()처리를 해줬다.
읽은 내용 중에 pandas로 읽은 xlsx 내용에 해당되면 replace한다.
'DAFIT > 901 - 자연어데이터전처리연습' 카테고리의 다른 글
<DAFIT> 01 자연어 데이터 전처리 연습 - 03 사전순 배열시키기 (0) | 2019.10.19 |
---|---|
<DAFIT> 01 자연어 데이터 전처리 연습 - 01 특수 기호 제거 (0) | 2019.10.19 |