앎을 경계하기

딥러닝 34

<DAFIT> 06 머신러닝을 통한 당뇨병 예측 - 03 데이터 시각화

이번에는 data visualization 문제! 대학원 강의 중 visualization 관련 수업을 들은 적이 있어서 그런지 가장 편하게 접근할 수 있었던 문제였다. 1,2번 문제를 푼면서 데이터를 볼 때 불편했던 점들을 추려보니.. 1. 값이 전체적으로 어떤 범위 내에 위치하는지 모른다. 2. 이상치가 한 눈에 보이지 않는다. 3. 피쳐마다의 데이터가 어떻게 분포하고 있는지 보고싶다. 4. 내가 결측치 대체 방안으로 사용했던 median과 mean의 차이가 어느정도 나는지 알고 싶다. 이 정도로 말할 수 있을 것 같다. 그래서 나는 각 feature마다 boxplot을 사용해서 데이터를 시각화하였다. boxplot은 다음과 같이 생겼다. 상자수염그림라고도 하는데 왜 수염상자냐면 저 박스 위아래로 길..

Everyone TF 2.0! - 00 텐서플로우에 정착하자

딥러닝을 처음 접했을 때 여러가지 프레임워크를 사용해서 모델을 구성하고 학습시킬 수 있다는 것을 알게되었고, 대표적인 프레임워크로 TensorFlow, PyTorch, Keras, Caffe, Torch ... 다양한 것들이 있었다. 사실 나는 약 1년정도 강화학습을 공부하면서 딥러닝 프레임워크 정착을 하지 못했다.. 연구하기나 직관적으로 짜기엔 PyTorch가 편한 것 같고.. 뭔가 상용화라던지 나중가서 많이 쓰게 될 프레임워크는 Tensorflow 같고.. 코드나 편리함 따지면 Keras가 텐플 기반이라 더 좋은것같고.. 이런 생각으로 방황을 하면서 그때 그때 튜토리얼과 API를 뒤져보고 사용했다. 그래서인지 깊이있게 이해하고 자유롭게 사용할 수 있는 게 없었다! 슬슬 정착을 위해 고민하던 중 텐서플..

<DAFIT> 06 머신러닝을 통한 당뇨병 예측 - 02 NaN값,NULL 값 처리하기 (+ 삽질연속, 실망스러운 결과..)

이번에는 데이터 결측치를 처리하는 문제였다. 데이터 결측치를 처리하는 방법론들이 대표적인게 있을 것 같아서 찾아보니 역시나 다양한 방법들이 있었다. https://m.blog.naver.com/tjdudwo93/220976082118 데이터 분석 최대의 적! 결측치(NA값)처리하기 이번 시간은 데이터 전처리 과정에서 가장 중요하다고 해도 과언이 아닌(물론 다 중요하지... blog.naver.com 이 블로그를 참고하면서도 잘 모르는 내용들이 있어서 다핏 단톡방에도 질문... 도움이 되는 답변들을 받았다! 일단은 데이터를 받으면 데이터들의 피쳐들간의 상관관계를 파악하라는 조언을 받아 데이터분석 모르지만,,ㅎㅎ 이것저것 찾아서 적용해보았다. 각 피처들에 대한 정보는 다음과 같다. preg: 임신 횟수 pl..

<DAFIT> 04 한국어 데이터 Tokenizer 01 - 형태소 분석기 라이브러리

가장 먼저 해야할 일 "형태소 분석기 라이브러리"를 설치하자. 그냥 구글에 형태소 분석기 라이브러리 검색하니까 나온 라이브러리 https://konlpy-ko.readthedocs.io/ KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.4.3 documentation KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가볍게 기본 지식을 습득할 수 있으며, KoNLPy의 사용법 가이드는 사용하기, 각 모듈의 상세사항은 API 문서에서 보실 수 있습니다. >>> from konlpy.tag import Kkma >>> from konlpy.utils ..