앎을 경계하기

시각화 3

Visualization - matplotlib histogram

히스토그램은 데이터를 파악하기 위해 매우 유용한 시각화 방법이다. 예시를 들어 정리하는 것이 편하다. 10명의 키를 조사한 결과가 아래와 같다. 사람 키 1 180 2 175 3 155 4 160 5 161 6 178 7 188 8 182 9 163 10 172 151~160, 161~170, 171~180, 181~190 범위로 데이터를 표현하고 싶을 때 히스토그램이 적절하다. 히스토그램의 "bin"은 데이터를 담을 바구니 수라고 생각하면 편하다. 그렇다면, y축은 각 바구니에 담긴 데이터의 수라고 할 수 있다. 위 예시에서는 bins = 4가 될것이다. heights = [180,175,155,160,161,178,188,182,163,172] plt.hist(heights, bins=4, edgec..

Data Science 2021.08.28

Visualization - matplotlib line chart, scatter chart

자주 사용하지만 블로그에 따로 정리해놓지 않아서 이번 데이터캠프 컨텐츠를 이용하기는 김에 정리해야겠다. 시각화를 하는 이유? - 데이터 분석을 위해 시각화가 필요하다. - 데이터 탐색을 위해 사용한다. - 새로운 Insight를 찾아 다른 사람들과 공유한다. matplotlib 사용해보기 import matplotlib.pyplot as plt year = [1998, 1999, 2000, 2001] pop = [8.19, 10.08, 12.54, 16.88] plt.plot(year, pop) plt.show() plot(x축, y축)을 하게 되면 다음과 같이 꺾은 선 그래프가 나온다. import matplotlib.pyplot as plt year = [1998, 1999, 2000, 2001] p..

Data Science 2021.08.28

<DAFIT> 06 머신러닝을 통한 당뇨병 예측 - 03 데이터 시각화

이번에는 data visualization 문제! 대학원 강의 중 visualization 관련 수업을 들은 적이 있어서 그런지 가장 편하게 접근할 수 있었던 문제였다. 1,2번 문제를 푼면서 데이터를 볼 때 불편했던 점들을 추려보니.. 1. 값이 전체적으로 어떤 범위 내에 위치하는지 모른다. 2. 이상치가 한 눈에 보이지 않는다. 3. 피쳐마다의 데이터가 어떻게 분포하고 있는지 보고싶다. 4. 내가 결측치 대체 방안으로 사용했던 median과 mean의 차이가 어느정도 나는지 알고 싶다. 이 정도로 말할 수 있을 것 같다. 그래서 나는 각 feature마다 boxplot을 사용해서 데이터를 시각화하였다. boxplot은 다음과 같이 생겼다. 상자수염그림라고도 하는데 왜 수염상자냐면 저 박스 위아래로 길..