앎을 경계하기

Machine Learning/Statistics 19

통계학 도감 정리 - 기술 통계학 1. 평균

여러가지 평균 > 산술 평균 우리가 흔히 알고있는 평균 계산이 산술 평균이다. ex ) 5개월(1월~ 5월) 간 평균 전기요금 1월 5300 2월 6800 3월 4000 4월 4100 5월 4300 ( 5300 + 6800 + 4000 + 4100 + 4300 ) / 5 = 4900 > 기하평균 연속적인 변화율 값들의 평균 변화율을 구할 때 사용하는 평균이 기하평균이다. 쉽게 생각하면 산술평균은 '합의 평균', 기하평균은 '곱의 평균'이다. ex) 1월~4월 매출 평균 성장률 구하기 1월 1000 성장률 2월 2300 230% 3월 1800 78.3% 4월 2900 161.1% (2.30*0.783*1.611)^(1/3) = 1.426 -> 42.6% 1000 -> 1426 -> 2034 -> 2900 ..

통계학 도감 정리 - 통계학이란?

> 통계학이란? 데이터를 통계량이나 그림/표로 정리하여 특징을 파악하는 학문 > 통계학의 종류 * 기술통계학 - 수집된 데이터의 특징을 파악 * 추측통계학 - 모집단의 특징을 표본으로부터 파악 * 베이즈통계학 - 마케팅 등에서 주목받고 있는 통계학 > 구체적 사례 * 기술통계학 - 데이터의 특징과 경향을 파악, 많은 양의 데이터를 대상으로 한 통계학 ex) 평균과 분산, 상관계수, 표준화 변량, 빅데이터 * 추측통계학 - 표본의 정보를 사용해 모집단의 특성을 추출함(샘플로부터 전체 특성을 추측하는 것) ex) 포아송 분포, 신뢰구간의 추정, 두 집단의 평균 차이 검정, 분산분석, 다중비교법, 비모수 통계 * 실험계획법 - 실험을 성공시키기 위한 방법 ex) 피셔의 3원칙, 직교계획법, 검출력 분석 * 중..

여러가지 확률분포

확률분포는 추측통계학의 기초 사상 (mapping) 행위에 의해 생긴 결과 ex ) 주사위를 던져서 나온 눈이 사상에 해당됨 확률 (probability) 어떤 사상이 어느 정도로 일어나기 쉬운지를 수치화한 것 확률의 합 = 1(100%) 확률변수(random variable) 시행을 해봐야 결과를 알 수 있는 변수 값의 수가 유한한 것을 이산확률변수(discrete), 무한한 것을 연속확률변수(continuous) 확률분포(probability distribution) 확률변수가 취하는 값과 그 값이 실현하는 확률의 관계를 나타낸 분포 이산확률분포 균일분포(discrete uniform distribution) 주사위 던지기, 다트게임에서 각 번호 적중확률 이항분포(binomial distributio..

파이썬 데이터분석 실무 테크닉 100 - 5장

05장 회원 탈퇴를 예측하는 테크닉 10¶ 앞장에서 소개한 클러스터링을 통한 행동 분석은 사용방법에 따라 많은 가능성이 있는 기술이다. 행동 패턴을 분석할 수 있으면 어떤 고객이 탈퇴할지와 같은 예측도 어느정도 정확하게 할 수 있다. 탈퇴 방지를 하기 위해 미리 정책을 준비하는 것도 가능하다. Decision Tree라고 부르는 지도학습의 분류 알고리즘을 이용하여 탈퇴를 예측하는 흐름을 배운다. In [1]: import pandas as pd # Load Dataset folder_p = '/content/drive/MyDrive/파이썬데이터분석실무테크닉100/pyda100/5장/' customer = pd.read_csv(folder_p+'customer_join...

파이썬 데이터분석 실무 테크닉 100 - 4장

4장 고객의 행동을 예측하는테크닉 10¶ 앞장에서 사전 분석한 스포츠 센터 회원의 행동 정보를 이용해서 머신러닝으로 예측을 한다. 회원의 행동은 이용 빈도 등에 따라 경향이 달라진다. 그래서 군집화 기법을 이용하여 회원을 그룹화할 수 있고, 각 그룹의 행동 패턴을 파악하여 예측의 정확도를 높이는 것이 가능해진다. 전제조건¶ 스포츠 센터의 데이터를 다룬다. 3장에서 이용 이력을 집계한결과에 고객 데이터를 결합한 customer_join.csv가 추가됐다. 여기서는 5개의 데이터 중에서 use_log.csv와 customer_join.csv만 사용한다. 데이터를 읽고 확인하기¶ In [14]: import pandas as pd uselog = pd.read_csv('./use_log.csv') uselog..

파이썬 데이터 분석 실무 테크닉 100 - 3장

pd.to_datetime('20180401')] len(customer_start) Out[77]: 1361 최신 고객 집계¶ 가장 최근(2019년 3월) 고객 데이터 파악하기 In [78]: customer_join['end_date'] = pd.to_datetime(customer_join['end_date']) customer_newer = customer_join.loc[(customer_join["end_date"]>=pd.to_datetime('20190331'))|(customer_join['end_date'].isna())] len(customer_newer) Out[78]: 2953 In [79]: customer_newer['end_date'].unique() #검산 Out[79]: ..

파이썬 데이터 분석 실무 테크닉 100 - 2장

대리점 데이터를 가공하는 테크닉 10¶ 대리점 매출 이력과 고객정보 데이터를 이용해서 데이터 분석과 예측을 하기 위해 중요한 기술인 '데이터 가공'을 배운다. 대리점 데이터는 쇼핑몰 사이트와 다르게 사람의 손을 타게 된다. 날짜 등의 입력 실수나 데이터 누락 등 '오류'가 많이 들어가 있다. 대리점 데이터 이외에도 엑셀로 직접 입력하는 데이터가 있는 경우, 데이터가 점점 지저분해져서 데이터 분석에 바로 활용 불가해진다. 전제조건¶ 해당 대리점에서는 A~Z, 총 26개의 상품을 취급한다. 매출 이력과 고객정보 데이터는 담당 사원이 직접 입력한다. 집계 기간에 상품 단가의 변동은 없었고 매출 이력은 시스템에서 CSV 파일로 출력한다. 고객 정보는 대리점에서 관리자가 주별로 집계해서 엑셀로 관리한다. uria..

파이썬 데이터분석 실무 테크닉 100 - 1장

파이썬 데이터 분석 실무 테크닉 100은 주어진 데이터에 적용할 여러 라이브러리의 함수 사용법을 설명하는 책들과 달리, 실무에서 데이터가 주어졌을 때 가장 먼저 해야할 일과 이후 순차적으로 분석방법에 대해 설명한다. 01장 웹에서 주문수를 분석하는 테크닉 10¶ 목표 : 어떤 기업 쇼핑몰 사이트의 상품 주문 수의 추세를 분석하여 판매량 개선의 방향 찾기. 쇼핑몰 사이트는 비교적 깨끗한 데이터인 경우가 많다. 쇼핑몰 사이트는 매출 추세뿐만 아니라 언제, 누가 구입했는지 등, 상세 데이터가 많을 수록 깊게 분석이 가능하다. 그러나 현장에서 데이터를 관리할 때, 한 곳에서 관리되지 않는 것이 일반적이다. 이러한 경우 데이터를 연결하는 작업이 필요할 때도 있다. 전제조건¶ 쇼핑몰 사이트의 데이터를 다룬다. 주요..