앎을 경계하기

전체 글 356

여러가지 확률분포

확률분포는 추측통계학의 기초 사상 (mapping) 행위에 의해 생긴 결과 ex ) 주사위를 던져서 나온 눈이 사상에 해당됨 확률 (probability) 어떤 사상이 어느 정도로 일어나기 쉬운지를 수치화한 것 확률의 합 = 1(100%) 확률변수(random variable) 시행을 해봐야 결과를 알 수 있는 변수 값의 수가 유한한 것을 이산확률변수(discrete), 무한한 것을 연속확률변수(continuous) 확률분포(probability distribution) 확률변수가 취하는 값과 그 값이 실현하는 확률의 관계를 나타낸 분포 이산확률분포 균일분포(discrete uniform distribution) 주사위 던지기, 다트게임에서 각 번호 적중확률 이항분포(binomial distributio..

ABC 분석

ABC 분석 : 재고관리 등에서 사용하는 분석 방법 매출 중요도에 따라 상품을 나눠서 그에 맞는 전략을 만들 때 사용한다. A등급 : 상위 0~70% B등급 : 상위 70~90% C등급 : 상위 90~100% 으로 등급을 나눈다. 데이터 작성 방법 1. 매출이 높은 순서데로 데이터 정렬 2. 매출 합계 집계 3. 매출 합계 기반으로 각 데이터의 비율과 구성비를 구한다. 4. 구성비를 기반으로 구성비 누계를 구한다. (카테고리의 매출과 해당 시점의 누계를 따로 계산하고, 총 매출로 나누면 구성비 누계를 구할 수 있다.) 여기서 주의할 점, 등급을 SQL에서 구하게 되면 나중에 수정도 SQL로 해야한다. ABC 분석 지식 여부 등을 고려해서 SQL로 처리할지, 리포팅 툴에서 처리할 지 판단해야한다.

Data Science 2022.02.02

실무 SQL 공부 3-3 - 데이터 가공 SQL

하나의 테이블에 대한 조작 데이터 집계 SQL에서는 집계 함수라고 부르는 여러 함수를 제공한다. 레코드의 수를 세주거나, 합계, 평균, 최대, 최소를 계산하는 함수부터 통계 처리를 사용하여 통계 지표를 출력하기도 한다. 데이터 가공 테이블을 기반으로 데이터를 처리하는 방법을 알아본다. 만약 테이블의 형식이 집계에 적합하지 않은 경우, 어떻게 테이블을 가공해야하는지에 대한 방법도 알아보자. 1. 그룹의 특징 잡기 집계함수는 여러 레코드를 기반으로 하나의 값을 리턴하는 함수 count, sum함수 등 테이블 전체의 특징량 계산하기 SELECT COUNT(*) AS total_count , COUNT(DISTINCT user_id) AS user_count , COUNT(DISTINCT product_id) ..

Data Science 2022.01.22

실무 SQL 공부 3-2 - 데이터 가공 SQL

여러 개 값 조작 1. 문자열 연결하기 CONCAT함수나 ||연산자를 사용한다. SELECT user_id, -- redshift에서는 매개변수 2개까지 밖에 안되기때문에 ||를 사용하여 연결하는것이 좋음 CONCAT(pref_name, city_name) AS pref_city, pref_name || city_name AS pref_city FROM mst_user_location 2. 여러 개 값 비교하기 4분기 매출 테이블에서 분기별 매출 증감을 판정하는 예제 SELECT year, q1, q2, -- q1, q2 매출 변화 평가 CASE WHEN q1 < q2 THEN &#39;+&#39; WHEN q2 = q2 THEN &#39; &#39; ELSE &#39;-&#39; END AS judge..

Data Science 2022.01.15

실무 SQL 공부 3-1 - SQL로 데이터 가공

하나ㅣ 값 조작 1. 코드 값을 레이블로 변경하기 저장된 코드값을 그대로 집계에 사용 시, 리포트 가독성이 낮아짐 그래서 변환 작업이 필요하다. 집계시 미리 코드 값을 레이블로 변경하는 방법 case문 사용하기 CASE WHEN THEN END조건식에 해당하는 값이 없는 경우 NULL 아니면 ELSE 을 사용해서 디폴트 값을 지정할 수 있다. SELECT user_id, CASE WHEN register_device = 1 THEN &#39;데스크톱&#39; WHEN register_device = 2 THEN &#39;스마트폰&#39; WHEN re gister_device = 3 THEN &#39;애플리케이션&#39; -- ELSE 디폴트 값 END AS device_name FROM mst_user..

Data Science 2022.01.15

실무 SQL 공부 2 - 데이터

1. 데이터의 종류 1. 업무 데이터 업무에 필요한 데이터 1. 트랜잭션 데이터 구매 데이터, 플레이 데이터 등 서비스와 시스템을 통한 사용자의 행동을 기록한 데이터 트랜잭션 데이터에는 회원ID, 상품ID와 같은 마스터 데이터가 포함되는 경우가 많다. 따라서 활용 시, 마스터 데이터와 결합이 필요함 2. 마스터 데이터 서비스와 시스템이 정의하고 있는 데이터 특정 회원이 상품을 구매한 이력이 저장된 트랜잭션 데이터가 있을 때, 어떤 상품의 카테고리가 가장 많이 팔렸는지를 알고 싶다면 회원, 상품 마스터 데이터를 결합시켜서 확인해야한다. 3. 업무데이터 특징 데이터의 정밀도가 높음 - 데이터 처리 중 문제 발생 시, 트랜잭션과 롤백을 사용해서 이전 상태로 돌아가기 때문에 데이터의 정합성이 보증된다. 갱신형 ..

Data Science 2022.01.15

실무SQL공부 1 - 미들웨어 시스템

1. PostgreSQL 오픈소스 RDB 표준 SQL 준수, 분석에 필요한 구문 제공 2. Apache Hive RDB에서 대량의 데이터를 처리할 때 보틀넥이 발생하는 데이터 I/O를 해결 고속으로 데이터를 처리하기 위한 아키텍처로 분산 파일 시스템이 고안됨 분산 파일 시스템 거대한 데이터를 작게 분할해서 여러 개의 디스크에 분산시켜 저장하고 각 디스크에서 동시에 데이터를 읽어 고속으로 대용량 처리가 가능함 하이브는 HDFS 분산파일 시스템 위의 데이터를 SQL스러운 인터페이스로 처리하는 시스템 동시에 처리한 데이터에 대한 순서를 맞춰주는 것이 중요한데, 이 방법이 MapReduce Hive → Hadoop 생태계의 일부, HiveQL로 MapReduce 잡으로 변환하여 병렬 분산 처리 수행 파일 기반 ..

Data Science 2022.01.15

중소기업청년전세대출 80% 중도 이사, 목적물 변경, 추가 증액, 퇴사

1년 전만 해도 전세가가 이정도로 빡세진 않았는데..😢 굉장히 올랐다.. 너무 많이 올랐다.. 물론 내가 처음 중기청 80프로를 받을 땐, 매우 싼 집을 잘 구한 것도 있지만..! 중소기업청년전세대출 80%를 받으면서 만들 수 있는 상황이란 상황은 다 만든 것 같다. 그 이야기가 누군가에게 도움이 될 것 같아 적어보려고 한다. 맨 처음 중기청은 2020년 7월 10일에 받았다. 이때는 재직한지 6개월차였다. 먼저, 부동산 발품팔아서 "중기청 80" 가능한 전세집을 알아본다. 맘에 드는 집을 발견하면 반드시 "전세대출 불가 시 계약금 반환" 특약을 걸고 계약금 5%를 넣고 영수증, 계약서, 공제증서를 부동산에게 받는다. 그리고 대출 받으러 가기 전 동사무소나 인터넷등기소에서 확정일자를 받아 그 서류를 챙긴..

Daily 2021.11.01

Model selection: choosing estimators and their parameters

Score,Cross-vlidated scores 사이킷런에서 제공하는 모든 estimator는 score 함수를 가지고 있다. score 메소드는 새로운 데이터를 얼마나 잘 예측하는지 판단할 수 있는 지표이다. 값이 클수록 좋은 모델이다. from sklearn import datasets, svm X_digits, y_digits = datasets.load_digits(return_X_y=True) svc = svm.SVC(C=1, kernel='linear') svc.fit(X_digits[:-100], y_digits[:-100]).score(X_digits[-100:], y_digits[-100:]) 0.98 예측 정확도를 더 잘 측정하기 위해 학습데이터와 테스트 데이터를 k개로 나누어 적용한..