앎을 경계하기

전체 글 356

탐색적 데이터 분석 (EDA) - 변이 추정

변이 : 데이터 값이 얼마나 퍼져있는지 알 수 있는 척도 변이 추정 하는 방법 편차 : 데이터가 중앙값을 주변으로 얼마나 퍼져 있는지에 대한 값 평균절대편차 : 편차의 대푯값을 추정하는 법 단순히 편차를 평균을 내면 편차의 합이 항상 0이 되기 때문에 사용할 수 없게 된다. 분산 : 제곱편차의 평균 표준편차 : 분산의 제곱근 표준편차는 원래 데이터와 스케일이 같아서 해석이 쉽다. 수식이 복잡해도 수학적으로 제곱한 값이 절댓값보다 통계 모델 다루기 편리하다는 이론을 근거로 평균절대편차보다 표준편차를 더 선호한다. 중위절대편차 : 분산, 표준편차, 평균절대편차는 특잇값, 극단값이 민감하다. 로버스트한 값을 얻기위해서 중위절대편차를 사용한다. 백분위수를 사용한 추정 사분위범위(IQR) : 25번째 백분위수와 ..

탐색적 데이터 분석 (EDA) - 데이터 종류와 대푯값

보통 처음 데이터가 주어지면 데이터의 유형, 분포 등 데이터에 대해 탐색하는 작업을 수행한다. 이것을 Exploratory Data Analysis, 탐색적 데이터 분석 (EDA)라고 한다. 데이터를 얻게되면 쓸모있는 데이터 외에도 무의미한 정보들이나 이상치 등 다양한 데이터들이 함께 존재한다. 그래서 데이터를 활용하기 위해 어떻게 전처리할 것인지 기준을 세우고, 변환하는 과정을 하는 것이 중요한 작업이다. 먼저, 원시 데이터를 가공하여 정형 데이터로 변환하는 작업을 한다. 정형 데이터의 종류 1. 수치형 데이터 연속형 : 일정 구간 내 어떤 값이든 가질 수 있는 변수 이산형 : 정수 값을 갖는 변수 2. 범주형 데이터 이진형 : True/False, 0 또는 1 등 둘 중 하나의 값을 갖는 변수 순서형..

2024 목표 : 블로그 새단장하기

제목 그대로 블로그를 새단장하려고 한다. 블로그 글 업로드도 오래됐고.. 공부하던게 중구난방으로 정리가 안돼서 하나씩 정리해보려고 한다. 머신러닝, 딥러닝 특성 상 수식이 많아서 블로그에서 정리하다보면 귀찮아서 자꾸 개인적으로 태블릿에 정리하게 되는데 이러다 보면 블로그에 업로드를 안하게 된다는....ㅜㅠ 다시 블로그를 열심히 해보자!!!

카테고리 없음 2023.12.17

중기청 전액 상환!

2023년 10월 28일자로 중기청 대출 1억은 전액 상환했다. 기준 미달로 인해 버팀목 전환 시점과 더불어 남자친구네 집으로 동거인으로 들어갈 예정이라 전셋집을 알아볼 필요가 없었다. 28일에 전세 계약이 만료되고, 대출 은행인 KB국민은행 어플에 들어가서 대출 전액 상환을 해버렸다. 원래 대출 만기일이 도래했을 때, 연장신청을 한게 아니라면 해당 은행 계좌에 빠져나갈 잔액만 있으면 자동적으로 상환이 된다고 한다. (전화로 통화함) 근데 난 그냥 그때까지 기다리기 싫어서 바로 상환 다 해버림!!! 이제 청약 잘 알아봐야겠땅,,,!

Daily 2023.10.30

Content-based Filtering 이해하기

참고도서 : python을 이용한 개인화 추천 시스템 - 임일 Content-base Filtering (CB; 내용 기반 필터링) CB는 제품의 내용을 분석해서 추천하는 기술. 특히나 텍스트 정보가 많은 책, 뉴스에 많이 사용되는 추천 방법이다. CB 절차 아이템 간 유사도 구하기 추천 대상자(user)가 선호하는 아이템 선정 선호 아이템과 유사도가 가장 높은 N개 아이템 찾기 N개 아이템을 추천 이 절차에서 발생하는 이슈 유사도 함수 정하기 유사도 함수는 여러가지가 있다. N을 몇으로 설정할 것인지 N이 많을수록 추천 성능이 올라가겠지만, 몇 개가 최적인지 알 수 없다. N개 아이템 각각 유사도 높은 아이템들이 있을텐데, 이것들을 어떻게 조합할 것인지 영화 데이터를 통해 CB 추천 시스템을 만들어보자..

추천시스템 2023.01.17

TF-IDF

TF-IDF TF-IDF는 자연어 처리에서 굉장히 중요한 개념이다. 어떤 문서들 중에 해당 단어가 특정 문서에서 얼마나 중요한지를 나타내는 통계값이다. TF-IDF 에서 사용되는 단어들의 정의를 보면, TF : Term Frequency(단어 빈도), 말 그대로 특정 단어가 문서 내에 자주 사용되는지를 나타낸다. DF : Document Frequency(문서 빈도), 특정 단어가 문서군 내에 얼마나 자주 사용되는지를 나타낸다. IDF : Inverse Document Frequency(역문서 빈도), DF의 역수 단어 빈도가 커지면 특정 단어가 해당 문서 내에서 핵심 단어가 된다고 해석할 수 있다. 문서 빈도가 커지면 역문서 빈도는 작아지고, 이는 특정 단어가 여러 개의 문서에서 자주 사용된 단어라고 ..

추천시스템 2023.01.17

집단별 추천해보기 (협업필터링 아님!)

참고도서 : python을 이용한 개인화 추천 시스템 - 임일 집단별 추천 시스템 취향이 아니라 직업, 성별 등 단순 통계적으로 구분할 수 있는 집단으로 구분하여 추천 시스템을 만들어보자. 이런 순서로 구성해야 한다. import pandas as pd import numpy as np u_cols = ['user_id','age','sex','occupation','zip_code'] users = pd.read_csv('./u.user', sep='|', names=u_cols, encoding='latin-1') i_cols = ['movie_id','title','release date',' video release date','IMDB URL','unknown','action','adventur..

추천시스템 2023.01.15

사용자 정보가 없을때는? Best-Seller 방식!

참고도서 : python을 이용한 개인화 추천 시스템 - 임일 데이터 로드하기 사용하는 데이터셋은 영화 리뷰 데이터이다. 각 데이터를 읽어보자. 참고로 데이터는 "python을 이용한 개인화 추천 시스템" 도서에서 제공하고있는 데이터를 사용했다. import pandas as pd import numpy as np # Load Users u_cols = ['user_id','age','sex','occupation','zip_code'] users = pd.read_csv('./u.user',sep='|',encoding='latin-1',names=u_cols) users.set_index('user_id',inplace=True) users.head() # Load Movies i_cols = ['m..

추천시스템 2022.12.18

추천시스템의 개념과 기본 알고리즘의 개념

참고도서 : python을 이용한 개인화 추천 시스템 - 임일 추천 시스템(recommender system)이란? > 사용자의 데이터를 바탕으로 사용자에게 필요한 정보를 제시하는 시스템. "추천" 이라는 것은, 비즈니스 관점에서 고객들의 취향을 기준으로 비슷한 고개들끼리 나누고(segment), 각 집단에 맞는 제품이나 소비스를 골라주는 것이다. 집단의 규모를 굉장히 작게, 극단적으로 작게 하면 집단을 구성하는 사람이 1명이 된다. 이것이 개인화(personalization)다. 추천 시스템의 주요 알고리즘은 크게 몇 가지 분류로 나뉘고, 이것들이 발전해서 다양한 알고리즘이 파생된 형태라고 볼 수 있다. 가장 대표적인 알고리즘은 다음 세 가지다. 협업 필터링 (collaborative filtering..

추천시스템 2022.12.18

통계학 도감 정리 - 확률분포 6. F 분포, t 분포

> F분포 F값은 2개의 x의 제곱값의 비로 정의된다. 이 비의 분포를 F 분포라고 한다. 두 개의 X제곱값을 사용하기 때문에 자유도는 2개가 된다. m1은 분자의 자유도, m2는 분모의 자유도이고 아래와 같이 표현한다. > t분포 모분산을 알 수 없고, 표본의 크기가 작을 때 z분포(정규분포)를 사용하여 검정하면 결과가 틀릴 수 있다. 이런 경우, 스튜던트화 변량이 따르는 t분포를 사용한다. t분포는 자유도에 따라 분포 형태가 달라진다. t(자유도) 로 표현한다. 모분산을 모르는 것은 모표준편차도 알 수 없다는 것이다. 이럴 때 정규분포 대신 사용하는데 식은 다음과 같다. S는 원래 모표준편차 값이 되어야하는데, 값을 모르기 때문에 t분포의 표본표준편차(s)를 사용한다. 표본 크기가 커질수록 정규분포와..