양갱로그

분노의 청년 버팀목 전세대출 받기 1편 (feat. 2번 거절)

양갱맨 — Sat, 12 Jul 2025 13:54:48 +0900

이 글을 쓰는 지금은..

주거래 은행 2개 지점에서 대출 거절을 받고

새로운 은행으로 기금e든든 재신청하고 대기중인 상태

(다시 생각하려니 또 화가 치밀어 오른다.)

일단 나의 상태부터 정리하면...

현재 사는 곳은 서울이고

이사갈 곳은 경기도였다.

집은 도시개발지역에 지어진 오피스텔이고

공실이 아닌 세입자가 있는 곳을 계약한 상태

청년 버팀목 전세대출은 이 과정으로 진행된다.

1. 집 5% 계약금 입금 및 계약 완료

2. 기금e든든 사전심사 신청

3. 사전심사 '적격' 시, 기금e든든 신청할 때 선택한 은행으로 대출 신청하러 가기

4. 은행 대출 심사

5. 최종 심사 통과 시, 대출 실행일 맞춰 대출 진행

나는...

보증금 1억 7천 중 850만(5%)을 계약금으로 넣은 상태였다.

5% 계약금 납입까지 완료한 상태였기 때문에

나에게 남은 과정은 2~5번!

2번, 기금e든든 사전심사를 신청하고

적격 결과를 받았다.

결과받는데 하루 걸림!

(오래 걸릴 줄 알았는데..다행이다!)

결과를 받자마자

3번, 은행 대출 신청하러 갔다.

먼저 집 근처 주거래 은행을 갔다.

여기서부터 고난 START

하..

일단 주의할 점

"가려는 은행이 출장소인가?"

여기선 환전이나 간단한 업무만

봤었기 때문에 대출이 안되는지 몰랐다..

가서 은행 청경분에게

대출 신청하러 왔다고 하니까

"여긴 출장소라서 대출 업무를 안합니다." 였다.

출장소는 대출 X라는 걸

모른 내 잘못도 있기 때문에

별 말 없이, 아..네.. 하고

나와서 다른 영업점을 찾아갔다.

거기는 대출을 하는 곳이었음!

정말 다행히 대기자가 없어서

바로 대출 상담을 받는데,

서류를 보더니

"대출받으려면 이 근처 지점으로 가셔야합니다."

라는 대답을 들었다.

그래서 왜 이 근처로 가야하냐? 하니까

정확한 사유 설명없이

"대출받으려면 그 근처에서만 나와요" 라고 함

아니 그니까 왜 그런건데요;;;

정확한 사유를 말하라고요;;

시간낭비하고 싶지 않아서 빠르게 나와서

계약할 곳 근처 지점으로 출발했다.

참고로.. 차로 40분 거리

도착해서 근처 지점을 갔는데,

행원이 하는 말,

"본인 소득대비 대출 금액이 커서 다 못해주고 8천만원만 가능하세요.

그리고 허그는 안되고 다른걸로 보증보험 따로 개인적으로 가입하셔야합니다."

이게 뭔 말임..?

청년 버팀목은 최소소득이 아니라

최대 소득 제한(결혼예정X 미혼인 경우, 5천만원 이하)고,

내가 빌리려는 금액은 1억7천 중 80%인

1억 3600만원임

내 소득과 빌리려는 돈이

최대금액을 넘는 것도 아니었다.

또한,

애초에 도시개발사업 지역은

대지권등기가 아직 안난 곳들이 있고

이런 경우에는 HUG 보증보험만 가능하다.

근데 무슨 소득대비

금액이 커서 대출을 못해주며,

허그 보증보험이 안된다는

소리를 하는건지

어이가 없었다.

계속 뭐 안된다 이러길래 짜증나서 나왔다.

다른 지점으로 가서 또 대기...

여긴 될까 하고 상담 받는데,

"오피스텔 시가 대비 전세가가 80%를 넘어서 대출을 못해주겠다" 란다.

하..ㅋㅋㅋㅋ 진짜 어이가 없음

내가 계약한 오피스텔은

완공되고 입주한지 1년 된 곳이라

KB시세가 없어

국세청 기준시가를 기준으로 확인하는데

그거를 떠나서

갑자기 오피스텔 시가 대비 전세가가 80% 넘는다고

오피스텔 보증금을 낮춰오란다;;;

진짜 이 은행에서

대출받는거 걍 포기했고

기금e든든 취소하고

다른 은행으로 재신청했다.

( 대출 다 끝나면 주거래은행 바꾼다 진짜 좋은 점이 하나도 없음)

진짜 화가 난다.

찾아보니 실적도 안되고 할 건 많아서

안해준다는 기사도 많던데

정부 정책을 은행에서 이렇게 기준 세워서

못해주겠다 해서 거절하면

신청자들은 뭐 어떻게 해야함?

진짜 말 그대로 뺑뺑이 돌라는 소리밖에 없다;

이렇게 아까운 내 연차 날렸고

나는 다음주에 또 연차를 써야한다.

담주는 연차가 소중히 잘 쓰일지,

또 이번처럼 날리게 될지...

탐색적 데이터 분석 (EDA) - 변이 추정

양갱맨 — Sun, 7 Jan 2024 00:16:55 +0900

변이 : 데이터 값이 얼마나 퍼져있는지 알 수 있는 척도

변이 추정 하는 방법

편차 : 데이터가 중앙값을 주변으로 얼마나 퍼져 있는지에 대한 값
- 평균절대편차 : 편차의 대푯값을 추정하는 법
  단순히 편차를 평균을 내면 편차의 합이 항상 0이 되기 때문에 사용할 수 없게 된다.

분산 : 제곱편차의 평균
표준편차 : 분산의 제곱근
- 표준편차는 원래 데이터와 스케일이 같아서 해석이 쉽다.
- 수식이 복잡해도 수학적으로 제곱한 값이 절댓값보다 통계 모델 다루기 편리하다는 이론을 근거로 평균절대편차보다 표준편차를 더 선호한다.
중위절대편차 : 분산, 표준편차, 평균절대편차는 특잇값, 극단값이 민감하다. 로버스트한 값을 얻기위해서 중위절대편차를 사용한다.

평균절대편차는 극단값때문에 평균이 커져서 절대편차의 합도 커지게 된다.중간값을 쓰면 극단값에 대해 로버스트해지기 때문에 극단값 영향을 받지 않음

백분위수를 사용한 추정
- 사분위범위(IQR) : 25번째 백분위수와 75번째 백분위수 차이를 통해 변위측정한다.

탐색적 데이터 분석 (EDA) - 데이터 종류와 대푯값

양갱맨 — Tue, 2 Jan 2024 00:00:18 +0900

보통 처음 데이터가 주어지면 데이터의 유형, 분포 등 데이터에 대해 탐색하는 작업을 수행한다.

이것을 Exploratory Data Analysis, 탐색적 데이터 분석 (EDA)라고 한다.

데이터를 얻게되면 쓸모있는 데이터 외에도 무의미한 정보들이나 이상치 등 다양한 데이터들이 함께 존재한다.

그래서 데이터를 활용하기 위해 어떻게 전처리할 것인지 기준을 세우고, 변환하는 과정을 하는 것이 중요한 작업이다.

먼저, 원시 데이터를 가공하여 정형 데이터로 변환하는 작업을 한다.

정형 데이터의 종류

1. 수치형 데이터
- 연속형 : 일정 구간 내 어떤 값이든 가질 수 있는 변수
- 이산형 : 정수 값을 갖는 변수
2. 범주형 데이터
- 이진형 : True/False, 0 또는 1 등 둘 중 하나의 값을 갖는 변수
- 순서형 : 평점처럼 범주 내 값들이 순위를 가지고 순서대로 나타나는 변수

우리가 접하는 데이터 중 대부분은 테이블 데이터이다.

공부할 때 사용하는 예제 데이터(csv, xlsx)나 회사에서 사용하는 DB, 스프레드 시트 데이터들이 모두 테이블 데이터이다.

테이블 데이터는 행(row,레코드)과 열(column,속성)로 이뤄진 2차원 행렬이다.

예를 들면, 인덱스, 이름, 나이, 성별, 주소 각각이 속성명으로 feature가 된다.

레코드는 1, 홍길동, 19, 남, 서울 강북구 이 한 줄이 레코드이다.

테이블 구조에 대해 좀 더 알고 싶다면, 데이터베이스 관련 도서나 영상을 찾아보면 공부가 될 것이다.

보통 문자열, 숫자, 이진형 변수는 테이블 데이터로 구성하여 사용한다.

그렇다면 테이블 형태로 구조화되지 않는 데이터는 뭐가 있을까?

사실 구성하기 나름이긴 하지만..

그래프 구조나 공간 데이터 등은 다른 방식으로 구성이 되기도 한다.

하지만 나는 그래프나 공간데이터를 다뤄본 적이 없어서,, 어떻게 구성되어있는지 예시는 잘 모르겠다.

그래프는 vetex, edge로 구성된 데이터겠지..?

정형화된 데이터를 얻었으면, 그 다음은 뭘 해야될까?

바로 각 feature의 type value를 찾는 것이다.

type value는 대부분의 값이 위치하는 중심경향을 나타내는 추정값을 말한다.

예시로, "너 보통 유튜브 보는 시간이 얼마나 돼?" 라는 질문에 "평균 한 40분?" 이라는 대답을 한다면,

유튜브 시청시간(feature)의 type value는 40분이다.

그럼 모든 특성들의 대푯값은 평균으로 구하면 되지 않을까? 라고 생각할 수도 있지만

그렇지 않다.

한 반에 10명의 학생들의 몸무게가 [40, 42, 44, 46, 47, 50, 32, 44, 78, 80] 이렇게 있다면,

평균은 (40+42+44+46+47+50+32+44+78+80) / 10 = 50.3이 된다.

40kg대의 학생들이 과반수를 차지하고 있음에도 불구하고 78, 80kg의 학생들의 영향으로 평균 몸무게가 50kg가 된다.

평균은 극단값의 영향을 받기 때문에 무조건 평균을 대푯값으로 사용하는 것은 좋은 방법이 아니다.

주로 사용하는 대표값

평균값
- 모든 값의 총합 / 값의 개수
중간값
- 데이터를 정렬했을때 한 가운데에 위치하는 값, 짝수개라면 중간 값 2개의 평균값으로 한다.
- 가중평균처럼 가중중간값을 사용하기도 하고, 중간값은 극단값이 있는 데이터에서는 평균보다 유용하다.
  중간값은 평균처럼 쉽게 변하지 않기 때문에 robustness 특성이 있다.
최빈값
- 가장 자주 나오는 값, 평균이나 중간값이 의미가 없는 질적 자료의 대표값을 선정할 때 자주 사용한다.
사분위수
- 데이터를 같은 갯수로 4개의 그룹으로 나누는 기준 값
- 사분위수를 이용해 이상치를 제거하기도 한다.
  이건 좀 중요해서 나중에 더 자세히 정리할 예정
  https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51
백분위수
- 데이터를 정렬해서 x%인 값
절사평균
- 크기 순으로 정렬하고 양 끝에서 일정 개수의 값들을 삭제하고 나서 평균을 구한다.
  절사평균은 극단값을 제거한다는 장점이 있지만, 데이터가 많지 않은 경우에는 사용하기 어려운 평균이다.
가중평균
- 각 값에 가중치를 곱한 값들의 총합을 가중치의 총합으로 나눈 평균
기댓값
- 얻을거라고 기대하는 값의 평균
- 가능한 값 * 확률의 합계
- 기댓값은 평균과 같다고 볼 수 있는데, 식을 써놓고 보면 확률변수가 얻는 값의 가중평균으로 계산할 수 있다.
  이해가 잘 안간다면 https://hsm-edu.tistory.com/1233 이 포스팅 추천!

2024 목표 : 블로그 새단장하기

양갱맨 — Sun, 17 Dec 2023 23:06:49 +0900

제목 그대로 블로그를 새단장하려고 한다.

블로그 글 업로드도 오래됐고..

공부하던게 중구난방으로 정리가 안돼서 하나씩 정리해보려고 한다.

머신러닝, 딥러닝 특성 상 수식이 많아서 블로그에서 정리하다보면 귀찮아서 자꾸 개인적으로 태블릿에 정리하게 되는데

이러다 보면 블로그에 업로드를 안하게 된다는....ㅜㅠ

다시 블로그를 열심히 해보자!!!

중기청 전액 상환!

양갱맨 — Mon, 30 Oct 2023 18:45:45 +0900

2023년 10월 28일자로 중기청 대출 1억은 전액 상환했다.

기준 미달로 인해 버팀목 전환 시점과 더불어 남자친구네 집으로 동거인으로 들어갈 예정이라

전셋집을 알아볼 필요가 없었다.

28일에 전세 계약이 만료되고, 대출 은행인 KB국민은행 어플에 들어가서 대출 전액 상환을 해버렸다.

원래 대출 만기일이 도래했을 때, 연장신청을 한게 아니라면

해당 은행 계좌에 빠져나갈 잔액만 있으면 자동적으로 상환이 된다고 한다. (전화로 통화함)

근데 난 그냥 그때까지 기다리기 싫어서 바로 상환 다 해버림!!!

이제 청약 잘 알아봐야겠땅,,,!

Content-based Filtering 이해하기

양갱맨 — Tue, 17 Jan 2023 01:11:12 +0900

참고도서 : python을 이용한 개인화 추천 시스템 - 임일

Content-base Filtering (CB; 내용 기반 필터링)

CB는 제품의 내용을 분석해서 추천하는 기술.

특히나 텍스트 정보가 많은 책, 뉴스에 많이 사용되는 추천 방법이다.

CB 절차

아이템 간 유사도 구하기
추천 대상자(user)가 선호하는 아이템 선정
선호 아이템과 유사도가 가장 높은 N개 아이템 찾기
N개 아이템을 추천

이 절차에서 발생하는 이슈

유사도 함수 정하기
- 유사도 함수는 여러가지가 있다.
N을 몇으로 설정할 것인지
- N이 많을수록 추천 성능이 올라가겠지만, 몇 개가 최적인지 알 수 없다.
N개 아이템 각각 유사도 높은 아이템들이 있을텐데, 이것들을 어떻게 조합할 것인지

영화 데이터를 통해 CB 추천 시스템을 만들어보자.

import pandas
from sklearn.feature_extraction.text import TfidfVectorizer # 유사도 측정을 위한 전처리
from sklearn.metrics.pairwise import cosine_similarity # 유사도 함수 (코사인유사도)

# 데이터 읽기
movies = pd.read_csv('./데이터-2판/movies_metadata.csv', encoding='latin-1', low_memory=False)
movies = movies[['id','title','overview']]
movies.head(10)

영화 id, 제목, 줄거리 정보가 있는 데이터셋이다.

#preprocessing
movies.dropna(inplace=True) # 결측치 제거
movies['overview'].fillna(' ',inplace=True) # 줄거리가 비어있는 부분은 빈칸으로 대체

각 영화 간 유사도를 구할 수 있도록 전처리 과정이 필요하다.
왜냐? 전처리하지 않고 사용한다면, 정상 데이터 속에 섞인 이상치들이 모델 성능에 어떤 영향을 끼칠지 모르기 때문에 최대한 데이터를 깔끔하게 정제해서 추천시스템에 적용해야 정확성이 높아진다.

tfidf = TfidfVectorizer(stop_words='english') # stop_words='english'로 설정
tfidf_matrix = tfidf.fit_transform(movies['overview']) # tf-idf 계산

특정 영화의 각 줄거리 내용 중 필요 없는 단어들은 추천 시스템이 알고 있어봤자 방해만 되는 요소일 것이다.
이런 요소들을 "불용어"라고 하고, tf-idf 는 이러한 불용어들의 가중치를 줄이면서 문장 속 단어들의 중요도를 계산하는 방법이다.

2023.01.17 - [추천시스템] - TF-IDF

tf-idf 값이 크다는 건, 특정 문서에서 단어 빈도가 높고 전체 문서들 중 그 단어를 사용하는 빈도가 낮다는 것이다.

영화 줄거리의 핵심 단어를 추출하기 위해 TfidfVectorizer()를 사용하자.
stop_words 는 불용어를 설정할 수 있는 파라미터다.
'english' 로 하면 영어를 불용어로 설정한다.

영화 줄거리 overview 컬럼 데이터의 tf-idf 값을 계산한다.

cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
cosine_sim = pd.DataFrame(cosine_sim, index=movies.index, columns=movies.index)

tf-idf 값을 가지고 코사인 유사도를 통해 영화 간 유사도를 구한다.

이 행렬의 대각원소는 모두 1이다. 자기 자신과 자기 자신의 유사도는 1이니까

영화 간 유사도를 편하게 행렬형태로 보기 위해 데이터프레임으로 만들었다.

각 인덱스, 컬럼에 있는 숫자들은 영화의 인덱스이다.

현재 첨부된 이미지 데이터로만 봤을 때, index가 1인 영화와 유사도가 높은 2개 영화를 꼽는다면,

나 자신을 제외한 0번 영화(0.14985)와 7번 영화(0.102595) 가 될 것이다.

우리는 유사도가 높은 영화 제목을 알고싶은 것이니까 영화제목과 인덱스값을 매칭시킬 수 있도록 변수를 하나 만들자.

indices = pd.Series(movies.index, index=movies['title'])

마지막으로 내가 입력한 영화제목과 유사도가 높은 N개의 영화제목을 반환해주는 함수를 통해 추천 시스템 코드 작성을 마무리한다.

def content_recommender(title, n):
    idx = indices[title]
    sim_scores = cosine_sim[idx]
    sim_scores = sim_scores.sort_values(ascending=False)[1:n+1] # [1:n+1] -> 나 자신을 제외한 나머지 영화들
    return movies.loc[sim_scores.index]['title']

print(content_recommender('The Lion King', 5))
print(content_recommender('The Dark Knight Rises', 10))

TF-IDF

양갱맨 — Tue, 17 Jan 2023 00:48:43 +0900

TF-IDF

TF-IDF는 자연어 처리에서 굉장히 중요한 개념이다.

어떤 문서들 중에 해당 단어가 특정 문서에서 얼마나 중요한지를 나타내는 통계값이다.

TF-IDF 에서 사용되는 단어들의 정의를 보면,

TF : Term Frequency(단어 빈도), 말 그대로 특정 단어가 문서 내에 자주 사용되는지를 나타낸다.
DF : Document Frequency(문서 빈도), 특정 단어가 문서군 내에 얼마나 자주 사용되는지를 나타낸다.
IDF : Inverse Document Frequency(역문서 빈도), DF의 역수

단어 빈도가 커지면 특정 단어가 해당 문서 내에서 핵심 단어가 된다고 해석할 수 있다.
문서 빈도가 커지면 역문서 빈도는 작아지고, 이는 특정 단어가 여러 개의 문서에서 자주 사용된 단어라고 해석할 수 있다.

그렇다면 TF가 크고 IDF는 작다면?

예를 들어, 전자제품들의 사용 설명서 데이터가 있다.
여기서 "제품" 이라는 단어는 TF 값이 매우 높을 것이다. IDF는 어떨까?
IDF는 굉장히 작아질 것이다. 왜냐하면 전자제품 사용설명서마다 모두 "제품" 이라는 단어가 등장하기 때문이다.
"제품"이라는 단어는 DF 값이 매우 높아, DF의 역수인 IDF는 굉장히 낮은 값을 갖는다.

TF가 크고 IDF가 작은 단어는 그 문서에서 핵심 역할을 하는 단어라고 보기 어렵기 때문에 가중치가 낮게 계산된다.
TF-IDF 계산 방식은 다음 링크를 참고하자.
https://ko.wikipedia.org/wiki/Tf-idf

집단별 추천해보기 (협업필터링 아님!)

양갱맨 — Sun, 15 Jan 2023 22:55:06 +0900

참고도서 : python을 이용한 개인화 추천 시스템 - 임일

집단별 추천 시스템

취향이 아니라 직업, 성별 등 단순 통계적으로 구분할 수 있는 집단으로 구분하여 추천 시스템을 만들어보자.

이런 순서로 구성해야 한다.

import pandas as pd
import numpy as np

u_cols = ['user_id','age','sex','occupation','zip_code']
users = pd.read_csv('./u.user', sep='|', names=u_cols, encoding='latin-1')
i_cols = ['movie_id','title','release date',' video release date','IMDB URL','unknown','action','adventure','animation','children\'s','comedy','crime','documentary','drama','fantasy','film-noir','horror','musical','mystery','romance','sci-fi','thriller','war','western']

movies = pd.read_csv('./u.item', sep='|', names=i_cols, encoding='latin-1')
r_cols = ['user_id','movie_id','rating','timestamp']
ratings = pd.read_csv('./u.data',sep='\t',names=r_cols,encoding='latin-1')

ratings = ratings.drop('timestamp',axis=1) # 타임스탬프 컬럼 제거
movies = movies[['movie_id','title']] #영화 아이디랑 제목만 사용

앞 포스팅과 같은 데이터를 사용하기 때문에 로드하는 방식도 똑같다.

#train/test set 분리
from sklearn.model_selection import train_test_split
x = ratings.copy()
y = ratings['user_id']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, stratify=y)

학습 데이터와 평가 데이터를 나누기위해 sklearn을 사용한다.

# 정확도함수
def RMSE(y_true, y_pred):
    return np.sqrt(np.mean((np.array(y_true)-np.array(y_pred))**2))

# 모델 예측 후 에러값 측정
def score(model):
    id_pairs = zip(x_test['user_id'], x_test['movie_id'])
    y_pred = np.array([model(user, movie) for (user, movie) in id_pairs])
    y_true = np.array(x_test['rating'])
    return RMSE(y_true, y_pred)

추천 모델의 추천 성능을 확인할 수 있는 함수를 작성한다.

# 학습 데이터(x_train)의 full matrix 만들기
rating_matrix = x_train.pivot(index='user_id',columns='movie_id',values='rating')

rating matrix는 다음과 같이 생겼는데, 각 셀은 user별로 전체 영화에 대해서 준 평점이다.

먼저, 앞서 작성했던 베스트셀러 방식을 확인해보자.

def best_seller(user_id, movie_id):
    try : 
        rating = train_mean[movie_id]
    except:
        rating = 3.0
    return rating

train_mean = x_train.groupby(['movie_id'])['rating'].mean() # 영화별 평균 평점
score(best_seller)

베스트셀러방식은 1.02가 나왔다.

앞 포스팅보다 RMSE 값이 커졌는데(커지면 성능이 안좋다는 것임), 그 이유는 Train, Test set을 분리해서 test set에 대해서만 평가를 했기 때문이다.

전에 봤던 데이터(Train set)라면 잘 판단할 수 있지만 처음보는 데이터(Test set)를 가지고 예측을 하자니, 잘 못하는 것이다.

그럼 특정 기준을 가지고 사용자 집단을 분리하여 추천하는 모델을 만들어보면 더 좋은 성능을 가지지 않을까?

먼저, 간단히 "성별" 로 사용자를 나눠서 예측해보는 모델을 만들었다.

# 성별기준 추천

merged_ratings = pd.merge(x_train, users)
users = users.set_index('user_id')

# 영화별 각 성별의 평균평점 구하기
g_mean = merged_ratings[['movie_id','sex','rating']].groupby(['movie_id','sex'])['rating'].mean()

def cf_gender(user_id, movie_id):
    if movie_id in rating_matrix: 
        gender = users.loc[user_id]['sex']
        if gender in g_mean[movie_id]:
            gender_rating = g_mean[movie_id][gender]
        else:
            gender_rating = 3.0
    else:
        gender_rating = 3.0

    return gender_rating

score(cf_gender)

오히려 나빠졌다.

이 말은 성별이 영화 추천 정확도 개선에 영향이 없다는 것이다.

그럼 다른 변수를 기준으로 집단을 나눠보자.

# 직업기준 추천
# 성별 추천 코드를 수정해서 직업에 따라 집단을 나눠 예측값을 구하는 함수와 정확도 계산하는 코드 작성해보기
o_mean = merged_ratings[['movie_id','occupation','rating']].groupby(['movie_id','occupation'])['rating'].mean()

def cf_job(user_id, movie_id):
    if movie_id in rating_matrix:
        job = users.loc[user_id]['occupation']
        if job in o_mean[movie_id]:
            job_rating = o_mean[movie_id][job]
        else:
            job_rating = 3.0
    else:
        job_rating = 3.0

    return job_rating

score(cf_job)

더 안 좋아졌다.

그럼 여러 변수를 기준으로 잡아 좀 더 세부적으로 그룹화하여 추천해준다면 정확도가 개선될 수 있을까?

# 성별, 직업 기준 추천

# 성별과 직업을 동시에 고려한 집단을 나눠서 예측값을 구하는 함수를 만들고, 정확도 계산 코드 작성하기
go_mean = merged_ratings[['movie_id','occupation','sex','rating']].groupby(['movie_id','occupation','sex'])['rating'].mean()

def cf_job_and_gender(user_id, movie_id):
    if movie_id in rating_matrix:
        job = users.loc[user_id]['occupation']
        gender = users.loc[user_id]['sex']
        if (job, gender) in go_mean[movie_id]: # 순서중요
            go_rating = go_mean[movie_id][job,gender]
        else:
            go_rating = 3.0
    else :
        go_rating = 3.0

    return go_rating

score(cf_job_and_gender)

웬걸;

베스트셀러, 성별만 그룹화, 직업만 그룹화한 것 보다도 더 안좋은 결과가 나왔다.

여기서 끝낼 수 없다. 책에서 더 나아가 다른 변수로 추천을 해보자.

users 데이터프레임에는 'age','sex','occupation','zip\_code' 컬럼이 있다.

단순히 생각했을때, 아무래도 영화 선호에는 성별과 나이가 영향을 미치지 않을까 싶다.

ag_mean = merged_ratings[['movie_id','age','sex','rating']].groupby(['movie_id','age','sex'])['rating'].mean()

def cf_age_and_gender(user_id,movie_id):
    if movie_id in rating_matrix:
        age = users.loc[user_id]['age']
        gender = users.loc[user_id]['sex']
        if (age, gender) in ag_mean[movie_id]:
            ag_rating = ag_mean[movie_id][age,gender]
        else:
            ag_rating = 3.0
    else:
        ag_rating = 3.0
    return ag_rating

score(cf_age_and_gender)

이것도 아니네...

이렇게 단순히 취향이 아닌 인구통계적 변수(직업, 성별, 나이 등)를 가지고 집단을 나눠서 추천을 하는 것은 성능이 좋지 못하다는 것을 알았다.

사용자 정보가 없을때는? Best-Seller 방식!

양갱맨 — Sun, 18 Dec 2022 18:14:58 +0900

참고도서 : python을 이용한 개인화 추천 시스템 - 임일

데이터 로드하기

사용하는 데이터셋은 영화 리뷰 데이터이다.

각 데이터를 읽어보자.

참고로 데이터는 "python을 이용한 개인화 추천 시스템" 도서에서 제공하고있는 데이터를 사용했다.

import pandas as pd
import numpy as np

# Load Users

u_cols = ['user_id','age','sex','occupation','zip_code']
users = pd.read_csv('./u.user',sep='|',encoding='latin-1',names=u_cols)
users.set_index('user_id',inplace=True)
users.head()

# Load Movies

i_cols = ['movie_id','title','release_date','video_release_date,','IMDB_URL','unknown','action','adventure','animation','children','comedy','crime','documentary','drama','fantasy','film-noir','horror','musical','mystery','romance','sci-fi','thriller','war','western']
movies = pd.read_csv('./u.item', sep='|', names=i_cols,encoding='latin-1')
movies.set_index('movie_id',inplace=True)
movies.head()

# Load Ratings
r_cols = ['user_id','movie_id','rating','timestamp']
ratings = pd.read_csv('./u.data', sep='\t', names=r_cols, encoding='latin-1')
ratings.set_index('user_id',inplace=True)
ratings.head()

유저 테이블에는 유저아이디, 나이, 성별, 직업, 우편번호

영화 테이블에는 영화아이디, 제목, 개봉일자 등 정보와 각 장르컬럼

평점 테이블에는 유저아이디, 영화아이디, 평점, 평가일시

사용자에 대한 정보가 없는 경우?

가장 인기 있는 제품을 추천하면 된다.

< best-seller 방식 >

리뷰가 있다면, 평균평점이 가장 높은 순으로 추천하면된다.

그렇다면 이 추천시스템이 성능이 좋은지는 어떻게 알까?

양갱로그

분노의 청년 버팀목 전세대출 받기 1편 (feat. 2번 거절)

탐색적 데이터 분석 (EDA) - 변이 추정

탐색적 데이터 분석 (EDA) - 데이터 종류와 대푯값

2024 목표 : 블로그 새단장하기

중기청 전액 상환!

Content-based Filtering 이해하기

Content-base Filtering (CB; 내용 기반 필터링)

CB 절차

TF-IDF

TF-IDF

집단별 추천해보기 (협업필터링 아님!)

집단별 추천 시스템

사용자 정보가 없을때는? Best-Seller 방식!

데이터 로드하기

< best-seller 방식 >

추천시스템의 정확도를 평가하는 방법

추천시스템의 개념과 기본 알고리즘의 개념

추천 시스템(recommender system)이란?

1. 협업 필터링 ( Collaborative Filtering ; CF)

2. 내용 기반 필터링 ( Content-Based Filtering ; CB )

3. 지식 기반 필터링 ( Knowledge-Based Filtering ; KB )

4. 딥러닝 ( Deep Learning )