주제
배운 모든 것을 활용하여 DataCamp의 코스등급 사례 연구를 진행함.
데이터캠프의 등급 평가
데이터캠프의 강의의 각 챕터가 끝나면 아래와 같이 사람들이 특정 과정을 평가할 수 있다.
이런 등급데이터는 추천 시스템에서 사용하기 적합하다.
평가 데이터를 사용한 추천
- 평가 데이터를 얻는다.
- 데이터를 정리하고 최고 추천 코스를 계산한다.
- 매일 다시 계산해서 대시보드에 코스를 표현한다.
이 과정은 데이터 과학자와 데이터 엔지니어의 협력이 필요하다.
데이터 과학자는 추천 시스템에 대한 방식을 담당하고 데이터 엔지니어는 일정에 따라 권장 사항을 업데이트하는 안정적인 시스템을 만들기 위해 모든 것을 맞춰야한다.
ETL 과정
위 과정을 ETL 과정으로 보면 다음과 같다.
- 데이터 추출은
datacamp_application
이라는 PostgreSQL 데이터베이스에서 진행한다.
- 추출 데이터의 결측치 처리와 같은 데이터 정리를 진행한다.
- 데이터를 기반으로 추천 코스를 계산한다.
- 추천 결과를 애플리케이션 데이터베이스에 저장한다.
데이터베이스
datacamp_application
데이터베이스에서는 2개의 SQL 테이블을 사용할 것이다.
- Course
- course_id : 강좌 아이디
- title : 강좌명
- description : 과정 설명
- programming_language : 사용 프로그래밍 언어
- Rating
- user_id : 사용자 아이디
- course_id : 강좌 아이디
- rating : 평가(1-5점)
Uploaded by Notion2Tistory v1.1.0