앎을 경계하기

[가짜연구소3기] Data Engineer

[가짜연구소 3기] 데이터 엔지니어링 - 22 Course rating

양갱맨 2021. 8. 25. 18:30

주제

배운 모든 것을 활용하여 DataCamp의 코스등급 사례 연구를 진행함.


데이터캠프의 등급 평가

데이터캠프의 강의의 각 챕터가 끝나면 아래와 같이 사람들이 특정 과정을 평가할 수 있다.

이런 등급데이터는 추천 시스템에서 사용하기 적합하다.


평가 데이터를 사용한 추천

  • 평가 데이터를 얻는다.
  • 데이터를 정리하고 최고 추천 코스를 계산한다.
  • 매일 다시 계산해서 대시보드에 코스를 표현한다.

이 과정은 데이터 과학자와 데이터 엔지니어의 협력이 필요하다.

데이터 과학자는 추천 시스템에 대한 방식을 담당하고 데이터 엔지니어는 일정에 따라 권장 사항을 업데이트하는 안정적인 시스템을 만들기 위해 모든 것을 맞춰야한다.


ETL 과정

위 과정을 ETL 과정으로 보면 다음과 같다.

  1. 데이터 추출은 datacamp_application이라는 PostgreSQL 데이터베이스에서 진행한다.
  1. 추출 데이터의 결측치 처리와 같은 데이터 정리를 진행한다.
  1. 데이터를 기반으로 추천 코스를 계산한다.
  1. 추천 결과를 애플리케이션 데이터베이스에 저장한다.

데이터베이스

datacamp_application 데이터베이스에서는 2개의 SQL 테이블을 사용할 것이다.

  • Course
    • course_id : 강좌 아이디
    • title : 강좌명
    • description : 과정 설명
    • programming_language : 사용 프로그래밍 언어
  • Rating
    • user_id : 사용자 아이디
    • course_id : 강좌 아이디
    • rating : 평가(1-5점)