주제
데이터 파이프라인이 무엇인지, 무엇을 하는지, 왜 파이프라인이 중요한지, spotflix 사례를 통해 데이터파이프라인을 이해할 수 있었다.
ETL이 무엇이고 데이터파이프라인과의 차이에 대해 배웠다.
데이터 파이프라인
회사는 다양한 소스에서 데이터를 수집한다. 데이터 엔지니어는 수집된 데이터를 처리하고 저장한다.
이를 위해 파이프라인이 필요하다.
수집 - 처리 - 저장하는 일련의 과정을 효율적으로 자동화하게 되면 데이터 과학자는 정확하고 관련성 높은 최신의 데이터를 사용할 수 있게 된다.
이 과정이 쉽지 않기 때문에 데이터 엔지니어링의 역할이 중요해진다.
다시 한 번, 가상의 음악 스트리밍 회사 Spotflix를 보자.
Spotflix는 모바일에서 사용자의 행동, 청취 기록 등의 데이터를 수집할 수 있다.
모바일 앱 외에도 데스크탑 프로그램에서 데이터를 수집할 수도 있고 웹 사이트 자체에서도 데이터 수집이 가능하다.
그리고 회사 내 HR 관리 시스템과 같은 내부 사이트도 있을 것이다.
여러 소스(모바일, 데스크탑, 웹사이트)로부터 얻은 데이터는 데이터 레이크에 저장된다.
이 부분에서 3개의 파이프라인이 구축된다.
다음 데이터레이크의 데이터를 데이터베이스에 저장한다.
데이터베이스는 여러 개로 생성이 되는데, 예를 들어 아티스트 이름, 팔로우 수, 활동 정보 등을 포함하는 "artists" 데이터베이스가 있을 수 있고, 앨범 정보가 들어있는 "albums" 데이터베이스, 플레이리스트 이름, 포함된 노래, 생성날짜 등의 "playlists" 데이터베이스, 사용자 이름, 계정, 가입일 등의 "customers" 데이터베이스, spotflix의 직원 정보에 대한 "employees" 데이터베이스 등 여러 가지가 있을 수 있다.