앎을 경계하기

[가짜연구소3기] Data Engineer

[가짜연구소 3기] 데이터 엔지니어링 - 2 Data engineer vs Data scientists

양갱맨 2021. 8. 22. 11:54

주제

데이터 엔지니어와 데이터 과학자의 차이점

데이터 엔지니어가 어떻게 데이터 과학자를 지원하는지에 대해 배움


데이터 엔지니어 vs 데이터 과학자

앞에서 데이터 엔지니어가 데이터의 수집 및 저장 부분에서 업무한다고 배웠다.

데이터 엔지니어는 데이터를 수집하고 저장하여 쉽게 접근하고 분석할 수 있도록 하는 것이다.

데이터 과학자는 나머지 작업에 개입한다.

전처리하고 데이터를 분석하고 실험하는 작업 전반이 데이터 과학자의 업무이다.

데이터 엔지니어는 데이터 과학자가 데이터를 잘 활용할 수 있도록 지원해주는 역할을 담당한다고 생각하면 된다.

 

음악 스트리밍 회사인 Spotflix라는 가상의 회사가 있습니다.

A씨는 데이터 엔지니어이고 B씨는 데이터 과학자입니다.

데이터 엔지니어는 데이터를 수집하고 저장하여 과학자가 활용할 수 있도록 합니다.

A씨는 고객, 아티스트, 노래 데이터를 데이터베이스에 수집합니다.

B씨는 테이블을 사용해 청취 패턴을 분석, 이해하고 추천 엔진을 구축합니다.

A씨는 B씨가 활용하는 테이블이 올바른 구조로 되어있는지 데이터베이스가 분석에 최적화되어있는지 확인합니다.

B씨는 데이터베이스에 접근해서 저장되어있는 데이터를 활용합니다.

A씨는 B씨의 분석이 최신 상태를 유지할 수 있도록 데이터 파이프라인을 구축하고 B씨는 데이터 파이프라인의 결과물들을 활용하게 됩니다.

 

정리하면 다음과 같이 데이터 엔지니어와 과학자를 비교할 수 있습니다.

데이터 엔지니어는 데이터베이스를 생성, 업데이트하기 위해 Python, Java, SQL 등을 사용하고

데이터 과학자는 분석을 위해 Python, R, SQL을 사용해서 데이터베이스에 정보를 요청합니다.