모두가 대부분 영어 강의를 들을테니.. 이해를 돕고자 최대한 한글로 적어보려고 한다. 영어가 더 익숙한 단어들은 함께 기재해야겠다.
주제
이번 장을 통해서 이 과정이 무엇을 배우기 위함인지,
데이터의 흐름을 파악할 수 있고
데이터엔지니어가 어떤 과정에서 필요하고
어떤 일을 해야하는지 알 수 있었다.
그리고 데이터 엔지니어와 빅데이터의 관계를 배웠다.
각 챕터에서 배울 것들
Chapter1 - 데이터 엔지니어링이란 무엇인가?
- 데이터 엔지니어링과 빅데이터
- 데이터 엔지니어와 데이터 과학자의 차이
- 데이터 파이프라인
Chapter2 - 데이터를 저장하는 방법
- 정형 데이터와 비정형 데이터의 차이
- SQL
- 데이터 웨어하우스와 데이터 레이크(Data lake)
Chapter3 - 데이터를 이동시키고 처리하는 방법
- 데이터 처리
- 데이터 스케줄링
- 병렬 컴퓨팅
- 클라우드 컴퓨팅
데이터의 작업 흐름(Data workflow)
조직내에서 데이터가 흐르는 과정은 4단계로 구성된다.
- 데이터 수집 & 저장
- 설문조사, 웹 트래픽 등을 통해 생성되는 데이터들을 수집하고 저장한다.
- 데이터 정리
- 데이터의 결측치, 이상치, 중복값 등을 처리하고 체계적인 형식으로 변환한다.
- 즉, 전처리 단계
- 데이터 탐색 & 시각화
- 정리된 데이터들이 악용(?)될 수 있기때문에, 대시보드를 구축해서 변경 사항에 대해 추적하거나 데이터 셋을 비교한다.
- 데이터를 시각화해서 구체적으로 살펴보는 단계
- 실험 & 예측
- 전처리가 완료된 데이터를 통해 예측 모델을 만들고 실험을 진행한다.
데이터 엔지니어
데이터 엔지니어는 데이터의 워크플로우에서 데이터 수집&저장 과정을 담당한다.
데이터 수집&저장 과정에서 데이터들은 정리가 되어있지 않고 손상되어 있는 상태이기 때문에 전처리, 탐색, 실험 과정이 진행되지는 않는다.
그래서 순조롭게 다음 단계가 진행되기 위해 데이터 엔지니어가 필요하다.
올바른 데이터를 올바른 형식으로 갖춰서 올바른 사람에게 최대한 효율적으로 전달해야한다.
데이터 엔지니어의 업무
- 다양한 소스에서 데이터를 수집하기
- 분석을 위해 데이터베이스 최적화하기
- 손상된 데이터를 제거하기
- 데이터 아키텍처를 개발, 구성, 테스트, 유지 관리하기
- 데이터 아키텍처 - 대량의 데이터를 처리하고, 처리를 위한 데이터베이스 및 대규모 처리 시스템
지금까지 설명한 용어와 개념을 앞으로 배워볼 것이다.
데이터 엔지니어와 빅데이터
빅데이터의 출현으로 데이터 엔지니어들의 수요가 증가하였다.
"빅데이터"라는 것은 말그대로 매우 매우 큰 사이즈의 데이터이다.
크기가 커서 기존의 데이터 관리 방법으로는 처리가 어려워 어떻게 다룰지 고민해봐야하는 아주 큰 사이즈의 데이터셋이라고 생각하면 된다.
빅데이터의 성장
빅데이터도 시간이 지나면서 규모가 기하급수적으로 커지고 있다.
이렇게 큰 빅데이터를 구성하는 데이터들은 다음과 같다.
- 센서 및 장치 데이터
- 소셜 미디어 데이터
- 기업 데이터
- VoIP 데이터
빅데이터의 특징 5V
- Volume(볼륨 - 얼마나 많은 데이터의 양?) : 물리적으로나 개념적으로 대규모의 양을 갖는 데이터
- Variety(종류 - 어떤 유형의 데이터?) : 구조화된 정형데이터 외 사진, 동영상, 오디오와 같은 비정형 데이터도 포함
- Velocity(속도 - 얼마나 자주 생산되고 빠르게 유통되는 데이터?) : 데이터의 생산 속도나 유통 속도가 매우 빠름
- Veracity(신뢰성 - 출처를 얼마나 신뢰할 수 있는지?) : 데이터의 형태가 매우 다양하지만 출처를 신뢰할 수 있는 데이터
- Value(가치 - 사용할 가치가 있는 데이터?) : 새로운 가치를 창출할 수 있는 유용한 데이터
데이터 엔지니어는 5V를 모두 고려해야한다.
Uploaded by Notion2Tistory v1.1.0