앎을 경계하기

[가짜연구소3기] Data Engineer

[가짜연구소 3기] 데이터 엔지니어링 - 7 Processing data

양갱맨 2021. 8. 22. 11:55

주제

데이터 프로세싱이 무엇인지, 왜 필요한지, 어떤 작업들로 구성이 되어있는지에 대해 배웠다.


데이터 처리의 가치

데이터 처리는 원시 데이터를 의미있는 정보로 변환하는 작업들이다.

데이터 처리를 하는 이유는 다음과 같다.

  • 불필요한 데이터가 있을 수 있다.
  • 메모리, 프로세스, 네트워크 비용을 최적화 할 수 있다.
  • 다른 타입의 데이터로 변환할 수 있다.
  • 데이터를 조직화해서 분석가가 활용하기 좋게 만든다.
  • 특정 스키마 또는 구조에 맞게 만들수 있다.
  • 생산성 증가

데이터 엔지니어가 데이터를 처리하는 법

  • 데이터 엔지니어는 데이터를 조작, 정리한다.
    • 자동화 작업을 할 수 있고, 데이터 처리를 항상 해야한다.
  • 구조화된 데이터베이스에 데이터를 저장한다.
  • 분석가가 쉽게 액세스 할 수 있도록 데이터베이스 테이블 위에 뷰를 생성한다.
  • 데이터베이스에서의 작업 수행을 최적화한다.