앎을 경계하기

[가짜연구소3기] Data Engineer

[가짜연구소 3기] 데이터 엔지니어링 - 6 Data warehouses and data lakes

양갱맨 2021. 8. 22. 11:55

주제

데이터 레이크, 데이터 웨어하우스, 데이터베이스 간 차이점, 데이터레이크에서 데이터 카탈로그가 유용하고 필요한 이유에 대해서 배웠다.


데이터웨어하우스와 데이터 레이크

 

 


데이터 카탈로그

데이터 레이크의 구조 부족을 보완하기 위한 것이 데이터 카탈로그다.

  • 데이터의 출처
  • 데이터의 사용
  • 데이터 유지 관리자
  • 얼마나 자주 업데이트 되는가
  • 데이터 거버넌스
    • (가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책, 프로세스를 다룸)
  • 프로세스 재현성
  • 데이터 저장 방식이 매우 유연하기 때문에 카탈로그를 참조하는 것이 중요하다.

모범적인 데이터 저장 솔루션은 신뢰성, 자율성, 확장성, 속도를 확보하게 된다.


데이터베이스 vs 데이터 웨어하우스

데이터베이스는 컴퓨터에 저장되고 접근할 수 있는 조직화된 데이터라고 일반적으로 정의할 수 있는 용어이다.

데이터 웨어하우스는 데이터베이스의 한 유형이다.

 

 

Uploaded by Notion2Tistory v1.1.0