주제
정형, 반정형, 비정형 데이터에 대한 개념을 배웠다.
정형 데이터
- 검색과 구성하기 쉽다.
- 행과 열로 구성된 구조(스프레드 시트)에 따라 입력된다.
- 각 열은 특정 형식으로 정의되어 값을 입력할 수 있다.
- 관계를 쉽게 구성할 수 있다.
- 관계형 데이터베이스에 저장된다.
- 데이터의 약 20%가 구조화되어있다.
- SQL을 사용해서 데이터를 쿼리할 수 있다.
구조화된 데이터 예시
정형, 반정형, 비정형 데이터에 대한 개념을 배웠다.
구조화된 데이터 예시
예시를 보면 말 그대로 구조화되어있다는 것을 알 수 있다.
그리고 각 열은 특정 타입으로 정해져 있다.
index는 고유한 ID의 역할을 하고 숫자형으로 데이터가 입력된다.
full_time은 논리값으로 true 또는 false 만 될 수 있으며, 1 또는 0으로 채워진다.
나머지 열들은 문자열 형태로 되어있다.
위와 같이 데이터가 구조화되어 있어서 다른 구조화된 데이블과 연결하는 것도 쉽다.
출처 : 위키독스 - 예제로 배우는 오라클 11g
반 구조화된 데이터
가상의 음악 스트리밍 회사 spotflix의 JSON 파일 예시이다."favorite_artists" 처럼 저장되는 데이터의 개수가 다를 수 있다.
[가짜연구소 3기] 데이터 엔지니어링 - 6 Data warehouses and data lakes (0) | 2021.08.22 |
---|---|
[가짜연구소 3기] 데이터 엔지니어링 - 5 SQL databases (0) | 2021.08.22 |
[가짜연구소 3기] 데이터 엔지니어링 - 3 The data pipeline (0) | 2021.08.22 |
[가짜연구소 3기] 데이터 엔지니어링 - 2 Data engineer vs Data scientists (0) | 2021.08.22 |
[가짜연구소 3기] 데이터 엔지니어링 - 1 Data engineering and big data (0) | 2021.08.22 |