주제
데이터를 저장소에서 추출하는 방법에 대해 배웠다.
데이터 추출
데이터 처리에 적합하지 않은 영구 저장소의 데이터를 메모리로 추출하는 작업
영구 저장소 : Amazon S3 file, SQL Database 등
텍스트 파일에서 데이터 추출하기
- 비정형화된 일반적인 텍스트 파일
- 행 = 레코드, 열 = 속성인 플랫 파일
- csv, tsv 파일
JSON
- 반정형 데이터
- 4개의 원자 데이터 타입 - 숫자, 문자열, 부울, 널
- 복합 데이터 유형 - 배열, 객체
- Python의 dictionary와 매핑이 잘 된다.
- JSON은 웹 서비스에서 많이 사용된다.
웹에서의 데이터 추출
일반적으로 웹 브라우저에서 google을 검색하면 브라우저는 google 홈페이지 컨텐츠를 "요청"한다.
google 서버는 페이지를 구성하는 데이터로 "응답"한다.
일부 웹 서버는 사람이 볼 수 있는 웹 페이지를 제공하지 않기도 한다.
JSON 포맷으로 데이터를 전달하고 이것을 API라고 한다.
데이터베이스에서의 데이터 추출
애플리케이션 데이터베이스
- 트랜잭션
- 레코드를 변경, 삽입하는 일반적인 트랜잭션 수행
- OLTP(온라인 트랜잭션 처리)
- 행 지향적이고 데이터 추가 시 행을 기준으로 추가한다.
분석적 데이터베이스
- OLAP(온라인 분석 처리)
- 열 지향적
Uploaded by Notion2Tistory v1.1.0