앎을 경계하기

[가짜연구소3기] Data Engineer

[가짜연구소 3기] 데이터 엔지니어링 - 18 Extract

양갱맨 2021. 8. 25. 18:29

주제

데이터를 저장소에서 추출하는 방법에 대해 배웠다.


데이터 추출

데이터 처리에 적합하지 않은 영구 저장소의 데이터를 메모리로 추출하는 작업

영구 저장소 : Amazon S3 file, SQL Database 등

텍스트 파일에서 데이터 추출하기

  • 비정형화된 일반적인 텍스트 파일
  • 행 = 레코드, 열 = 속성인 플랫 파일
    • csv, tsv 파일

JSON

  • 반정형 데이터
  • 4개의 원자 데이터 타입 - 숫자, 문자열, 부울, 널
  • 복합 데이터 유형 - 배열, 객체
  • Python의 dictionary와 매핑이 잘 된다.
  • JSON은 웹 서비스에서 많이 사용된다.

웹에서의 데이터 추출

일반적으로 웹 브라우저에서 google을 검색하면 브라우저는 google 홈페이지 컨텐츠를 "요청"한다.

google 서버는 페이지를 구성하는 데이터로 "응답"한다.

일부 웹 서버는 사람이 볼 수 있는 웹 페이지를 제공하지 않기도 한다.

JSON 포맷으로 데이터를 전달하고 이것을 API라고 한다.

데이터베이스에서의 데이터 추출

애플리케이션 데이터베이스

  • 트랜잭션
  • 레코드를 변경, 삽입하는 일반적인 트랜잭션 수행
  • OLTP(온라인 트랜잭션 처리)
  • 행 지향적이고 데이터 추가 시 행을 기준으로 추가한다.

분석적 데이터베이스

  • OLAP(온라인 분석 처리)
  • 열 지향적