앎을 경계하기

[가짜연구소3기] Data Engineer 58

[가짜연구소 3기] 데이터 엔지니어링 - 8 Scheduling data

주제스케쥴링이 무엇인지, 방법에 따른 차이점, 배치와 스트림의 차이점에 대해 배웠다.스케쥴링데이터 처리에서 수행하는 모든 작업에 적용할 수 있다.데이터 엔지니어링 시스템의 접착제 역할각각의 작업들을 함께 수행시키기 위한 작업이다.특정 순서로 작업을 실행하고 모든 종속성을 해결한다.스케쥴링 방법수동(Manual)테이블 업데이트 요청이나 필요가 발생하는 경우, 업데이트 작업을 수행자동(Automatically)인간 의존도를 최소화하여 파이프라인이 특정 시간이나 조건에 작업을 변경사항을 적용하도록 자동화되는 것을 바람.센서 스케쥴링특정 조건이 충족되면 실행할 작업들을 설정하는 스케쥴링항상 센서가 추가되어 잘 수행되었는지 확인해야한다.이러한 부분에서 더 많은 리소스가 필요하고 그만한 가치가 없을 수 있다.배치와..

[가짜연구소 3기] 데이터 엔지니어링 - 7 Processing data

주제데이터 프로세싱이 무엇인지, 왜 필요한지, 어떤 작업들로 구성이 되어있는지에 대해 배웠다.데이터 처리의 가치데이터 처리는 원시 데이터를 의미있는 정보로 변환하는 작업들이다.데이터 처리를 하는 이유는 다음과 같다.불필요한 데이터가 있을 수 있다.메모리, 프로세스, 네트워크 비용을 최적화 할 수 있다.다른 타입의 데이터로 변환할 수 있다.데이터를 조직화해서 분석가가 활용하기 좋게 만든다.특정 스키마 또는 구조에 맞게 만들수 있다.생산성 증가데이터 엔지니어가 데이터를 처리하는 법데이터 엔지니어는 데이터를 조작, 정리한다.자동화 작업을 할 수 있고, 데이터 처리를 항상 해야한다.구조화된 데이터베이스에 데이터를 저장한다.분석가가 쉽게 액세스 할 수 있도록 데이터베이스 테이블 위에 뷰를 생성한다.데이터베이스에서..

[가짜연구소 3기] 데이터 엔지니어링 - 6 Data warehouses and data lakes

주제 데이터 레이크, 데이터 웨어하우스, 데이터베이스 간 차이점, 데이터레이크에서 데이터 카탈로그가 유용하고 필요한 이유에 대해서 배웠다. 데이터웨어하우스와 데이터 레이크 데이터 카탈로그 데이터 레이크의 구조 부족을 보완하기 위한 것이 데이터 카탈로그다. 데이터의 출처 데이터의 사용 데이터 유지 관리자 얼마나 자주 업데이트 되는가 데이터 거버넌스 (가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책, 프로세스를 다룸) 프로세스 재현성 데이터 저장 방식이 매우 유연하기 때문에 카탈로그를 참조하는 것이 중요하다. 모범적인 데이터 저장 솔루션은 신뢰성, 자율성, 확장성, 속도를 확보하게 된다. 데이터베이스 vs 데이터 웨어하우스 데이터베이스는 컴퓨터에 저장되고 접근할 수 있는 조직화된 데이터라고 일반적으로..

[가짜연구소 3기] 데이터 엔지니어링 - 5 SQL databases

주제 SQL이 산업 표준이고 데이터 엔지니어와 데이터 과학자들이 SQL을 다르게 사용하고 있다. 그리고 데이터베이스 스키마의 예를 보면서 배웠다. SQL SQL = Structured Query Language 관계형 데이터베이스(RDBMS) 시스템을 쿼리하는데 선호되는 언어이다. SQL을 사용하면 한 번에 많은 레코드에 접근할 수 있고 집계, 필터링, 그룹화를 할 수 있다. 영어와 유사하기 때문에 이해와 사용이 쉽다. 데이터 엔지니어들이 SQL을 사용해서 데이터베이스를 만들고 유지 관리한다. 데이터 과학자들은 SQL을 사용해서 데이터베이스 쿼리를 한다. 데이터 엔지니어가 사용하는 SQL의 테이블 생성, 유지, 업데이트 CREATE TABLE employees( employee_id INT, first_..

[가짜연구소 3기] 데이터 엔지니어링 - 4 Data structures

주제 정형, 반정형, 비정형 데이터에 대한 개념을 배웠다. 정형 데이터 검색과 구성하기 쉽다. 행과 열로 구성된 구조(스프레드 시트)에 따라 입력된다. 각 열은 특정 형식으로 정의되어 값을 입력할 수 있다. 관계를 쉽게 구성할 수 있다. 관계형 데이터베이스에 저장된다. 데이터의 약 20%가 구조화되어있다. SQL을 사용해서 데이터를 쿼리할 수 있다. 구조화된 데이터 예시 예시를 보면 말 그대로 구조화되어있다는 것을 알 수 있다. 그리고 각 열은 특정 타입으로 정해져 있다. index는 고유한 ID의 역할을 하고 숫자형으로 데이터가 입력된다. full_time은 논리값으로 true 또는 false 만 될 수 있으며, 1 또는 0으로 채워진다. 나머지 열들은 문자열 형태로 되어있다. 위와 같이 데이터가 구조..

[가짜연구소 3기] 데이터 엔지니어링 - 3 The data pipeline

주제 데이터 파이프라인이 무엇인지, 무엇을 하는지, 왜 파이프라인이 중요한지, spotflix 사례를 통해 데이터파이프라인을 이해할 수 있었다. ETL이 무엇이고 데이터파이프라인과의 차이에 대해 배웠다. 데이터 파이프라인 회사는 다양한 소스에서 데이터를 수집한다. 데이터 엔지니어는 수집된 데이터를 처리하고 저장한다. 이를 위해 파이프라인이 필요하다. 수집 - 처리 - 저장하는 일련의 과정을 효율적으로 자동화하게 되면 데이터 과학자는 정확하고 관련성 높은 최신의 데이터를 사용할 수 있게 된다. 이 과정이 쉽지 않기 때문에 데이터 엔지니어링의 역할이 중요해진다. 다시 한 번, 가상의 음악 스트리밍 회사 Spotflix를 보자. Spotflix는 모바일에서 사용자의 행동, 청취 기록 등의 데이터를 수집할 수 ..

[가짜연구소 3기] 데이터 엔지니어링 - 2 Data engineer vs Data scientists

주제 데이터 엔지니어와 데이터 과학자의 차이점 데이터 엔지니어가 어떻게 데이터 과학자를 지원하는지에 대해 배움 데이터 엔지니어 vs 데이터 과학자 앞에서 데이터 엔지니어가 데이터의 수집 및 저장 부분에서 업무한다고 배웠다. 데이터 엔지니어는 데이터를 수집하고 저장하여 쉽게 접근하고 분석할 수 있도록 하는 것이다. 데이터 과학자는 나머지 작업에 개입한다. 전처리하고 데이터를 분석하고 실험하는 작업 전반이 데이터 과학자의 업무이다. 데이터 엔지니어는 데이터 과학자가 데이터를 잘 활용할 수 있도록 지원해주는 역할을 담당한다고 생각하면 된다. 음악 스트리밍 회사인 Spotflix라는 가상의 회사가 있습니다. A씨는 데이터 엔지니어이고 B씨는 데이터 과학자입니다. 데이터 엔지니어는 데이터를 수집하고 저장하여 과학..

[가짜연구소 3기] 데이터 엔지니어링 - 1 Data engineering and big data

모두가 대부분 영어 강의를 들을테니.. 이해를 돕고자 최대한 한글로 적어보려고 한다. 영어가 더 익숙한 단어들은 함께 기재해야겠다.주제이번 장을 통해서 이 과정이 무엇을 배우기 위함인지, 데이터의 흐름을 파악할 수 있고 데이터엔지니어가 어떤 과정에서 필요하고 어떤 일을 해야하는지 알 수 있었다.그리고 데이터 엔지니어와 빅데이터의 관계를 배웠다.각 챕터에서 배울 것들Chapter1 - 데이터 엔지니어링이란 무엇인가?데이터 엔지니어링과 빅데이터데이터 엔지니어와 데이터 과학자의 차이데이터 파이프라인Chapter2 - 데이터를 저장하는 방법정형 데이터와 비정형 데이터의 차이SQL데이터 웨어하우스와 데이터 레이크(Data lake)Chapter3 - 데이터를 이동시키고 처리하는 방법데이터 처리데이터 스케줄링병렬 ..