앎을 경계하기

Contents 356

[가짜연구소 3기] 데이터 엔지니어링 - 6 Data warehouses and data lakes

주제 데이터 레이크, 데이터 웨어하우스, 데이터베이스 간 차이점, 데이터레이크에서 데이터 카탈로그가 유용하고 필요한 이유에 대해서 배웠다. 데이터웨어하우스와 데이터 레이크 데이터 카탈로그 데이터 레이크의 구조 부족을 보완하기 위한 것이 데이터 카탈로그다. 데이터의 출처 데이터의 사용 데이터 유지 관리자 얼마나 자주 업데이트 되는가 데이터 거버넌스 (가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책, 프로세스를 다룸) 프로세스 재현성 데이터 저장 방식이 매우 유연하기 때문에 카탈로그를 참조하는 것이 중요하다. 모범적인 데이터 저장 솔루션은 신뢰성, 자율성, 확장성, 속도를 확보하게 된다. 데이터베이스 vs 데이터 웨어하우스 데이터베이스는 컴퓨터에 저장되고 접근할 수 있는 조직화된 데이터라고 일반적으로..

[가짜연구소 3기] 데이터 엔지니어링 - 5 SQL databases

주제 SQL이 산업 표준이고 데이터 엔지니어와 데이터 과학자들이 SQL을 다르게 사용하고 있다. 그리고 데이터베이스 스키마의 예를 보면서 배웠다. SQL SQL = Structured Query Language 관계형 데이터베이스(RDBMS) 시스템을 쿼리하는데 선호되는 언어이다. SQL을 사용하면 한 번에 많은 레코드에 접근할 수 있고 집계, 필터링, 그룹화를 할 수 있다. 영어와 유사하기 때문에 이해와 사용이 쉽다. 데이터 엔지니어들이 SQL을 사용해서 데이터베이스를 만들고 유지 관리한다. 데이터 과학자들은 SQL을 사용해서 데이터베이스 쿼리를 한다. 데이터 엔지니어가 사용하는 SQL의 테이블 생성, 유지, 업데이트 CREATE TABLE employees( employee_id INT, first_..

[가짜연구소 3기] 데이터 엔지니어링 - 4 Data structures

주제 정형, 반정형, 비정형 데이터에 대한 개념을 배웠다. 정형 데이터 검색과 구성하기 쉽다. 행과 열로 구성된 구조(스프레드 시트)에 따라 입력된다. 각 열은 특정 형식으로 정의되어 값을 입력할 수 있다. 관계를 쉽게 구성할 수 있다. 관계형 데이터베이스에 저장된다. 데이터의 약 20%가 구조화되어있다. SQL을 사용해서 데이터를 쿼리할 수 있다. 구조화된 데이터 예시 예시를 보면 말 그대로 구조화되어있다는 것을 알 수 있다. 그리고 각 열은 특정 타입으로 정해져 있다. index는 고유한 ID의 역할을 하고 숫자형으로 데이터가 입력된다. full_time은 논리값으로 true 또는 false 만 될 수 있으며, 1 또는 0으로 채워진다. 나머지 열들은 문자열 형태로 되어있다. 위와 같이 데이터가 구조..

[가짜연구소 3기] 데이터 엔지니어링 - 3 The data pipeline

주제 데이터 파이프라인이 무엇인지, 무엇을 하는지, 왜 파이프라인이 중요한지, spotflix 사례를 통해 데이터파이프라인을 이해할 수 있었다. ETL이 무엇이고 데이터파이프라인과의 차이에 대해 배웠다. 데이터 파이프라인 회사는 다양한 소스에서 데이터를 수집한다. 데이터 엔지니어는 수집된 데이터를 처리하고 저장한다. 이를 위해 파이프라인이 필요하다. 수집 - 처리 - 저장하는 일련의 과정을 효율적으로 자동화하게 되면 데이터 과학자는 정확하고 관련성 높은 최신의 데이터를 사용할 수 있게 된다. 이 과정이 쉽지 않기 때문에 데이터 엔지니어링의 역할이 중요해진다. 다시 한 번, 가상의 음악 스트리밍 회사 Spotflix를 보자. Spotflix는 모바일에서 사용자의 행동, 청취 기록 등의 데이터를 수집할 수 ..

[가짜연구소 3기] 데이터 엔지니어링 - 2 Data engineer vs Data scientists

주제 데이터 엔지니어와 데이터 과학자의 차이점 데이터 엔지니어가 어떻게 데이터 과학자를 지원하는지에 대해 배움 데이터 엔지니어 vs 데이터 과학자 앞에서 데이터 엔지니어가 데이터의 수집 및 저장 부분에서 업무한다고 배웠다. 데이터 엔지니어는 데이터를 수집하고 저장하여 쉽게 접근하고 분석할 수 있도록 하는 것이다. 데이터 과학자는 나머지 작업에 개입한다. 전처리하고 데이터를 분석하고 실험하는 작업 전반이 데이터 과학자의 업무이다. 데이터 엔지니어는 데이터 과학자가 데이터를 잘 활용할 수 있도록 지원해주는 역할을 담당한다고 생각하면 된다. 음악 스트리밍 회사인 Spotflix라는 가상의 회사가 있습니다. A씨는 데이터 엔지니어이고 B씨는 데이터 과학자입니다. 데이터 엔지니어는 데이터를 수집하고 저장하여 과학..

[가짜연구소 3기] 데이터 엔지니어링 - 1 Data engineering and big data

모두가 대부분 영어 강의를 들을테니.. 이해를 돕고자 최대한 한글로 적어보려고 한다. 영어가 더 익숙한 단어들은 함께 기재해야겠다.주제이번 장을 통해서 이 과정이 무엇을 배우기 위함인지, 데이터의 흐름을 파악할 수 있고 데이터엔지니어가 어떤 과정에서 필요하고 어떤 일을 해야하는지 알 수 있었다.그리고 데이터 엔지니어와 빅데이터의 관계를 배웠다.각 챕터에서 배울 것들Chapter1 - 데이터 엔지니어링이란 무엇인가?데이터 엔지니어링과 빅데이터데이터 엔지니어와 데이터 과학자의 차이데이터 파이프라인Chapter2 - 데이터를 저장하는 방법정형 데이터와 비정형 데이터의 차이SQL데이터 웨어하우스와 데이터 레이크(Data lake)Chapter3 - 데이터를 이동시키고 처리하는 방법데이터 처리데이터 스케줄링병렬 ..

[Python error] Error: 'NoneType' object has no attribute 'loader'

Mac mini m1, Python 3.8, Anaconda 가상환경 사용. tensorflow로 모델을 구성해서 input data를 넣어주려고 했는데 아래와 같은 에러가 났다. NotImplementedError: Cannot convert a symbolic Tensor (lstm_2/strided_slice:0) to a numpy array. This error may indicate that you're trying to pass a Tensor to a NumPy call, which is not supported 찾아보니 NumPy 버전 문제여서 1.19.5로 낮추라고 함. pip uninstall numpy를 해주고 conda install numpy==1.19.5 를 해서 새로 넘파이를..

Programming/Python 2021.08.17

파이썬에서 BFS, DFS 구현 시 주의사항(재귀 X)

인접 노드를 저장하기 위한 리스트를 만들 때 클래스 변수로 선언하는 경우를 조심해야한다. 하나의 클래스의 인스턴스들이 클래스 변수를 공유하기 때문에 각자의 인접노드를 개별적으로 갖고있지 않게 된다. 따라서 self를 사용해서 각자 인접한 노드를 저장하도록 하자. ''' 그래프 검색 DFS : 이어진 자식 노드 단위로 검색하는 방법, 트리 순회 방식도 포함, 스택사용 BFS : 레벨 단위로 검색하는 방법, 큐 사용 그래프 구성 노드, 엣지, 인접노드들은 링크드리스트로 연결되어있다. ''' from queue import Queue import copy class node : def __init__(self, v): self.ad = list() self.v = v self.mark = False #스택 또..

Programming/Python 2021.08.09

가벼운 학습지 영어 정리 - level 2

"Level 2"be동사 과거시제주어 + be동사 과거 + 명/형용사be동사의 과거형태is, am → wasare → were예시I was a student. 나는 학생이었어.She was on a plane. 그녀는 비행기 안에 있었어.They were very busy. 그들은 매우 바빴었어.You were my business partner. 너는 나의 사업파트너였어.be동사 과거부정문주어 + be동사 과거 + not + 명/형용사be동사 과거형 + not 축약형태was not → wasn'twere not → weren't예시I wasn't a firefighter. 나는 소방관이 아니었어.You weren't at the scene. 너는 그 현장에 있지 않았어.He wasn't happy. 그..

Anything 2021.07.04