앎을 경계하기

스파크 3

SPARK 완벽 가이드 - ch.5 구조적 API 기본 연산

구조적 API 기본 연산 4장 내용 - 구조적 API의 핵심 추상화 개념 5장 내용 - DataFrame과 DataFrame의 데이터를 다루는 기능 소개 Row 타입의 records (= 테이블의 row) 각 레코드에 수행할 연산 표현식을 나타내는 Columns (=스프레드시트의 column) 각 컬럼명과 데이터 타입을 정의하는 schema dataframe이나 dataset이 클러스터에서 물리적으로 배치되는 형태를 Partitioning 이라고 함 Partitioning schema는 파티션을 배치하는 방법을 정의 파티셔닝의 분할 기준은 특정 컬럼 또는 비결정론적(매번 변하는)값을 기반으로 설정 ex) json 파일 데이터를 dataframe 타입으로 로드하여 스키마 확인하기 >>> df = spark..

SPARK 완벽 가이드 - ch.4구조적 API

구조적 API 개요 구조적 API는 비정형 로그 파일부터 반정형 CSV, 정형 Parquet 파일까지 다양한 데이터를 처리할 수 있다. 구조적 API에는 세 가지 분산 컬렉션 API가 있다. Dataset DataFrame SQL Table, View 구조적 API를 사용해서 배치 작업을 스트리밍 작업으로 손쉽게 변환할 수 있다. 구조적 API는 데이터 흐름을 정의하는 기본 추상화 개념이다. 이번 장에서는... typed/untyped API의 개념과 차이점 핵심 용어 스파크가 구조적 API의 데이터 흐름을 해석하고 클러스터에서 실행하는 방식 4.1 DataFrame과 Dataset DataFrame과 Dataset의 정의와 의미적인 차이점? DataFrame과 Dataset은 잘 정의된 row와 col..

Docker로 Spark 환경 구성하기

스파크 설치할 os 설치 - 우분투로 선택docker search ubunut docker pull ubuntu docker run -itd --name spark ubuntu docker exec -itu 0 spark /bin/bashubuntu 컨테이너 생성 실행bash에서 python 설치 전 필요한 라이브러리 다운로드sudo apt-get install build-essential checkinstall sudo apt-get install libreadline-gplv2-dev libncursesw5-dev libssl-dev \ libsqlite3-dev tk-dev libgdbm-dev libc6-dev libbz2-dev libffi-dev zlib1g-dev파이썬 다운로드 및 압축풀기 ..

Anything 2021.04.28