앎을 경계하기

Machine Learning/Spark 4

SPARK 완벽 가이드 - ch.5 구조적 API 기본 연산

구조적 API 기본 연산 4장 내용 - 구조적 API의 핵심 추상화 개념 5장 내용 - DataFrame과 DataFrame의 데이터를 다루는 기능 소개 Row 타입의 records (= 테이블의 row) 각 레코드에 수행할 연산 표현식을 나타내는 Columns (=스프레드시트의 column) 각 컬럼명과 데이터 타입을 정의하는 schema dataframe이나 dataset이 클러스터에서 물리적으로 배치되는 형태를 Partitioning 이라고 함 Partitioning schema는 파티션을 배치하는 방법을 정의 파티셔닝의 분할 기준은 특정 컬럼 또는 비결정론적(매번 변하는)값을 기반으로 설정 ex) json 파일 데이터를 dataframe 타입으로 로드하여 스키마 확인하기 >>> df = spark..

SPARK 완벽 가이드 - ch.4구조적 API

구조적 API 개요 구조적 API는 비정형 로그 파일부터 반정형 CSV, 정형 Parquet 파일까지 다양한 데이터를 처리할 수 있다. 구조적 API에는 세 가지 분산 컬렉션 API가 있다. Dataset DataFrame SQL Table, View 구조적 API를 사용해서 배치 작업을 스트리밍 작업으로 손쉽게 변환할 수 있다. 구조적 API는 데이터 흐름을 정의하는 기본 추상화 개념이다. 이번 장에서는... typed/untyped API의 개념과 차이점 핵심 용어 스파크가 구조적 API의 데이터 흐름을 해석하고 클러스터에서 실행하는 방식 4.1 DataFrame과 Dataset DataFrame과 Dataset의 정의와 의미적인 차이점? DataFrame과 Dataset은 잘 정의된 row와 col..

[SPARK 완벽 가이드] Chapter 3 스파크 기능 둘러보기

3. 스파크 기능 둘러보기 앞 장에서 트랜스포메이션과 액션 등 스파크의 구조적 API와 관련된 핵심 개념을 배웠다. 스파크 구성 저수준 API 구조적 API 표준 라이브러리 스파크의 라이브러리는 그래프 분석, 머신러닝, 스트리밍 등 다양한 작업을 지원한다. 컴퓨팅 및 저장 시스템과의 통합을 돕는 것도 스파크의 역할이다. 3장에서 배울 내용 spark-submit 으로 운영용 애플리케이션 실행 Dataset : Type-safe를 제공하는 구조적 API 구조적 스트리밍 머신러닝과 고급 분석 RDD : 저수준 API SparkR 서드파트 패키지 에코시스템 3.1 운영용 애플리케이션 실행하기 spark-submit명령을 사용해 대화형 쉘에서 개발한 프로그램은 운영용 애플리케이션으로 쉽게 전환할 수 있다. sp..

[SPARK 완벽 가이드] Chapter 1 아파치 스파크란? / Chapter 2 스파크 간단히 살펴보기

Chapter 1. 아파치 스파크란?통합 컴퓨팅 엔진클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합병렬 처리 오픈소스 엔진Python, JAVA, Scala, R 지원 및 SQL, Streaming, ML 등 다양한 라이브러리 제공1.1 아파치 스파크의 철학통합스파크의 목표는 '빅데이터 애플리케이션 개발에 필요한 통합 플랫폼을 제공하자'이다.통합(unified)은 무슨 의미일까?스파크는 간단한 데이터 읽기부터 SQL, 머신러닝, 스트림 처리까지 다양한 데이터 분석 작업을 일관성 있는 API로 수행할 수 있도록 설계되어 있다.스파크의 통합 특성을 이용하면 기존의 데이터 분석 작업을 더 쉽고 효율적으로 수행할 수 있다.스파크에서 제공하는 조합형 API를 사용해 애플리케이션을 만들 수 있고, 만약 ..