구조적 API 기본 연산 4장 내용 - 구조적 API의 핵심 추상화 개념 5장 내용 - DataFrame과 DataFrame의 데이터를 다루는 기능 소개 Row 타입의 records (= 테이블의 row) 각 레코드에 수행할 연산 표현식을 나타내는 Columns (=스프레드시트의 column) 각 컬럼명과 데이터 타입을 정의하는 schema dataframe이나 dataset이 클러스터에서 물리적으로 배치되는 형태를 Partitioning 이라고 함 Partitioning schema는 파티션을 배치하는 방법을 정의 파티셔닝의 분할 기준은 특정 컬럼 또는 비결정론적(매번 변하는)값을 기반으로 설정 ex) json 파일 데이터를 dataframe 타입으로 로드하여 스키마 확인하기 >>> df = spark..