앎을 경계하기

혼공 2

[SPARK 완벽 가이드] Chapter 1 아파치 스파크란? / Chapter 2 스파크 간단히 살펴보기

Chapter 1. 아파치 스파크란?통합 컴퓨팅 엔진클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합병렬 처리 오픈소스 엔진Python, JAVA, Scala, R 지원 및 SQL, Streaming, ML 등 다양한 라이브러리 제공1.1 아파치 스파크의 철학통합스파크의 목표는 '빅데이터 애플리케이션 개발에 필요한 통합 플랫폼을 제공하자'이다.통합(unified)은 무슨 의미일까?스파크는 간단한 데이터 읽기부터 SQL, 머신러닝, 스트림 처리까지 다양한 데이터 분석 작업을 일관성 있는 API로 수행할 수 있도록 설계되어 있다.스파크의 통합 특성을 이용하면 기존의 데이터 분석 작업을 더 쉽고 효율적으로 수행할 수 있다.스파크에서 제공하는 조합형 API를 사용해 애플리케이션을 만들 수 있고, 만약 ..

파이썬 데이터분석 실무 테크닉 100 - 1장

파이썬 데이터 분석 실무 테크닉 100은 주어진 데이터에 적용할 여러 라이브러리의 함수 사용법을 설명하는 책들과 달리, 실무에서 데이터가 주어졌을 때 가장 먼저 해야할 일과 이후 순차적으로 분석방법에 대해 설명한다. 01장 웹에서 주문수를 분석하는 테크닉 10¶ 목표 : 어떤 기업 쇼핑몰 사이트의 상품 주문 수의 추세를 분석하여 판매량 개선의 방향 찾기. 쇼핑몰 사이트는 비교적 깨끗한 데이터인 경우가 많다. 쇼핑몰 사이트는 매출 추세뿐만 아니라 언제, 누가 구입했는지 등, 상세 데이터가 많을 수록 깊게 분석이 가능하다. 그러나 현장에서 데이터를 관리할 때, 한 곳에서 관리되지 않는 것이 일반적이다. 이러한 경우 데이터를 연결하는 작업이 필요할 때도 있다. 전제조건¶ 쇼핑몰 사이트의 데이터를 다룬다. 주요..