앎을 경계하기

Anything

Docker로 Spark 환경 구성하기

양갱맨 2021. 4. 28. 16:42
  1. 스파크 설치할 os 설치 - 우분투로 선택
    docker search ubunut docker pull ubuntu docker run -itd --name spark ubuntu docker exec -itu 0 spark /bin/bash
  1. ubuntu 컨테이너 생성 실행
  1. bash에서 python 설치 전 필요한 라이브러리 다운로드
    sudo apt-get install build-essential checkinstall sudo apt-get install libreadline-gplv2-dev libncursesw5-dev libssl-dev \ libsqlite3-dev tk-dev libgdbm-dev libc6-dev libbz2-dev libffi-dev zlib1g-dev
  1. 파이썬 다운로드 및 압축풀기 / 설치
    wget https://www.python.org/ftp/python/3.8.0/Python-3.8.0.tgz tar -xvzf Python-3.8.0.tgz
    cd Python-3.8.0 ./configure --enable-optimizations make altinstall
  1. Python 버전 확인
    python3.8 -V
  1. Python 3.8 default 설정
    update-alternatives --install /usr/bin/python python /usr/local/bin/python3.8 1 python -V
  1. JAVA 설치
    sudo apt-get install default-jdk
  1. 환경변수 지정
    nano /etc/environment JAVA_HOME="/usr/lib/jvm/java-1.11.0-openjdk-amd64" 입력 후 저장  source /etc/environment echo $JAVA_HOME /usr/lib/jvm/java-1.11.0-openjdk-amd64
  1. Spark 다운로드 및 압축풀기
    cd wget https://mirror.navercorp.com/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
  1. Spark 실행
    cd spark-3.1.1-bin-hadoop2.7/bin ./pyspark  bash: python3: command not found

    에러남..

    파이썬 다시 설치해주자

    apt install python3

    다시 실행

    ./pyspark