태그 보관물: spark

pyspark와 zeppelin 연동하기

Published / by greennuri

분산 처리 플랫폼 중 하나인 스파크(spark)를 제플린(apache zeppelin, 웹 개발 플랫폼 아님)) 연동 시키기 위한 삽질을 정리

제플린을 기준으로 스파크 설정

현재 제플린은 https://zeppelin.apache.org/download.html 홈페이지에서 다운 받을수 있으며 버젼은 0.7.3(2018.5.7일 현재)이며
이 버젼은 스카프 2.1, 2.2까지 지원한다.

스파크는 https://spark.apache.org/downloads.html 링크에서 다운 받을수 있으며 최신 버젼은 2.3.0까지 나와 있지만, 제플린과 연동을 위해서는 2.1.0을 추천(2.2버젼도 지원 된다고 하지만 좀 애매해서 한 버젼 낮은걸 사용)

그리고 spark 2.1.0 버젼은 python 3.6 버젼에서 호환성 문제(오류가 생김… 오류 생기니깐 호환이 안 맞는거 맞지 않을까…)

그래서 spark 2.1.0 설정에서 PYTHON_PATH에 python 3.5 버젼 python 파일을 설정해야 함.

아래 링크에서는 spark 2.1.0에서 python 3.6에서 사용하기 위한 픽스를 설명

http://www.blog.howechen.com/fix-compatibility-of-apache-spark-2-1-0-with-python-3-6/

그냥 아나콘다에서 python3.5 환경 추가 시켜서 PYTHON_PATH에 할당하고 사용함..

귀차니즘… ^^