pyspark dataframe 관련함수 1

  1. rdd -> dafaFrame 변환
    dataframe df = spark.createDataFrame(rdd,columns)
    columns : array of string
    ie
    rdd에 두개의 컬럼이있다고 치고
    dataFrame df = spark.createFataFrame(rdd,["key","value"])

  2. 기존 데이터 프레임 컬럼에 기존 컬럼 데이터로 새로운 컬럼 더하기
    df = df.withcolumn(new_column_name, function | column)
    ie. 기존 데이터 그대로 새로운 컬럼에 할당
    df = df.withcolumn("new_column", df["value"])
    ie. 기존 데이터에 “test” 문자열을 더해서 할당 하기
    df = df.withColumn("new_column", df["value"]+"test")
    ie. 기존의 데이터에 사용자 정의 함수 결과를 새로운 컬럼으로 추가 하기
    from pyspark.sql.functions import udf
    from pyspark.sql.types import *
    def plus_text(str):
    return str + "_test"
    udf1 = udf(plus_text, StringType())
    df = df.withColumn("col1", udf1("content"))