金子邦彦研究室インストールUbuntu, WSL2Apache Spark 3.4.0 のインストールとテスト実行(Ubuntu 上)

Apache Spark 3.4.0 のインストールとテスト実行(Ubuntu 上)

前準備

Ubuntu のシステム更新

UbuntuUbuntu で OS のシステム更新を行うときは, 次のコマンドを実行.

UbuntuUbuntu のインストールは別ページ »で説明

sudo apt -y update
sudo apt -yV upgrade
sudo /sbin/shutdown -r now

Git のインストール

端末で,次のコマンドを実行する.

sudo apt -y update
sudo apt -y install git

前準備として JDK のインストール

OpenJDK 18 のインストールと設定(Ubuntu 上): 別ページ »で説明している.

※ その利用条件は,利用者自身で確認すること.

Apache Spark のインストールとテスト実行(Ubuntu 上)

次のURL に記載の手順でインストールを行う.

https://github.com/apache/spark

  1. インストール操作

    次のコマンドを実行.

    export SROOT=/var/tmp
    sudo apt -y install maven
    cd $SROOT
    git clone https://github.com/apache/spark
    cd spark
    ./build/mvn -DskipTests clean package
    
  2. 終了の確認

    [image]
  3. 確認のため,Apache Spark の Python シェルを起動し,簡単なプログラムを動かしてみる.
    ./bin/pyspark
    spark.range(1000 * 1000 * 1000).count()
    

    [image]

SQL の実行例

pyspark

sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("/tmp/w.csv").registerTempTable("weather")
r = sqlContext.sql("select * from weather")
d.show()
d.schema
r.show()
r.schema