トップページインストール,使い方Windows の種々のソフトウェア(インストール,使い方)Apache Spark 3.3.0,Apache Hadoop 3.0.0 のインストール(Windows 上)

Apache Spark 3.3.0,Apache Hadoop 3.0.0 のインストール(Windows 上)

Apache Maven のインストール手順は, https://maven.apache.org/install.html の記載による.

ソフトウェアの利用条件等は,利用者で確認すること.

前準備

Git のインストール

Git のページ https://git-scm.com/ からダウンロードしてインストール:

Python 64 ビット版のインストール,pip と setuptools の更新(Windows 上)

Windows での Python 3.10 のインストール,pip と setuptools の更新: 別ページで説明している.

Python の公式ページ: http://www.python.org/

numpy のインストール(Windows 上)

  1. Windows では,コマンドプロン プトを管理者として実行する.
  2. numpy のインストール

    python -m pip install -U numpy
    

OpenJDK のインストール

OpenJDK のライセンスは,利用者自身で確認すること.

Apache Maven のインストール

Windows での Apache Maven のインストール: 別ページで説明している.

winutils のインストール

winutils のページ: https://github.com/steveloughran/winutils

  1. Windows で,コマンドプロンプト管理者として実行する.
  2. 次のコマンドを実行する.
    cd C:\
    rmdir /s /q winutils
    git clone --recursive https://github.com/steveloughran/winutils
    cd winutils\hadoop-3.0.0\bin
    
  3. 環境変数 HADOOP_HOME に「c:\winutils\hadoop-3.0.0」を設定する
  4. 環境変数 PATH に,「c:\winutils\hadoop-3.0.0\bin」を追加する.

Apache Spark のインストールとテスト実行(Windows 上)

  1. 次のページからダウンロードして展開.

    https://spark.apache.org/downloads.html

  2. 環境変数 SPARK_HOME を設定する.
  3. 環境変数 PATH に,「%SPARK_HOME\bin」を追加する.
  4. 確認のため,Apache Spark の Python シェルを起動し,簡単なプログラムを動かしてみる.
    .\bin\pyspark
    spark.range(1000 * 1000 * 1000).count()