Apache Spark 3.3.0,Apache Hadoop 3.0.0 のインストール(Windows 上)

Apache Maven のインストール手順は, https://maven.apache.org/install.html の記載による.

ソフトウェアの利用条件等は,利用者で確認すること.

前準備

Python 3.12 のインストール(Windows 上) [クリックして展開]

以下のいずれかの方法で Python 3.12 をインストールする。Python がインストール済みの場合、この手順は不要である。

方法1:winget によるインストール

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install --scope machine --id Python.Python.3.12 -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_pip=1 Include_test=0 Include_launcher=1 InstallLauncherAllUsers=1"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

方法2:インストーラーによるインストール

  1. Python 公式サイト(https://www.python.org/downloads/)にアクセスし、「Download Python 3.x.x」ボタンから Windows 用インストーラーをダウンロードする。
  2. ダウンロードしたインストーラーを実行する。
  3. 初期画面の下部に表示される「Add python.exe to PATH」に必ずチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから python コマンドを実行できない。
  4. 「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。

インストールの確認

コマンドプロンプトで以下を実行する。

python --version

バージョン番号(例:Python 3.12.x)が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。

Git のインストール(Windows 上) [クリックして展開]

管理者権限コマンドプロンプトで以下を実行する.管理者権限は,winget の --scope machine オプションでシステム全体にインストールするために必要となる.

REM Git をシステム領域にインストール
winget install --scope machine --id Git.Git -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --override "/VERYSILENT /NORESTART /NOCANCEL /SP- /CLOSEAPPLICATIONS /RESTARTAPPLICATIONS /COMPONENTS=""icons,ext\reg\shellhere,assoc,assoc_sh"" /o:PathOption=Cmd /o:CRLFOption=CRLFCommitAsIs /o:BashTerminalOption=MinTTY /o:DefaultBranchOption=main /o:EditorOption=VIM /o:SSHOption=OpenSSH /o:UseCredentialManager=Enabled /o:PerformanceTweaksFSCache=Enabled /o:EnableSymlinks=Disabled /o:EnableFSMonitor=Disabled"

numpy のインストール(Windows 上)

  1. Windows では,コマンドプロンプトを管理者として実行する.
  2. numpy のインストール
    python -m pip install -U numpy
    

JDK (Java Development Kit) 21 のインストール(Windows 上)

JDK (Java Development Kit)

JDK (Java Development Kit) の主な機能:コンパイラ,仮想マシン,ツール,ライブラリ

JDK 22, 21, 17, 11, 8u がリリースされている(2024年8月時点)(https://www.oracle.com/jp/java/technologies/javase/jdk-faqs.html

winget を用いたインストールコマンド,Oracke JDK 21 のインストール: winget install --scope machine Oracle.JDK.21

関連する外部ページ

サイト内のJava 関連ページ

関連項目JDK (Java Development Kit) 21 のインストール(Windows 上), Java のバージョンの確認,コンパイル,実行

  1. 次のコマンドを管理者権限コマンドプロンプトで実行する (手順:Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」)。
  2. 次のコマンドは,JDK (Java Development Kit) 21をインストールするものである.

    winget install --scope machine Oracle.JDK.21
    

* OpenJDK のライセンスは,利用者自身で確認すること.

Apache Maven のインストール

Windows での Apache Maven のインストール: 別ページ »で説明

winutils のインストール

winutils のページ: https://github.com/steveloughran/winutils

  1. 以下の操作を管理者権限コマンドプロンプトで実行する (手順:Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」)。

  2. 次のコマンドを実行する.
    cd C:\
    rmdir /s /q winutils
    git clone --recursive https://github.com/steveloughran/winutils
    cd winutils\hadoop-3.0.0\bin
    
  3. 環境変数 HADOOP_HOME に「c:\winutils\hadoop-3.0.0」を設定する
  4. 環境変数 PATH に,「c:\winutils\hadoop-3.0.0\bin」を追加する.

Apache Spark のインストールとテスト実行(Windows 上)

  1. 次のページからダウンロードして展開.

    https://spark.apache.org/downloads.html

  2. 環境変数 SPARK_HOME を設定する.
  3. 環境変数 PATH に,「%SPARK_HOME\bin」を追加する.
  4. 確認のため,Apache Spark の Python シェルを起動し,簡単なプログラムを動かしてみる.
    .\bin\pyspark
    spark.range(1000 * 1000 * 1000).count()