CSV ファイルのApache SparkへのインポートとSQL問い合わせ(Ubuntu環境)

本ページで紹介するソフトウェアの利用条件については,利用者自身で確認する必要があります.

CSVファイルを Apache Spark の一時テーブル(temporary table)にインポートする方法を解説します.

前準備

前準備として JDK のインストール

OpenJDK 18 のインストールと設定(Ubuntu環境): 別ページ »に詳細を記載

* 利用条件については,必ず利用者自身で確認してください.

Apache Spark のインストール

Ubuntu における Apache Spark のインストール手順は,別ページ »で詳しく解説しています.

CSV ファイルの準備

本解説で使用するCSVファイルは, 先頭行に各列の属性名が記載されているものを想定しています. 具体例として, 以下のファイルを使用します.

本手順を実際に試す場合は,以下のコマンドでCSVファイルをダウンロードしてください.

cd /tmp
rm -f /tmp/weather.csv
git clone https://github.com/simongeek/PandasDA
cp ./PandasDA/weather.csv /tmp/weather.csv

Apache Spark への CSV ファイルのインポート

  1. pyspark の起動手順
  2. インポート処理の実行
    sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("/tmp/w.csv").registerTempTable("weather")
    
  3. SQL クエリの実行方法
    r = sqlContext.sql("select * from weather")
    r.show()
    r.schema