金子邦彦研究室情報工学全般Apache Spark の利用CSV ファイルの Apache Spark へのインポートと SQL 問い合わせ(Ubuntu 上)

CSV ファイルの Apache Spark へのインポートと SQL 問い合わせ(Ubuntu 上)

このページで紹介しているソフトウェア類の利用条件等は,利用者で確認すること.

1つのCSVファイルを,Apache Spark の1つの一時テーブル(temporary table)にインポートする.

前準備

前準備として JDK のインストール

OpenJDK 18 のインストールと設定(Ubuntu 上): 別ページ »で説明している.

※ その利用条件は,利用者自身で確認すること.

Apache Spark のインストール

Ubuntu での Apache Spark のインストールは,別ページ »で説明している.

CSV ファイルの準備

ここで扱う CSV ファイルは, 先頭行には,各列の属性名が書かれているものとする. 説明のために, このページでは,次のファイルを用いる.

このページの手順をそのまま試したい場合には,次の手順で CSV ファイルをダウンロードすること.

cd /tmp
rm -f /tmp/weather.csv
git clone https://github.com/simongeek/PandasDA
cp ./PandasDA/weather.csv /tmp/weather.csv

[image]

Apache Spark への CSV ファイルのインポート

  1. pyspark を起動

    [image]
  2. インポート操作
    sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("/tmp/w.csv").registerTempTable("weather")
    

    [image]
  3. SQL 問い合わせ
    r = sqlContext.sql("select * from weather")
    r.show()
    r.schema
    

    [image]