CSV ファイルのApache SparkへのインポートとSQL問い合わせ（Ubuntu環境）

本ページで紹介するソフトウェアの利用条件については，利用者自身で確認する必要があります．

CSVファイルを Apache Spark の一時テーブル（temporary table）にインポートする方法を解説します．

前準備

前準備として JDK のインストール

OpenJDK 18 のインストールと設定（Ubuntu環境）: 別ページ »に詳細を記載

* 利用条件については，必ず利用者自身で確認してください．

Apache Spark のインストール

Ubuntu における Apache Spark のインストール手順は，別ページ »で詳しく解説しています．

CSV ファイルの準備

本解説で使用するCSVファイルは， 先頭行に各列の属性名が記載されているものを想定しています．具体例として，以下のファイルを使用します．

https://github.com/simongeek/PandasDA/blob/master/weather.csv

本手順を実際に試す場合は，以下のコマンドでCSVファイルをダウンロードしてください．

cd /tmp
rm -f /tmp/weather.csv
git clone https://github.com/simongeek/PandasDA
cp ./PandasDA/weather.csv /tmp/weather.csv

Apache Spark への CSV ファイルのインポート

pyspark の起動手順

インポート処理の実行

sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("/tmp/w.csv").registerTempTable("weather")

SQL クエリの実行方法

r = sqlContext.sql("select * from weather")
r.show()
r.schema