このページで紹介しているソフトウェア類の利用条件等は,利用者で確認すること.
1つのCSVファイルを,Apache Spark の1つの一時テーブル(temporary table)にインポートする.
OpenJDK 18 のインストールと設定(Ubuntu 上): 別ページ »で説明
※ その利用条件は,利用者自身で確認すること.
Ubuntu での Apache Spark のインストールは,別ページ »で説明
ここで扱う CSV ファイルは, 先頭行には,各列の属性名が書かれているものとする. 説明のために, このページでは,次のファイルを用いる.
このページの手順をそのまま試したい場合には,次の手順で CSV ファイルをダウンロードすること.
cd /tmp rm -f /tmp/weather.csv git clone https://github.com/simongeek/PandasDA cp ./PandasDA/weather.csv /tmp/weather.csv
sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("/tmp/w.csv").registerTempTable("weather")
r = sqlContext.sql("select * from weather") r.show() r.schema