Iris データセットを紹介する. 利用条件は利用者で確認すること.
【目次】
■
Iris データセットは公開されているデータセット(オープンデータ)である.
【文献】
R.A. Fisher,
The use of multiple measurements in taxonomic problems, Annual Eugenics, 7, Part II, pp. 179-188, 1936.
【サイト内の関連ページ】
【関連する外部ページ】
Google Colaboratory のページ:
次のリンクをクリックすると,Google Colaboratory のノートブックが開く. そして,Google アカウントでログインすると,Google Colaboratory のノートブック内のコード等を編集したり再実行したりができる.編集した場合でも,他の人に影響が出たりということはない.そして,編集後のものを,各自の Google ドライブ内に保存することもできる.
https://colab.research.google.com/drive/10u8owk1y9l-OocyenRZuDb0sKxxicVwK?usp=sharing
【サイト内の関連ページ】
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
Windows では,コマンドプロン プトを管理者として実行し, 次のコマンドを実行する.
python -m pip install -U tensorflow-gpu tensorflow_datasets scikit-learn scikit-learn-intelex
Windows での TensorFlow のインストールの詳細: 別ページ »で説明
(このページで,Build Tools for Visual Studio 2022,NVIDIA ドライバ, NVIDIA CUDA ツールキット, NVIDIA cuDNNのインストールも説明している.)
Ubuntu では,次のコマンドを実行.
sudo apt -y update sudo apt -y install python3-sklearn sudo pip3 install -U tensorflow-gpu tensorflow_datasets
Ubuntu での TensorFlow のインストールの詳細: 別ページ »で説明
(このページで,NVIDIA ドライバ, NVIDIA CUDA ツールキット, NVIDIA cuDNNのインストールも説明している.)
【Python の利用】
Python は,次のコマンドで起動できる.
Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.
Python のまとめ: 別ページ »にまとめ
Pandas データフレームの df にロードしている.
import pandas as pd from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data, columns=iris.feature_names) print(df)
次の Python プログラムは,配列 X, y にロードしている.
import pandas as pd from sklearn.datasets import load_iris iris = load_iris() X = iris.data y = iris.target print(X) print(y)
import tensorflow_datasets as tfds iris, iris_info = tfds.load('iris', with_info = True, shuffle_files=True, as_supervised=True)
print(iris_info) print(iris_info.features["label"].num_classes) print(iris_info.features["label"].names)
ロード時に「as_supervised=False」としたときは,「features, label = data['features'], data['label']」
import tensorflow as tf ds_train = iris['train'] it = ds_train.cache().shuffle(1000).batch(128).prefetch(tf.data.experimental.AUTOTUNE) for data in it.take(1): features, label = data[0], data[1] print(features) print(label)
train = tfds.as_dataframe(iris['train'], iris_info) print(train)
行数は len(<データフレーム>), 属性数は len(<データフレーム>.columns)
print(len(train)) print(len(train.columns))
train = tfds.as_dataframe(iris['train'].take(10), iris_info) print(train)
行数は len(<データフレーム>), 属性数は len(<データフレーム>.columns)
print(len(train)) print(len(train.columns))