1
rd-3. 機械学習による
自動分類
金子邦彦
データサイエンス演習
R システムを使用)
https://www.kkaneko.jp/de/rd/index.html
機械学習
機械学習とは、
与えられたデータ(教師データ)を使い,
未知のデータに対しても当てはまる
パターンや規則を,コンピュータが抽出
すること
2
機械学習の用
未知のデータの分類
予測
幅広い応用:画像認識,音声認識,自然言語処理,
データ分析
3
教師データの例
教師データは,多数のデータの集まり
上の図では,点1つで,1つのデータ
4
Iris データセット
3種,150のアヤメの
花びらのデータ
右図は,主成分分
析の結果のプロット
自動分類
新しいデータ(未知のデータ)が
あるとき,花の種類は何でありそ
教師データの利用により,未知のデータについても見通し
を立てることが可能に 5
未知のデータ
3-1. Iris データセット
6
アヤメ属 (Iris)
多年草
世界に 150. 日本に 9.
花被片は 6
外花被片(がいかひへん) Sepal
3個(大型で下に垂れる
内花被片(ないかひへん) Petal
3個(直立する)
7
Iris データセット
3種のアヤメの外花被辺、
内花被片の幅と長さを計
測したデータセット
Iris setosa
Iris versicolor
Iris virginica
データ数は 50 ×3
作成者:Ronald Fisher
作成年:1936
8
Iris データセットは,
Rシステムの中に組
み込み済み
R システム での Iris データセットの表示
コンソールで次のコマンドを実行
iris
9
コンソール画面をスクロール.
Sepal.Length, Sepal.Width, Petal.Length. Petal.Width,
Species 5属性がある
内花被片(な
いかひへん)
Petal
10
外花被片(が
いかひへん)
Sepal
外花被片の
長さと幅
内花被片の
長さと幅
花の
種類
install.packages("ggplot2")
install.packages("dplyr")
install.packages("klaR")
11
R システムでの実行手順
必要なパッケージのインストール
コンソールで次のコマンドを実行(コピペ)
以下省略
Iris データセットの散布図
library(ggplot2)
ggplot(iris, aes(x=Sepal.Length)) +
geom_point( aes(y=Sepal.Width, colour=Species), size=3 ) +
theme_bw()
12
Sepal.Length, Sepal.Width 散布図作成.
花の種類で色を変え
コンソールで次のコマンドを実行(コピペ)
散布図が表
示されるの
で確認
Iris データセットの散布図
library(ggplot2)
ggplot(iris, aes(x=Petal.Length)) +
geom_point( aes(y=Petal.Width, colour=Species), size=3 ) +
theme_bw()
13
Petal.Length, Petal.Width 散布図の作成.
花の種類で色を変え
コンソールで次のコマンドを実行(コピペ)
散布図が表
示されるの
で確認
3-2. 学習
14
自動分類のための学習
属性データその種類に関するデータラベル
などといを使って、学習
教師あり学習(Supervised Learning)ともい
15
自動分類のための学習
16
事前学習
コンピュータ
新しい
数値の
並び
外花被辺、
内花被片
の幅と長
Iris setosa Iris versicolor Iris virginica 外花被辺、
内花被片
の幅と長
5.1 3.5 1.4 0.2
4.9 3.0 1.4 0.2
4.7 3.2 1.3 0.2
4.6 3.1 1.5 0.2
5.0 3.6 1.4 0.2
ラベルを予測,
ラベルは,Iris setosa, Iris versicolor,
Iris virginica のいずれか
7.0 3.2 4.7 1.4
6.4 3.2 4.5 1.5
6.9 3.1 4.9 1.5
5.5 2.3 4.0 1.3
6.5 2.8 4.6 1.5
6.3 3.3 6.0 2.5
5.8 2.7 5.1 1.9
7.1 3.0 5.9 2.1
6.3 2.9 5.6 1.8
6.5 3.0 5.8 2.2
自動分類のための学習
学習のデータセットは次の形をしている
17
数値の並び ラベル
教師あり学習 (supervised learning)
のデータセットの例
Iris データセットは,3種のアヤメの外花被辺、
内花被片の幅と長さを計測したデータセット
18
数値の並び ラベル(花の種類
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 satosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
...
7.0 3.2 4.7 1.4 versicolor
6.4 3.2 4.5 1.5 versicolor
6.9 3.1 4.9 1.5 versicolor
5.5 2.3 4.0 1.3 versicolor
6.5 2.8 4.6 1.5 versicolor
6.3 3.3 6.0 2.5 virginica
5.8 2.7 5.1 1.9 virginica
7.1 3.0 5.9 2.1 virginica
6.3 2.9 5.6 1.8 virginica
6.5 3.0 5.8 2.2 virginica
LDA 法のプログラム例
library(dplyr)
library(klaR)
d <- tbl_df(iris[c(3,4,5)])
partimat(Species~., data=d, method="lda")
19
Rstudio のコンソールで次のコマンドを実行
赤、白、水色の
パーティション
20
空間が区分けされた.
新しい数値(内花被片の幅と高さ)
が得られたとき、花の種類を予測できる
LDA 法は、教師あり学習の1手
学習のデータセット
・数値の並び
内花被片の幅と高さのデータ
・ラベル
花の種類のデータ
元データ