rd-9. テーブルデータ

処理，並べ替え（ソー

ト），集計・集約

金子邦彦

データサイエンス演習

（R システムを使用）

https://www.kkaneko.jp/de/rd/index.html

アウトライン

9-1 データテーブル

9-2 選択，射影，自然結合，直積

9-3 並べ替え（ソート）

9-4 集約

9-5 演算の組み合わせ

9-1 テーブルデータ

想定する処理の流れ

R システム

データソース

コンストラクタ

Web

データファイル

リレーショナル

データベース

◆グラフ

◆新しいデータ

◆解析結果

テーブルデータの例

library(dplyr)

d1 <- data_frame(

科目=c("国語", "国語", "算数", "算数", "理科"),

受講者=c("A", "B", "A", "B", "A"),

得点=c(90, 80, 95, 90, 80) )

科目

受講者

得点

国語

算数

理科

成績テーブルコンストラクタ

科目教室

国語

101

算数

201

理科

301

教室テーブルコンストラクタ

library(dplyr)

d3 <- data_frame(

科目=c("国語", "算数", "理科"),

教室=c("101", "201", "301") )

9-2 選択、射影、自然結合、

直積

選択

テーブル

新しいテーブル

成

績

選択

結合条件は

「得点 >= 90」

テーブルの中から、選択条件に合致するレコード

のみを選択する．結果は、新しいテーブルになる

科目

受講者

得点

国語

算数

理科

科目

受講者

得点

国語

算数

選択条件で用いる比較演算子

等しいか等しくないか大小の比較

== 等しい

!= 等しくない

>より大きい

>= 以上

<より小さい

<= 以下

選択

library(dplyr)

d1 <- data_frame(

科目=c("国語", "国語", "算数", "算数", "理科"),

受講者=c("A", "B", "A", "B", "A"),

得点=c(90, 80, 95, 90, 80) )

d1 %>% filter(得点 >= 90)

元データ

科目

受講者

得点

国語

算数

理科

選択を行うテーブ

ルのオブジェクト

名

選択条件

得点

>= 90

結果

行いたいこと

射影

テーブル

新しいテーブル

成

績

射影

フィールド名リストは

「受講者, 得点」

テーブルの中の、必要なフィールド名リスト

を指定する．結果は、新しいテーブルになる

科目

受講者

得点

国語

算数

理科

科目

受講者

国語

算数

理科

射影

library(dplyr)

d1 <- data_frame(

科目=c("国語", "国語", "算数", "算数", "理科"),

受講者=c("A", "B", "A", "B", "A"),

得点=c(90, 80, 95, 90, 80) )

d1 %>% select(科目, 受講者)

科目

受講者

得点

国語

算数

理科

射影を行うテーブル

のオブジェクト名

フィールド名リスト

科目

, 受講者

元データ結果

行いたいこと

自然結合

新しいテーブル

２つのテーブルの結合属性を用いて結合する．

結果は、新しいテーブルになる

科目

受講者

得点

国語

算数

理科

科目

教室

国語

101

算数

201

理科

301

自然結合

科目

受講者

得点

教室

国語

101

国語

101

算数

201

算数

201

理科

301

自然結合

library(dplyr)

d1 <- data_frame(

科目=c("国語", "国語", "算数", "算数", "理科"),

受講者=c("A", "B", "A", "B", "A"),

得点=c(90, 80, 95, 90, 80) )

d3 <- data_frame(

科目=c("国語", "算数", "理科"),

教室=c("101", "201", "301") )

inner_join(d1, d3)13

科目

受講者

得点

国語

算数

理科

自然結合を

行うテーブ

ルのオブ

ジェクト名

科

目教室

国

語

101

算

数

201

理

科

301

元データ結果行いたいこと

直積

新しいテーブル

直積は、2つのテーブルの全レコードの組み合

わせ．結果は、新しいテーブルになる

参考 Web ページ: http://www.alfredo.motta.name/data-

manipulation-primitives-in-r-and-python/

科目

教室

国語

101

算数

201

理科

301

科目

受講者

得点

国語

算数

理科

直積

library(dplyr)

d1 <- data_frame(

科目=c("国語", "国語", "算数", "算数", "理科"),

受講者=c("A", "B", "A", "B", "A"),

得点=c(90, 80, 95, 90, 80) )

d3 <- data_frame(

科目=c("国語", "算数", "理科"),

教室=c("101", "201", "301") )

d1$tmp = NA

d3$tmp = NA

full_join(d1, d3, by="tmp") %>% select(-tmp) 15

科目

受講者

得点

国語

算数

理科

直積を行う

テーブルの

オブジェク

ト名

科

目教室

国

語

101

算

数

201

理

科

301

元データ

結果

行いたいこと

9-3 並べ替え（ソート）

並べ替え（ソート）の例

データを一定の規則で並べ替え．

並べ替えは行単位

並べ替え（ソート）前

得点で昇順

得点で降順

科目

受講者

得点

国語

算数

理科

並べ替え（ソート）

•データを一定の規則（昇順または降順）で並べ替え

•並べ替えはレコード単位

•並べ替えの結果、新しいテーブルができる

•並べ替え時に、「キーとなるフィールド名」と「順

序（昇順または降順）」を設定する必要がある

並べ替え前得点で昇順

科目

受講者

得点

国語

算数

理科

昇順での並べ替え（ソート）

library(dplyr)

d1 <- data_frame(

科目=c("国語", "国語", "算数", "算数", "理科"),

受講者=c("A", "B", "A", "B", "A"),

得点=c(90, 80, 95, 90, 80) )

d1 %>% arrange(得点)

並べ替え（ソート）を行う

テーブルのオブジェクト名

キー

得点

順序

昇順

降順での並べ替え（ソート）

library(dplyr)

d1 <- data_frame(

科目=c("国語", "国語", "算数", "算数", "理科"),

受講者=c("A", "B", "A", "B", "A"),

得点=c(90, 80, 95, 90, 80) )

d1 %>% arrange(desc(得点))

並べ替え（ソート）を行う

テーブルのオブジェクト名

キー

得点

順序

降順

複数フィールドでの並べ替え（ソート）

library(dplyr)

d1 <- data_frame(

科目=c("国語", "国語", "算数", "算数", "理科"),

受講者=c("A", "B", "A", "B", "A"),

得点=c(90, 80, 95, 90, 80) )

d1 %>% arrange(desc(得点), 受講者)

並べ替え（ソート）を行う

テーブルのオブジェクト名

キー

得点

, 受講者

順序

得点は降順

受講者は昇順

9-4 集約

集約の例

Aさんは 3科目

Bさんは 2科目受講した

元データ

科目

受講者

得点

国語

算数

理科

集約で求めるもの

•頻度（数え上げ）

種類ごとの数え上げ

•要約統計量

平均 (mean)、標準偏差 (sd)、分散 (var)

中央値 (median)、四分位点 (quantile)、

最大値 (max)、最小値 (min)

グループごとに、頻度や要約統計量を求める

集約では、グループの基準もいろいろ

集約の例

元データ

88.33333

得点の平均

国語

算数

92.5

理科

得点の平均

グループの基準が

受講者

グループの基準が

科目

受講者

得点

国語

算数

理科

集約の例

①d1 %>% group_by(科目)

%>% summarise(n())

②d1 %>% group_by(受講者)

%>% summarise(mean(得点))

③d1 %>% group_by(科目)

%>% summarise(mean(得点))

•26

国語

算数

理科

データの個数

得点の合計

得点の平均

88.33333

国語

算数

92.5

理科

集約 ①

library(dplyr)

d1 <- data_frame(

科目=c("国語", "国語", "算数", "算数", "理科"),

受講者=c("A", "B", "A", "B", "A"),

得点=c(90, 80, 95, 90, 80) )

d1 %>% group_by(受講者) %>% summarise(min(得点),

Q1=quantile (得点, probs=0.25), median(得点), mean(得点),

Q3=quantile(得点, probs=0.75), max(得点)) 27

成績

科目

受講者

得点

国語

算数

理科

集約を行う

テーブルのオ

ブジェクト名

グループの基

準

受講者

集約する

フィールド名

得点

集約 ②

library(dplyr)

d1 <- data_frame(

科目=c("国語", "国語", "算数", "算数", "理科"),

受講者=c("A", "B", "A", "B", "A"),

得点=c(90, 80, 95, 90, 80) )

d1 %>% group_by(科目) %>% summarise(min(得点), Q1=quantile (得点,

probs=0.25), median(得点), mean(得点), Q3=quantile(得点, probs=0.75),

max(得点))

成績

科目

受講者

得点

国語

算数

理科

集約を行う

テーブルのオ

ブジェクト名

グループの基

準

科目

集約する

フィールド名

得点

ピボットテーブル（クロス集約表）の例

元データ

女性

男性

済

未

ピボットテーブル

（クロス集約表）の例

ピボットテーブル（クロス集計表）

library(dplyr)

d4 <- data_frame(

名前=c("A", "B", "C", "D", "E", "F"),

性別=c("男性", "男性", "女性", "女性", "男性", "男性"),

申し込み=c("済", "未", "済", "未", "済", "未") )

d4 %>% group_by(性別, 申し込み) %>% summarise(count=n())

集約を行う

テーブルの

オブジェク

ト名

グループの

基準

性別

, 申

し込み

※結果は縦長形式 (long-format)

ピボットテーブル（クロス集計表）

library(dplyr)

library(tidyr)

d4 <- data_frame(

名前=c("A", "B", "C", "D", "E", "F"),

性別=c("男性", "男性", "女性", "女性", "男性", "男性"),

申し込み=c("済", "未", "済", "未", "済", "未") )

d4 %>% group_by(性別, 申し込み) %>% summarise(count=n()) %>%

spread(性別, count)

集約を行う

テーブルの

オブジェク

ト名

グループの

基準

性別

, 申

し込み

※結果は横長形式 (wide-format)

9-5 演算の組み合わせ

演算の組み合わせの例

d1 %>%

filter(得点 >= 90) %>%

select(科目, 受講者)

科目

受講者

得点

国語

算数

理科

成績テーブル

(オブジェクト名は d1)

選択＋射影

部屋テーブル

(オブジェクト名は d3)

科目

教室

国語

101

算数

201

理科

301

選択＋結合＋射影

d3 %>%

filter(教室 == 101) %>%

inner_join(d1) %>%

select(受講者)

d1 %>%

group_by(科目) %>%

summarise(Mean=mean(得点)) %>%

filter(Mean >= 85)

集約＋選択