R システムの機能

R システムの は統計解析とデータ操作に特化したシステム,以下の特徴的な機能を持つ

  1. ベクトル演算が基本であり,データを効率的に処理できる.リサイクル規則により,長さの異なるベクトル間の演算も可能である.
  2. データフレームという2次元データ構造を提供し,異なるデータ型の列を持つテーブルデータを扱える.subset()やmerge()などの関数で柔軟なデータ操作が可能である.
  3. 統計解析に特化した豊富な関数群があり,回帰分析,検定,多変量解析などを簡単に実行できる.特にlm()やglm()による回帰分析,t.test()による検定など,機能が充実している.
  4. ggplot2などの拡張パッケージを用いることで,高度なデータ可視化も実現できる.また,tidyverseパッケージ群によって,より直感的なデータ操作が可能である.

目次

  1. R システムのインストール手順(Windows上)
  2. 関数
  3. パッケージ
  4. データの読み込み
  5. データ型
  6. オブジェクトの一覧,データ型の取得,オブジェクトの構造の取得
  7. 論理演算,比較演算,数値演算,文字列に関する演算など
  8. ベクトルに関する演算子と関数
  9. 行列に関する演算子と関数
  10. リストに関する演算子と関数
  11. データフレームに関する演算子と関数
  12. 条件分岐と繰り返し
  13. グラフの概要
  14. 統計解析関連の機能
  15. データ操作関連の機能
  16. プログラミング関連の機能

関連する外部ページ

サイト内の関連ページ

Rシステムについて

Rシステムのインストール

R システムのインストール手順(Windows上)

【要点】

R システムは基本システムと統合開発環境(RStudio)の2段階でインストールする.インストールには管理者権限が必要である.インストール中は他のアプリケーションを終了することを推奨する.

関数

* 関数のヘルプを検索する場合は「help.search()」関数を使用する

パッケージ

データの読み込み

データ型

主要なデータ型は以下のとおりである.

ベクトルの生成

【要点】

ベクトルは同じデータ型の要素を並べた.変数 t に要素 2,1,3 のベクトルを格納する場合は,次のように記述する.

t <- c(2, 1, 3)

* ベクトルは数値以外の要素も格納できるが,すべての要素が同じデータ型である必要がある.

行列の生成

【要点】

変数 m に2行2列の行列を格納する場合の例を示す.

1 3
2 4

次のように記述する.nrowは行数,ncolは列数を指定する.

m <- matrix( c(1, 2, 3, 4, 5, 6), nrow = 2, ncol = 3 )

* 行列は数値以外の要素も格納できるが,すべての要素が同じデータ型である必要がある

リストの生成

【要点】

変数 L にリストを作成して格納する場合,"apple",5,"fruits"という要素を持つリストは 次のように記述する.

L <- list("apple", 5, "fruits")

データフレームの生成

【要点】

データフレームは,「同じ長さのベクトルを要素として持つリスト構造」として実装されている. 例えば,以下のような属性を持つデータフレームを作成する場合: - type属性: 1,2,3,4,5,6 - name属性: "apple","orange","strawberry","watermelon","melon","banana" - price属性: 50,20,100,150,200,100 次のように記述する:

d <- data.frame( type = c(1:6),
name = c("apple", "orange", "strawberry", "watermelon", "melon", "banana"),
price = c(50, 20, 100, 150, 200, 100) )

因子の生成,因子に関するデータ型の変換

順序付き因子の生成

テーブルの生成

トランザクションの生成

データマイニングにおけるアイテム集合や規則に関するトランザクションデータ

文字列の生成

RGB3原色の色を文字列として表現する方法がある.白色は"#FFFFFFF",黒色は"#000000"のように表現する.

オブジェクトの一覧,データ型の取得,オブジェクトの構造の取得

論理演算,比較演算,数値演算,文字列に関する演算など

論理和,論理積,否定

【評価結果が論理オブジェクト】

【評価結果が論理オブジェクトのベクトル】


論理和,論理積,否定の例

比較

【評価結果が論理オブジェクト】


all.equalの使用例

all.equalでは,引数がベクトルの場合,先頭要素のみを比較

【評価結果が論理オブジェクトのベクトル】


論理オブジェクトを返す主要な演算子の例

数値に関する二項演算子


数値に関する二項演算子をベクトルに適用した例

長さが異なるベクトルが引数として与えられた場合,長さの短いベクトルが繰り返し使用される(「リサイクル規則」)

数値に関する単項演算子

文字列に関する演算子と関数

ベクトルに関する演算子と関数

ベクトルを引数にとる演算子に関する規則

添え字に関する操作

ベクトルの集約,統計量

ベクトルに関する関数

行列に関する演算子と関数

添え字に関する操作

行列に関する操作

リストに関する演算子と関数

データフレームに関する演算子と関数

データフレームには,配列に使える演算子や関数の多くが適用可能である. データフレームに特有の関数は次の通りである.

条件分岐と繰り返し

代表的な制御構造について説明する.

グラフ

統計解析関連の機能

回帰分析の手法と関数

【要点】

Rにおける回帰分析は,線形モデル(lm関数)と一般化線形モデル(glm関数)を基本として実装されている.これらの関数は,データの特性に応じて適切なモデルを構築する.

統計的検定手法

【要点】

Rは多様な統計的検定手法を提供している.データの性質や検証したい仮説に応じて,適切な検定手法を選択することが重要である.

多変量解析手法

【要点】

多変量解析は,複数の変数間の関係性を同時に分析する手法であり,Rでは様々な関数が提供されている.

データ操作関連の機能

tidyverseパッケージ群

【要点】

tidyverseは,データ操作のための一貫性のある文法を提供するパッケージ群である.主要なパッケージとして,dplyr(データ操作),tidyr(データ整形),ggplot2(可視化),readr(データ読み込み)がある.

欠損値の処理方法

【要点】

Rにおける欠損値は NA で表現される.欠損値の処理には,除去,補完,解析手法の選択などの方法がある.

プログラミング関連の機能

関数定義

【要点】

Rでは関数を以下の基本形式で定義する:

関数名 <- function(引数1,引数2,...) {
    処理内容
    return(戻り値)
}

* return文は省略可能であり,その場合は最後に評価された式の値が返される.

エラー処理

【要点】

Rでは try(),tryCatch() を使用してエラー処理を実装する.また,stop(),warning() でエラーや警告を発生させることができる.

デバッグ方法

【要点】

Rには複数のデバッグ手法が用意されている.主な手法として,browser()による対話的デバッグ,debug()による関数のデバッグ,trace()による関数の動作追跡がある.