トップページデータ処理(目次ページ)

データ処理(目次ページ)

オープンデータ,データサイエンス,データの分析,データの管理,データベースシステム,R システム,データを扱うためのパソコン類のセットアップ.

考えていること:私は,データベースについて専攻している大学教授です. 授業などで,データベースについて教える機会が多く,詳しさ,分野の違うさまざまな教材を自分で準備するようになりました. そして,データベース研究を行うとき,実データを見る,データを分析する,データを活用するというさまざまな活動を行います.そのときの経験をできる限り残しておき,分かち合いたいと思うようになりました.

このページは目次ページである.

Google Colaboratory, Windows のセットアップ, Ubuntu のセットアップ

Google Colaborator

Google Colaboratory は,オンラインの Python の開発環境.使い方などは, 別ページで説明している.

Windows のセットアップ

Ubuntu のセットアップ

項目目次

それぞれのリンクをクリックすることで,各項目の目次ページ等にジャンプする.

データサイエンス

  1. 統計処理演習

データ応用,種々のデータベース

  1. データ処理とデータ活用
  2. PyMOL のインストールと基本機能

3. 種々のデータ(日時,時系列,ビデオ)の扱い

  1. 日時データの処理
  2. 時系列データのプロット(Python, matplotlib, seaborn を使用)
  3. ビデオ,連番画像の処理
  4. RNA データ

4. データの分析,データを裏付けとする結論

  1. 主成分分析,次元削減
  2. クラスタリング
  3. R でアプリオリ・アルゴリズムを動かしてみる (arules パッケージを使用)

5. CSV ファイル,Excel ファイル,JSON ファイル,データ連携

  1. CSV ファイル,Excel ファイル,JSON ファイル
  2. SQL の活用,リレーショナルデータベースのデータ連携

【サイト内の関連ページ】

  1. オペレーションズリサーチ(Excel を使用)(全14回): 別ページで説明している.

6. データ合成,分布

  1. データ合成,分布

8. リレーショナルデータベースの活用

  1. PostgreSQL
  2. MySQL
  3. 種々のリレーショナルデータベース管理システム(Firebird,Java DB など)
  4. XML ドキュメントのリレーショナルデータベースへのマッピング
  5. データベースツールのインストールと利用

9. NoSQL データベースシステム

  1. Redis と関連ツールのインストールと試用

10. 種々のデータベースシステム

11. オープンデータ,オンラインサイト

  1. オープンデータのダウンロード
  2. オンラインサイトの紹介
  3. 商用データなど

12. 種々のオープンデータへのリンク

  1. 種々のオープンデータへのリンク

詳細目次

データ活用分野(データの管理,データの処理,データの活用)

リレーショナルデータベース,SQL

データサイエンス分野

統計処理演習

目次ページ:統計処理演習(スライド)

データベース応用,種々のデータベース

データ処理とデータ活用

目次ページ:データ処理とデータ活用

  1. リレーショナルデータベース [ワード], [PDF]
  2. SQL 問い合わせ [ワード], [PDF]
  3. SQL による結合 [ワード],
  4. Python のデータフレーム,集計・集約,ソート [ワード],
  5. Web でのリクエスト URL による処理の振り分け(Python の bottle を使用)[ワード],
  6. オブジェクト指向データベース(1) [ワード],
  7. オブジェクト指向データベース(2) [ワード],
  8. クラスタリング [ワード],
  9. ガウス分布,クラスタリング [ワード],
  10. 分類 [ワード],
  11. 種々のグラフ(Python の pandas を使用) [ワード],

PyMOL のインストールと基本機能

3. 種々のデータ(日時,時系列,ビデオ)の扱い

3.1 日時データの処理

目次ページ: 日時データの処理

3.2 時系列データの処理

3.3 ビデオデータの処理

目次ページ: ビデオ,連番画像の処理

3.4. RNA データ

目次ページ: RNA データ

4. データの分析,データを裏付けとする結論

4.1 主成分分析,次元削減

目次ページ: 主成分分析,次元削減

Python

R システムでの主成分分析

R システムでの不偏分散行列,相関係数行列

R システムでのCCA

R システムでのSOM

4.2 クラスタリング

目次ページ: クラスタリング

Python

R システム

4.3 データマイニング

5. CSV ファイル,Excel ファイル,JSON ファイル,データ連携

5.1 CSV ファイル,Excel ファイル,JSON ファイル

目次ページ: CSV ファイル,Excel ファイル,JSON ファイル

【CSV ファイル,Excel ファイル】

【JSON ファイル】

【サイト内の関連ページ】

5.2 SQL の活用,リレーショナルデータベースのデータ連携

CSV ファイルに対する SQL の実行

CSV ファイルのリレーショナルデータベースへのインポート

SQL を用いたさまざまな処理

CSV ファイルでの SQL 実行での性能確認

並行実行での性能確認

6. データ合成,分布

目次ページ: データ合成,分布

8. リレーショナルデータベースの活用

8.1 PostgreSQL

目次ページ:PostgreSQL

PostgreSQL とは,リレーショナルデータベースのフリーソフトウエア.PostgreSQL をインストールし,phpPgAdmin などのツールの設定を行う.

PostgreSQL および関連ツールのインストール

・ Windows

・ Ubuntu

psql の利用

PostgreSQL データベースツールの利用

8.2 MySQL

目次ページ: MySQL

MySQL は,リレーショナルデータベース管理システム

MySQL のインストール

MySQL の機能

MySQL への ODBC, JDBC 接続

MySQL に関係する各種ツールの使用法

8.3 種々のリレーショナルデータベース管理システム(Firebird,Java DB など)

Firebird

Firebird は,オープンソースのリレーショナルデータベース管理システム

Java DB

Java DB は,pure JAVA なリレーショナルデータベース管理システム

HiRDB

目次ページ: HiRDB

HiRDB は商用のシステム. 商品の評価等を行うものでない.操作手順について記述するものである.

8.5 XML ドキュメントのリレーショナルデータベースへのマッピング

目次ページ XML ドキュメントのリレーショナルデータベースへのマッピング

8.6 データベースツールのインストールと利用

目次ページ: データベースツールのインストールと利用

9. 種々のデータベースシステム

Redis と関連ツールのインストールと試用

目次ページ: Redis と関連ツールのインストールと試用

【Redis のインストール】

【Redis 用の ツール】

10. 種々のデータベースシステム

Jasmine オブジェクトデータベースシステム

目次ページ: Jasmine オブジェクトデータベースシステム

11. オープンデータ,オンラインサイト

11.1 オープンデータのダウンロード

利用条件,出典表示の方法などは利用者で確認すること.

  1. Python の seaborn, scikits.learn のデータセット
  2. Python の scikits.learn でダウンロードできる LFW 顔画像データセット
  3. データフレーム,小画像
  4. 数値標高モデル
  5. 衛星画像
  6. モーションデータ
  7. 手書き文字
  8. 顔画像
  9. Wikipedia
  10. ipadic
  11. 政府統計 e-Stat
  12. 外国為替データ(時系列データ)
  13. 郵便番号
  14. KITTY オドメトリデータセット
  15. coco データセット
  16. Kaggle
  17. Pascal VOC 2012 Example Segmentations(書きかけ)
    セグメンテーション済みのカラー画像,セグメンテーションのラベルは20種類.アノテーションも?(調査中)

11.2 オンラインサイトの紹介

11.3 商用データなど

※ 特定の商用製品等を推奨、広報するものではない.使用感など評価を行うものでもない.

12. 種々のオープンデータへのリンク

利用条件,出典表示の方法などは利用者で確認すること.

数値,ラベル等

画像 + ラベル

画像 + セグメンテーション結果

画像

顔画像

特定種類の画像

動作

CSV ファイル,エクセルファイル

地図

ビデオ

音声

自然言語

ネットワーク

Blender シーン

ゲノム

リファレンスゲノム配列 GRCh38 NCBI のページ: https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.26/

その他

その他,オープンデータ関係

Detector : Dlib, SSD Mobilenet-v2

Recognition: VGG2 VGG2-Resnet

Model: Inception ResNet2

Face Datasets: VGGFace2, MS-Celeb-1M, CASIA WebFace, Labeled Faces in the Wild

[1] VGG Face : http://www.robots.ox.ac.uk/~vgg/software/vgg_face/

[2] VGG Face in TensorFlow : https://github.com/ZZUTK/TensorFlow-VGG-face

[3] DLib : https://github.com/davisking/dlib

[4] Dlib Guide Blog : https://www.pyimagesearch.com/2017/04/03/facial-landmarks-dlib-opencv-python/

Computer Vision Group, Freiburg: https://lmb.informatik.uni-freiburg.de/resources/datasets/SceneFlowDatasets.en.html NYU Depth Dataset V2, https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

以下、書きかけ

  
#!/bin/bash

cat >/tmp/a.$$.sql <<-SQL
drop table KENALL; 
drop table JIGYOSYO; 
SQL
cat /tmp/a.$$.sql | sqlite3 /tmp/mydb01
#
cat >/tmp/a.$$.sql <<-SQL

この Web ページの配下にある資料の維持方針