オープンデータ,データサイエンス,データの分析,データの管理,データベースシステム,R システム,データを扱うためのパソコン類のセットアップ.
考えていること:私は,データベースについて専攻している大学教授です. 授業などで,データベースについて教える機会が多く,詳しさ,分野の違うさまざまな教材を自分で準備するようになりました. そして,データベース研究を行うとき,実データを見る,データを分析する,データを活用するというさまざまな活動を行います.そのときの経験をできる限り残しておき,分かち合いたいと思うようになりました.
このページは目次ページである.
Google Colaboratory は,オンラインの Python の開発環境.使い方などは, 別ページで説明している.
それぞれのリンクをクリックすることで,各項目の目次ページ等にジャンプする.
【サイト内の関連ページ】
統計処理演習
目次ページ:統計処理演習(スライド)
データ処理とデータ活用
目次ページ:データ処理とデータ活用
目次ページ: 日時データの処理
目次ページ: ビデオ,連番画像の処理
目次ページ: RNA データ
目次ページ: 主成分分析,次元削減
Python
R システムでの主成分分析
R システムでの不偏分散行列,相関係数行列
R システムでのCCA
R システムでのSOM
目次ページ: クラスタリング
Python
R システム
目次ページ: CSV ファイル,Excel ファイル,JSON ファイル
【CSV ファイル,Excel ファイル】
【JSON ファイル】
【サイト内の関連ページ】
CSV ファイルに対する SQL の実行
CSV ファイルのリレーショナルデータベースへのインポート
SQL を用いたさまざまな処理
CSV ファイルでの SQL 実行での性能確認
並行実行での性能確認
目次ページ: データ合成,分布
目次ページ:PostgreSQL PostgreSQL とは,リレーショナルデータベースのフリーソフトウエア.PostgreSQL をインストールし,phpPgAdmin などのツールの設定を行う.
PostgreSQL および関連ツールのインストール
・ Windows
・ Ubuntu
psql の利用
PostgreSQL データベースツールの利用
目次ページ: MySQL
MySQL は,リレーショナルデータベース管理システム.
MySQL のインストール
MySQL の機能
MySQL への ODBC, JDBC 接続
MySQL に関係する各種ツールの使用法
Firebird
Java DB
Java DB は,pure JAVA なリレーショナルデータベース管理システム.
HiRDB
目次ページ: HiRDB HiRDB は商用のシステム.
商品の評価等を行うものでない.操作手順について記述するものである.
目次ページ: データベースツールのインストールと利用
目次ページ: Redis と関連ツールのインストールと試用
【Redis のインストール】
【Redis 用の ツール】
目次ページ: Jasmine オブジェクトデータベースシステム 利用条件,出典表示の方法などは利用者で確認すること. 利用条件,出典表示の方法などは利用者で確認すること. URL: https://sites.google.com/site/datasciencehiro/datasets Titanic, MLB datasets など多数 URL: https://archive.ics.uci.edu/ml/ Iris, Adult, Wine, Car Evaluation, Wine Quality, Heart Disease, Breast Canser Wisconsin, Bank Marketing, Human Activity Recognition Using Smartphones など多数 URL: http://scikit-learn.org/stable/datasets/index.html iris, digits, wine, breast cancer, boston, diabetes, linnerud. URL: http://www.statsmodels.org/dev/datasets/index.html Iris, Titanic など URL: http://seaborn.pydata.org/examples/index.html Iris, Titanic など http://www.mlit.go.jp/road/census/h22-1/index.html
URL http://www.data.jma.go.jp/gmd/risk/obsdl/ など 過去の気象データなど http://places.csail.mit.edu/index.html
画像数: 250万,シーンカテゴリ数: 205 URL: https://www.cs.toronto.edu/~kriz/cifar.html ダウンロード URL: https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
画像数(タグ付き): 60,000,画像サイズ: 32x32,クラス数: 10 URL: https://www.cs.toronto.edu/~kriz/cifar.html 画像数(タグ付き): 60,000,画像サイズ: 32x32,クラス数: 100, スーパークラス数: 20 URL: https://www.kaggle.com/c/cifar-10 CIFAR10のテスト画像に 290,000枚の junk 画像を追加したもの. 画像数: 14,197,122(うち,バウンディングボックス付きの画像数: 1,0134,908), synset 数: 21,841 手書き文字 MNIST と互換なカラー画像 URL: https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/bsds/ 画像数(元画像,セグメンテーション画像): 500 画像数: 330,000 以上(うち,タグ付きの画像数 200,000 以上),オブジェクトカテゴリ数: 81
pip install pycocotools
URL: http://cs-people.bu.edu/jmzhang/sos.html 画像数(タグ付き): 1,224 http://host.robots.ox.ac.uk/pascal/VOC/
画像数: 11,530, ROI でアノテーションされたオブジェクト数: 27,450, セグメンテーション数: 6,929 URL: http://sipi.usc.edu/database/, http://www.imageprocessingplace.com/root_files_V3/image_databases.htm テクスチャ,航空写真など URL: https://eros.usgs.gov/aerial-photography 米国の航空写真 URL: http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html 顔画像数(顔の5ランドマーク,40の属性付き): 202,599, 人数: 10,177 URL: http://www.cbsr.ia.ac.cn/english/3DFace%20Databases.asp URL: https://talhassner.github.io/home/projects/Adience/Adience-data.html#agegender 画像数(年齢と性別のラベル付き): 26,580 URL: http://www.robots.ox.ac.uk/~vgg/software/vgg_face/ 顔画像数: 1,000,000 以上
URL: https://ebill.uncw.edu/C20231_ustores/web/classic/product_detail.jsp?PRODUCTID=8
URL: http://mmlab.ie.cuhk.edu.hk/datasets/comp_cars/index.html 画像数(車両の画像): 136,726,キャプション数: 27618, 車両の種類(5s種類のラベル付き): 1,716 URL: http://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html, http://www.robots.ox.ac.uk/~vgg/data/flowers/17/ 画像数(花の画像): 136,726,カテゴリ数: 102 URL: https://www.crcv.ucf.edu/data/UCF_YouTube_Action.php アクションカテゴリ: basketball shooting, biking/cycling, diving, golf swinging, horse back riding, soccer juggling, swinging, tennis swinging, trampoline jumping, volleyball spiking, and walking with a dog
3. 種々のデータ(日時,時系列,ビデオ)の扱い
3.1 日時データの処理
3.2 時系列データの処理
3.3 ビデオデータの処理
3.4. RNA データ
4. データの分析,データを裏付けとする結論
4.1 主成分分析,次元削減
4.2 クラスタリング
4.3 データマイニング
5. CSV ファイル,Excel ファイル,JSON ファイル,データ連携
5.1 CSV ファイル,Excel ファイル,JSON ファイル
5.2 SQL の活用,リレーショナルデータベースのデータ連携
6. データ合成,分布
8. リレーショナルデータベースの活用
8.1 PostgreSQL
8.2 MySQL
8.3 種々のリレーショナルデータベース管理システム(Firebird,Java DB など)
8.5 XML ドキュメントのリレーショナルデータベースへのマッピング
8.6 データベースツールのインストールと利用
9. 種々のデータベースシステム
Redis と関連ツールのインストールと試用
10. 種々のデータベースシステム
Jasmine オブジェクトデータベースシステム
11. オープンデータ,オンラインサイト
11.1 オープンデータのダウンロード
セグメンテーション済みのカラー画像,セグメンテーションのラベルは20種類.アノテーションも?(調査中)
11.2 オンラインサイトの紹介
https://www.ocf.berkeley.edu/~acowen/music.html
11.3 商用データなど
TurboSquid は,3D モデルの販売サイト
12. 種々のオープンデータへのリンク
数値,ラベル等
import pansda as pd
pd.read_excel('hoge.xls', header=8, index_col=F)
import geopandas.geocode
geopandas.geocode('ほげ')
画像 + ラベル
画像 + セグメンテーション結果
画像
顔画像
特定種類の画像
動作
CSV ファイル,エクセルファイル
地図
URL: http://www.speech.cs.cmu.edu/databases/an4/
948 training and 130 test utterances
URL: https://corochann.com/penn-tree-bank-ptb-dataset-introduction-1456.html
ダウンロードリンク: https://gumroad.com/l/fqLaS
リファレンスゲノム配列 GRCh38 NCBI のページ: https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.26/
Detector : Dlib, SSD Mobilenet-v2 Recognition: VGG2 VGG2-Resnet Model: Inception ResNet2 Face Datasets: VGGFace2, MS-Celeb-1M, CASIA WebFace, Labeled Faces in the Wild [1] VGG Face : http://www.robots.ox.ac.uk/~vgg/software/vgg_face/ [2] VGG Face in TensorFlow : https://github.com/ZZUTK/TensorFlow-VGG-face [3] DLib : https://github.com/davisking/dlib [4] Dlib Guide Blog : https://www.pyimagesearch.com/2017/04/03/facial-landmarks-dlib-opencv-python/
Computer Vision Group, Freiburg: https://lmb.informatik.uni-freiburg.de/resources/datasets/SceneFlowDatasets.en.html NYU Depth Dataset V2, https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
以下、書きかけ
#!/bin/bash cat >/tmp/a.$$.sql <<-SQL drop table KENALL; drop table JIGYOSYO; SQL cat /tmp/a.$$.sql | sqlite3 /tmp/mydb01 # cat >/tmp/a.$$.sql <<-SQL