2. 画像データベース

（マルチメディアデータベース序論，全６回）

金子邦彦

https://www.kkaneko.jp/de/multimediadb/index.html

今日のトピックス

• 画像データの特徴量の例

• 色ヒストグラム

• テクスチャ

• など

• 画像データ内容検索のための技術の例

• 画像を（ｍ×ｎ）個の「セル」に分割し，セル単位で内

容情報（色ヒストグラム等）を取り出す

• ものの形を近似する

画素値から取り出される

特徴的な情報

特徴量

• 特徴量は，「多次元のベクトル」データ

多次元ベクトル空間

データ１

データ２

データ３

特徴量の課題

• 「内容検索」が出来るだけの十分な情報を含むこ

と

• 多次元ベクトルの長さが，十分に長い

• 特徴量の取り出し方が十分に吟味されている

• データの類似性が考慮されていること

• 似ているデータは，多次元ベクトル空間の「近く」の

ベクトルに写像される

画像データベースの内容検索

• 問い合わせの入力として、画像が与えられる

• ユーザは、似ている画像を得たい

• システムは、入力画像とデータベース内の画像と

のマッチングを行う

• 画像データベースでの内容検索

• ユーザの手元に、１枚の写真があって、「この写真に

写っている人に似ている写真」を、データベースの中

から探す

画像の性質（１／２）

• 画像には、「もの」が写っている

• 形

• 場所

• 色、明るさ

• 色や明るさは、「画素」が持つ性質

• しかし、「画素」は、直接扱うのは手間がかかる

• 「ものが写っている長方形領域（セル）」を単位として扱うと

、扱いやすい

画像の性質（２／２）

• 領域： XLB=20, XUB=60, YLB=30, YUB=70

• 色： RED=5, GREEN=3, BLUE=1

２０６０

３０

７０

画像の内容情報

• 色 (color)

• テクスチャ (textute)

• 形（shape)

• エッジ（edge)

色情報

• 明るさの平均 (mean brightness)

• 色ヒストグラム (color histogram)

• 色のばらつき具合 (statistical moments)

• 主に登場する色の種類 (dominant colors)

色ヒストグラム

色空間

頻度

数十個程度の

クラスタ

色ヒストグラムの類似度

ヒストグラム I

ヒストグラム Q

aij : Iのi 番目の色と，

Qのj番目の色の類

似度

0 < aij ＜ 1

Ii, Qi: 頻度

ΣΣ aij （Ii－Qi）（Ij－Qj）

i j

N N

主に登場する色の種類

• ヒストグラムを使って求める

• 一般に，おおむね数個の色で，画像の大部分を埋

めつくすことができる

• 「あまり登場しない色」を無視する

Tamura feature

• Contrast

• 画素の明るさの分散

• Directionality

• 画素のグラディエントの向き

• Coarseness

• テクスチャの粗さ．

画像のセル分割

画像

セル

セルの扱い

• 画像を（ｍ×ｎ）個のセルに分割

• セルは、すべて同じ大きさ

• セル分割した画像を image grid という

• 各セルには、属性付けを行う

• 2値画像の属性： ({b,w}, bwalgo)

• 画素は {b,w} の値をとる

• プロシージャ bwalgo は、セル番号を入力として、{b,w} の割

合を返すようなプロシージャ

• 濃淡画像の属性： ([0,1], grayalgo)

画像のセル分割での

形と場所の扱い

• 場所：セル番号（の集まり）

• 形：セルの集まり方

セルの隣接

• ４隣接８隣接

セル

形

• ものの形 ⇒ 画素の集まり

画素

セグメント分割

• 「画像に写っているもの」を，人手でコンピュー

タに教えるのは，しばしば困難.

• 画像処理（セグメント分割）を使って，「画像に

写っているもの」の「形」の候補を取り出すこと

は可能

セグメント分割（１／２）

• 画像を、互いに素ないくつかの部分に分割

セグメント分割（２／２）

０．１

０．２

５

０．５０．５

０．０

５

０．３

０

０．６０．６

０．３

５

０．３

０

０．５

５

０．８

０．６

３

０．８

５

０．９

０

セグメントの意味

• ある「規則」でセグメントを作る

「平均値からの誤差０．０５以内」など

• Ri ∩ Rj = 0 （i, j は異なる）

• I = R1 ∪ ・・・ ∪ Rk

split アルゴリズム

• 画像全体から始める

R1 = I

• それぞれの領域 Ri が「規則」を満たしいるか？

• 満たしていれば終了

• 満たしていなければ Ri を分割

• 全ての領域が、規則を満たすようになるまで続け

る

merge アルゴリズム

• split が終了したら、Ri と Rj がマージできな

いか、判定する

• マージしても規則が満たされるならマージする

• 画像データの単位

• 画素

• セル

• セグメント

• フレーム（１枚の画像）

• これら単位ごとに「特徴量」を取り出し，内容検索を

行う

ベクトルデータのオペレーション

• 特徴量は，一般に多次元のベクトル

• 多次元ベクトルのオペレーション

• 基準値との比較

• 区間との比較

• 距離

• など

• 広がりを持ったベクトルデータのオペレーション

• 基準値との比較

• 区間との比較

• など

Cの比較演算子

• 演算子意味

＜左辺が右辺より小さい

＜＝左辺が右辺以下

＞左辺が右辺より大きい

＞＝左辺が右辺以上

＝＝左辺が右辺と等しい

！＝左辺が右辺と等しくない

より小さい等しいより大きい

数値，文字，文字列は比較可能

より小さい等しいより大きい

＜ ×

＜＝ × ×

＞ ×

＞＝ × ×

＝＝ ×

！＝ × ×

比較可能な値の演算

•「多次元の値」について，ある軸に投影して，比較を行う

•query point はスカラー値

より小さい等しいより大きい

ある

１つの属性

query

point

多次元

データ

•「多次元の値」を，そのまま扱う

•query point は多次元

query

point

より大

より小

「区間」データの述語

より小さい等しいより大きい

区間と，ある値との関係

P1 P2

P1<Q P2<Q

P1<Q P2=Q

P1<Q P2>Q

P1=Q P2<Q

ありえない

P1=Q P2=Q

ありえない

P1=Q P2>Q

P1>Q P2<Q

ありえない

P1>Q P2=Q

ありえない

P1>Q P2>Q

P1 < P2

「区間」データの述語

P1<Q P2<Q

P1<Q P2=Q

P1<Q P2>Q

P1=Q P2>Q

P1>Q P2>Q

P1 P2

•「領域」について，ある軸に投影して，比較を行う

•query point はスカラー値

より小さい等しいより大きい

ある

１つの属性

query

point

•「多次元の値」を，そのまま扱う

•query point は多次元

query

point

より大

より小

最小包含矩形

領域内のすべての

点が「より大」の中に

ある

→ 最小包含矩形で

の近似に意味がある