サイトの全体構成

MySQL のキャラクタセット

使用可能なキャラクタセット(character set)

MySQL が扱えるキャラクタセット(character set)は，次のような種類がある．

シフトJIS
sjis (Shift-JIS Japanese), cp932 (SJIS for Windows Japanese. 「Windows Code Page 932」の略)
sjis で無く、cp932 を使うべき理由は、 http://www.scs.co.jp/mysql/docs/Interop2006MySQL_JP_handling.pdf に詳細な説明あり。
EUC-JP
ujis *EUC-JP Japanese), eucjpms (UJIS for Windows Japanese)
ujis で無く、eucjpms を使うべき理由は、 http://www2d.biglobe.ne.jp/~msyk/charcode/cp932/eucJP-ms.html に詳細な説明あり。
unicode
utf8 (UFT-8 Unicode), ucs2 (UCS-2 Unicode)

シフト JIS 系なら cp932、 EUC-JP 系なら eucjpms、 unicode 系なら utf8 が有力な候補になる。

では、この３つのうち、どれにするかは、場合によって違う。以下は，私の考え．

eucjpms を選ぶと、eucjpms と Java のキャラクタセットは非完全互換（完璧ではない）、という問題あり。
utf8 を選ぶと、Web との相性はいい（特別な理由が無い限り、MySQL層の漢字コードと、Webのような上位層の漢字コードを一致させるべき）。

使用可能なキャラクタセット(character set)の確認法

使用可能なキャラクタセット(character set)を確認するには，コマンドライン・クライアントを使って，

show character set;

を実行する

使用されるキャラクタセットの確認

使用可能なキャラクタセットはたくさんありますが、そのうちどれが、実際に使用されているか、簡単に確認できる．

現在開いているデータベースのキャラクタセットを確認する
次のSQLを実行
```
show variables like 'character_set%';
```
collation の設定の確認
次のSQLを実行
```
show variables like 'collation%';
```
exit で終了

分析

character_set_server, character_set_databaseは、 MySQL のサーバ文字コードセットを定める変数．
character_set_client, character_set_connection, character_set_results の値は、クライアントの種類ごとに変わる値なので、混乱しないこと． 別の値に設定されている場合もある．

サーバ文字コードセットの設定法

サーバ文字コードセットの設定法はいくつかある．

mysql.ini (または mysql.cnf) という名前が付いた MySQL 設定ファイルの [mysqld] 部分と [mysql] 部分に、 「default-charactser-set=cp932」のような行を書くこと。（「cp932」の部分は、使いたい文字コードセットの名前）
あるいは，データベース生成時のオプションで指定する．
次のように指定できる．
```
CREATE DATABASE testdb  DEFAULT CHARACTER SET cp932 COLLATE cp932_japanese_ci;
```

クライアント文字コードセット自動変換機能の解除

上記に「character_set_client, haracter_set_connection, haracter_set_results の値は、クライアントの種類ごとに変わる値」である．これらの値のことを、「クライアント文字コードセット」と呼ぶことがある．

クライアント文字コードセットは、クライアントの種類ごとに違う値である．これが基本。ところが、（ややこしいことに）、MySQL の設定ファイル mysql.ini (または mysql.cnf) の [mysqld] 部分に、 skip-character-set-client-handshake の値を設定すると、クライアント文字コードセットとして、character_set_server に設定された値が（クライアントの種類に関係なく）使用されるようになる．これを、クライアント文字コードセット自動変換の解除という．

データベースダンプ時の文字コードセット自動変換機能の解除

データベースダンプ時の文字コードセット自動変換機能を解除したいときは、 default-character-set は「binary」に指定すること。（データベースダンプ時の文字コードセット自動変換機能を使うことの欠点は、文字化けしているのに気づきにくい場合があるという問題）。

本サイトは金子邦彦研究室のWebページである．

資料等の公開では，原則，「クリエイティブコモンズ BY NC SA」として公開するようにしている． PDFファイル，パワーポイントファイルなどには，「クリエイティブコモンズ BY NC SA」を明記するとともに，ロゴを記載するようにしている（作業が間に合っていない分もあるのでご容赦ください）．

公開している資料をご利用になる場合の，再配布の条件，剽窃の防止などについて，別ページ »で説明再配布や資料改変の際には，そのページをご確認ください．

サイトマップは，サイトマップのページをご覧下さい．本サイト内の検索は，サイト内検索のページをご利用下さい．

問い合わせ先：金子邦彦（かねこくにひこ） [image]