トップページ情報工学を学ぶニューラルネットワークの学習(TensorFlow データセットを使用)2クラス分類を行うニューラルネットワークの学習(TensorFlow データセットのIMDb データセットによる学習)(Google Colaboratroy へのリンク有り)

2クラス分類を行うニューラルネットワークの学習(TensorFlow データセットのIMDb データセットによる学習)(Google Colaboratroy へのリンク有り)

ニューラルネットワークの作成,学習,データの2クラス分類を行う. IMDb データセットを使用する.

目次

  1. Google Colab へのリンク
  2. 前準備
  3. IMDb データセットのロード
  4. IMDb データセットの確認
  5. Keras を用いたニューラルネットワークの作成
  6. ニューラルネットワークの学習と検証

外部へのリンク

1. Google Colab へのリンク

Google Colaboratory のページ:

次のリンクをクリックすると,Google Colaboratoryノートブックが開く. そして,Google アカウントでログインすると,Google Colaboratory のノートブック内のコード等を編集したり再実行したりができる.編集した場合でも,他の人に影響が出たりということはない.そして,編集後のものを,各自の Google ドライブ内に保存することもできる.

https://colab.research.google.com/drive/1hBMPOyUaDCTNYqOcHoQRiilznK728r_T?usp=sharing

2. 前準備

Python の準備

Python のまとめ: 別ページにまとめている.

Python の公式ページ: http://www.python.org/

TensorFlow,tensorflow_datasets,numpy,matplotlib, seaborn, scikit-learn のインストール

3. IMDb データセットのロード

  1. パッケージのインポート,TensorFlow のバージョン確認など
    from __future__ import absolute_import, division, print_function, unicode_literals
    import tensorflow.compat.v2 as tf
    tf.enable_v2_behavior()
    from tensorflow.keras import backend as K 
    K.clear_session()
    print(tf.__version__)
    import numpy as np
    import tensorflow_datasets as tfds
    
    from tensorflow.keras.preprocessing import image
    %matplotlib inline
    import matplotlib.pyplot as plt
    import warnings
    warnings.filterwarnings('ignore')   # Suppress Matplotlib warnings
    

    [image]
  2. IMDb データセットのロード

    x_train: 25000件のデータ,批評文

    y_train: 25000件のデータ,ラベル(ラベルの値は 0 または 1)

    x_test: 25000件のデータ,批評文

    y_test: 25000件のデータ,ラベル(ラベルの値は 0 または 1)

    IMDb での映画の批評は,批評文とスコア(10点満点)である.

    IMDb の URL: https://www.imdb.com/

    IMDb データセットでは,7点以上の批評は positive,4点以下の批評は negative としている.つまり,2種類ある. そして,IMDb データセットには,positive か negative の批評のみが含まれている(中間の点数である 5点,6点のものは含まれていない).そして, positive,negative の批評が同数である. 学習用として,positive,negative がそれぞれ 25000. テスト用として,positive,negative がそれぞれ 25000.

    IMDb データセットのURL: https://ai.stanford.edu/%7Eamaas/data/sentiment/

    imdb = tf.keras.datasets.imdb
    (x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000)
    

    [image]

4. IMDb データセットの確認

  1. IMDb データセット要素数の確認
    print(len(x_train))
    print(len(y_train))
    print(len(x_test))
    print(len(y_test))
    

    [image]
  2. IMDb データセットの確認

    まず,単語を整数にマッピングするなどを行う.

    # 単語を整数にマッピングする辞書
    word_index = imdb.get_word_index()
    
    # インデックスの最初の方は予約済み
    word_index = {k:(v+3) for k,v in word_index.items()}
    word_index[""] = 0
    word_index[""] = 1
    word_index[""] = 2  # unknown
    word_index[""] = 3
    
    reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
    
    def decode_review(text):
        return ' '.join([reverse_word_index.get(i, '?') for i in text])
    

    [image]

    批評文の確認

    0番目の批評文とその単語数を表示.

    x_train は費用文のデータセットである. x_train[0] は 0 番目の批評文である. 批評文は整数のリストになっている. それぞれの整数は,単語をコード化したものである. それぞれの整数を decode_review を使って単語に変換.

    print(decode_review(x_train[0]))
    print(len(x_train[0]))
    

    [image]

    1番目の批評文とその単語数を表示.

    print(decode_review(x_train[1]))print(len(x_train[1]))
    

    [image]

    ラベルの確認

    print(y_train[0])
    

    [image]
    print(y_train[1])
    

    [image]

5. Keras を用いたニューラルネットワークの作成

  1. ニューラルネットワークを使うために,データの前処理

    パッデングを行う. 批評文のそれぞれは長さが異なるのを,同じ長さ 256 にそろえる.

    詳細は https://www.tensorflow.org/tutorials/keras/text_classification?hl=ja に説明がある.

    x_train = tf.keras.preprocessing.sequence.pad_sequences(x_train, value=word_index[""], padding='post', maxlen=256)
    x_test = tf.keras.preprocessing.sequence.pad_sequences(x_test, value=word_index[""], padding='post', maxlen=256)
    

    [image]
  2. x_train, y_train の確認
    print(x_train)
    print(len(x_train[0]))
    
    print(y_train)
    print(len(y_train))
    

    [image]
  3. ニューラルネットワークの作成と確認とコンパイル
    • ニューラルネットワークの種類: 層構造 (Sequential Model)
    • 1番目の層: embedding
    • 2番めの層: 平均プーリング
    • 3番目の層: sigmoid, 値は確率を表す 0 から 1 の間の浮動小数点数

    オプティマイザ損失関数メトリクスを設定する.

    # 入力の形式は映画レビューで使われている語彙数(10,000語)
    VOCAB_SIZE = 10000
    
    m = tf.keras.Sequential([
        tf.keras.layers.Embedding(VOCAB_SIZE, 16),
        tf.keras.layers.GlobalAveragePooling1D(),
        tf.keras.layers.Dense(16, activation='relu'),
        tf.keras.layers.Dense(1, activation=tf.nn.sigmoid)
    ])
    m.summary()
    m.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.001),
                  loss='binary_crossentropy',
                  metrics=['accuracy'])
    

    [image]
  4. モデルのビジュアライズ

    Keras のモデルのビジュアライズについては: https://keras.io/ja/visualization/

    ここでの表示で,エラーメッセージが出る場合でも,モデル自体は問題なくできていると考えられる.続行する

    from tensorflow.keras.utils import plot_model
    import pydot
    plot_model(m)
    

    [image]

6. ニューラルネットワークの学習と検証

  1. 学習(訓練)

    x_train, y_train を,学習用データ (training set) と,検証用データ (validation set) に分ける

    EPOCHS = 40
    
    history = m.fit(x_train,
                        y_train,
                        epochs=EPOCHS,
                        batch_size=512,
                        validation_data=(x_test, y_test),
                        verbose=1)
    

    [image]
  2. ニューラルネットワークによるデータの2クラス分類
    print(m.predict(x_test))
    

    [image]
    (以下省略)

    y_test 内にある正解ラベル(クラス名)を表示する(上の結果と比べるため)

    print(y_test)
    

    [image]
  3. 学習曲線の確認

    過学習や学習不足について確認.

    import pandas as pd
    hist = pd.DataFrame(history.history)
    hist['epoch'] = history.epoch
    print(hist)
    

    [image]
  4. 学習曲線のプロット

    学習時と検証時で,大きく損失や精度が違っており,過学習が起きていることが確認できる