マイクに話しかけた言葉を,リアルタイムにAIが認識(whisper, whisper_mic, Python を使用)(Windows 上)

要約】 Windows のパソコンで,マイクに話しかけた言葉を,リアルタイムにAIが認識する方法を紹介する.Whisperとmallorbcのwhisper_micを使用することで,マイクからの音声をテキストに変換することができる.Whisperは音声からの文字起こしや翻訳に利用されるものであり,whisper_micはマイクの使用を可能にするものである.Windows上でのインストール手順やファイルの書き換え方法を説明し,実行することでマイクに話しかけることができるようになる.必要に応じて高精度のモデルを使用することも可能でである.実際に実行した結果として、夏目漱石の「こころ」の冒頭を読み上げたテキストが得られた結果を示している.

次を利用して,マイクに話しかけた言葉を,リアルタイムにAIが認識することを実現


(夏目漱石の「こころ」の冒頭を読み上げた結果)
Whisper

音声からの文字起こし,翻訳

関連する外部ページ

mallorbc の whisper_mic

Whisper でのマイクの使用を可能にする. 利用可能な言語モデルは,tiny,base,small,medium,large

前準備

Python 3.12 のインストール(Windows 上) [クリックして展開]

以下のいずれかの方法で Python 3.12 をインストールする。Python がインストール済みの場合、この手順は不要である。

方法1:winget によるインストール

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install --scope machine --id Python.Python.3.12 -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_pip=1 Include_test=0 Include_launcher=1 InstallLauncherAllUsers=1"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

方法2:インストーラーによるインストール

  1. Python 公式サイト(https://www.python.org/downloads/)にアクセスし、「Download Python 3.x.x」ボタンから Windows 用インストーラーをダウンロードする。
  2. ダウンロードしたインストーラーを実行する。
  3. 初期画面の下部に表示される「Add python.exe to PATH」に必ずチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから python コマンドを実行できない。
  4. 「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。

インストールの確認

コマンドプロンプトで以下を実行する。

python --version

バージョン番号(例:Python 3.12.x)が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。

Git のインストール(Windows 上)

Gitは,バージョン管理システム.ソースコードの管理や複数人での共同に役立つ.

サイト内の関連ページWindows での Git のインストール: 別ページ »で説明

関連する外部ページGit の公式ページ: https://git-scm.com/

Whisper のインストール(Windows 上)

Windows での Whisper のインストール: 別ページ »で説明

whisper_mic のインストール(Windows 上)

  1. whisper_mic の前提ソフトウエアのインストール
  2. Windows で,コマンドプロンプト管理者として開き,次のコマンドを実行
    pip install -U SpeechRecognition numpy tqdm more-itertools transformers ffmpeg-python click pyaudio pydub
    
  3. whisper_mic のダウンロード

    Windows で,コマンドプロンプトを開き,次のコマンドを実行

    cd /d c:%HOMEPATH%
    rmdir /s /q whisper_mic
    git clone https://github.com/mallorbc/whisper_mic
    
  4. whisper_mic のファイル mic.py の書き換え

    コマンドプロンプトで,次のコマンドを実行

    cd /d c:%HOMEPATH%
    cd whisper_mic
    notepad mic.py
    
    「, language='japanese'」を追加して,上書き保存

マイクに話しかけた言葉を,リアルタイムにAIが認識(Windwos 上)

実行し,マイクに話しかけてみる

コマンドプロンプトで,次のコマンドを実行

グラフィックスボードのメモリに余裕があるときは,より高い精度を得るために,「python mic.py --model medium」や「python mic.py --model largeを実行できる
cd /d c:%HOMEPATH%
cd whisper_mic
python mic.py --model large

(夏目漱石の「こころ」の冒頭を読み上げた結果)
cd /d c:%HOMEPATH%
cd whisper_mic
python mic.py --model small

(夏目漱石の「こころ」の冒頭を読み上げた結果)