【要約】 Windows のパソコンで,マイクに話しかけた言葉を,リアルタイムにAIが認識する方法を紹介する.Whisperとmallorbcのwhisper_micを使用することで,マイクからの音声をテキストに変換することができる.Whisperは音声からの文字起こしや翻訳に利用されるものであり,whisper_micはマイクの使用を可能にするものである.Windows上でのインストール手順やファイルの書き換え方法を説明し,実行することでマイクに話しかけることができるようになる.必要に応じて高精度のモデルを使用することも可能でである.実際に実行した結果として、夏目漱石の「こころ」の冒頭を読み上げたテキストが得られた結果を示している.
次を利用して,マイクに話しかけた言葉を,リアルタイムにAIが認識することを実現
● Whisper
音声からの文字起こし,翻訳
【関連する外部ページ】
● mallorbc の whisper_mic
Whisper でのマイクの使用を可能にする. 利用可能な言語モデルは,tiny,base,small,medium,large
Gitは,バージョン管理システム.ソースコードの管理や複数人での共同に役立つ.
【サイト内の関連ページ】
Windows での Git のインストール: 別ページ »で説明している.
【関連する外部ページ】
Git の公式ページ: https://git-scm.com/
【サイト内の関連ページ】
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
Windows での Whisper のインストール: 別ページ »で説明している.
pip install -U SpeechRecognition numpy tqdm more-itertools transformers ffmpeg-python click pyaudio pydub
Windows で,コマンドプロンプトを開き,次のコマンドを実行
cd %HOMEPATH% rmdir /s /q whisper_mic git clone https://github.com/mallorbc/whisper_mic
コマンドプロンプトで,次のコマンドを実行
cd %HOMEPATH% cd whisper_mic notepad mic.py
実行し,マイクに話しかけてみる
コマンドプロンプトで,次のコマンドを実行
グラフィックスボードのメモリに余裕があるときは,より高い精度を得るために,「python mic.py --model medium」や「python mic.py --model largeを実行できる
cd %HOMEPATH% cd whisper_mic python mic.py --model large
cd %HOMEPATH% cd whisper_mic python mic.py --model small