SpeechRecognizer のインストールと動作確認(音声認識)(Python を使用)(Windows 上)

Python の SpeechRecognizer (https://github.com/Uberi/speech_recognition) を用いて音声認識

先人に感謝

キーワード: 音声認識, Google API, Python, SpeechRecognition

前準備

Python 3.12 のインストール

インストール済みの場合は実行不要。

管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。

REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul

関連する外部ページ

Python の公式ページ: https://www.python.org/

AI エディタ Windsurf のインストール

Pythonプログラムの編集・実行には、AI エディタの利用を推奨する。ここでは,Windsurfのインストールを説明する。

管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行して、Windsurfをシステム全体にインストールする。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。

winget install --scope machine Codeium.Windsurf -e --silent

関連する外部ページ

Windsurf の公式ページ: https://windsurf.com/

Python のパッケージ SpeechRecognition, pyaudio のインストール(Windows 上)

  1. Windows では,コマンドプロンプトを管理者として実行する.
  2. 次のコマンドを実行する.

    * Windows では「python」,Ubuntu では「sudo python3 -m pip」

    python -m pip install -U SpeechRecognition
    

    引き続き,次のコマンドを実行

    pip install -U pyaudio
    

SpeechRecognizer のインストールと動作確認(音声認識)(Python を使用)(Windows 上)してみる

  1. まずは,入った .wav ファイルを準備する

    * 手元に .wav ファイルがないよ,というときは http://www.wavsource.com(インターネットでは,下品な広告が付いている可能性があるので,必要もないのにクリックしないこと) などから入手できる(.wav ファイルをダウンロードするときは、利用条件などを確認すること)

  2. Python プログラムの実行

    Python プログラムの実行: 別ページ »で説明

    Python のまとめ: 別ページ »にまとめ

    import os
    print(os.getcwd())
    

    実行結果例

  3. 先ほどの .wav ファイルはカレントディレクトリに移しておく(あとの作業を楽にするため)
  4. 英語の音声認識してみる

    次の Python プログラムを実行

    「"coincidence.wav" 」のところは,ファイル名を書き換えること.

    import speech_recognition
    r = speech_recognition.Recognizer()
    with speech_recognition.AudioFile("coincidence.wav") as source:
        audio = r.record(source)
    r.recognize_google(audio)
    

    実行結果の例

  5. 日本語の音声認識をしたい場合には「language='ja-JP'」を指定する

    次の Python プログラムを実行

    「"1.wav" 」のところは,ファイル名を書き換えること.

    import speech_recognition
    r = speech_recognition.Recognizer()
    with speech_recognition.AudioFile("1.wav") as source:
        audio = r.record(source)
    r.recognize_google(audio, language='ja-JP')
    

    実行結果の例