【要約】 Whisperは,音声からの文字起こしや翻訳に使用されるモデルである.このページで説明するWhisperのインストール(Windows)および動作確認手順に従い,Pythonプログラムを使用して実行することができる.FFmpegをインストールすることで,音声ファイルからの文字起こしを実行し,結果をテキストファイルに保存することも可能である.
【目次】
Whisperは,音声からの文字起こし,翻訳 訓練されたモデルが既存のデータセットにゼロショットで適用可能であり、データセット固有のファインチューニングを必要とせずに高品質な結果を達成することを特徴とする.
【文献】
Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever, Robust Speech Recognition via Large-Scale Weak Supervision, arXiv:2212.04356, 2022.
https://cdn.openai.com/papers/whisper.pdf
【サイト内の関連ページ】
【関連する外部ページ】
【関連項目】 mallorbc の whisper_mic
Gitは,バージョン管理システム.ソースコードの管理や複数人での共同に役立つ.
【サイト内の関連ページ】
Windows での Git のインストール: 別ページ »で説明している.
【関連する外部ページ】
Git の公式ページ: https://git-scm.com/
【サイト内の関連ページ】
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
【サイト内の関連ページ】
NVIDIA グラフィックスボードを搭載しているパソコンの場合には, NVIDIA ドライバ, NVIDIA CUDA ツールキット, NVIDIA cuDNN のインストールを行う.
【関連する外部ページ】
コマンドプロンプトを管理者として実行: 別ページ »で説明
PyTorch のページ: https://pytorch.org/index.html
次のコマンドは, PyTorch 2.0 (NVIDIA CUDA 11.8 用) をインストールする. 但し,Anaconda3を使いたい場合には別手順になる.
事前に NVIDIA CUDA のバージョンを確認しておくこと(ここでは,NVIDIA CUDA ツールキット 11.8 が前もってインストール済みであるとする).
PyTorch で,GPU が動作している場合には,「torch.cuda.is_available()」により,True が表示される.
python -m pip install -U --ignore-installed pip python -m pip install -U torch torchvision torchaudio numpy --index-url https://download.pytorch.org/whl/cu118 python -c "import torch; print(torch.__version__, torch.cuda.is_available())"
Anaconda3を使いたい場合には, Anaconda プロンプト (Anaconda Prompt) を管理者として実行し, 次のコマンドを実行する. (PyTorch と NVIDIA CUDA との連携がうまくいかない可能性があるため,Anaconda3を使わないことも検討して欲しい).
conda install -y pytorch torchvision torchaudio pytorch-cuda=11.8 cudnn -c pytorch -c nvidia py -c "import torch; print(torch.__version__, torch.cuda.is_available())"
【サイト内の関連ページ】
【関連する外部ページ】
Windows での FFmpeg のインストール(Windows 上): 別ページ »で説明している.
コマンドプロンプトを管理者として実行: 別ページ »で説明
python -m pip install -U git+https://github.com/openai/whisper.git
cd %HOMEPATH% rmdir /s /q whisper git clone --recursive https://github.com/openai/whisper.git
音声ファイルからの文字起こしを実行してみる.
結果が表示され,テキストファイルにも保存される.
small, English で実行する場合
whisper %HOMEPATH%/whisper/tests/jfk.flac --model small --language English
large, Japanese で実行する場合
whisper %HOMEPATH%/whisper/tests/jfk.flac --model large --language Japanese
%HOMEPATH%\whisper\tests\jfk.flac
実行時にファイルを選択する.ファイルは複数選択可能である.
cd %HOMEPATH%\whisper notepad small.py
このプログラムは, 公式の GitHub のページ: https://github.com/openai/whisperで公開されていたものを変更して使用している.
import whisper model = whisper.load_model("small") import tkinter as tk from tkinter import filedialog root = tk.Tk() root.withdraw() fpaths = filedialog.askopenfilenames() for fpath in root.tk.splitlist(fpaths): print("file name: ", fpath) result = model.transcribe(fpath, language="japanese") print(result["text"])
Python プログラムの実行
Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.
Python のまとめ: 別ページ »にまとめ
プログラムを small.pyのようなファイル名で保存したので, 「python small.py」のようなコマンドで行う.
python small.py
ファイル選択画面が出るので,音声ファイルを選択する.ファイルは複数選択可能である.