【要約】 VALL-E X は音声合成および音声のクローニング技術を提供する。Windows上のVALL-E Xのインストールは、GitHubからのリポジトリのダウンロードと必要なライブラリのインストールで行う。このページでは、動作確認のために、テキストから音声を生成し、結果をWAVファイルとして保存する。また、音声のクローニングのために、15秒以内の音声ファイルとテキストをプロンプトとして使用する。このプロンプトは、指定されたテキストから音声を生成するために使用される。結果は同じくWAVファイルとして保存される。外部リンクとして、VALL-E Xの実装に関するGitHubおよびHuggingFaceのデモページを示している。
VALL-E X は,音声合成(TTS),プロンプトとして音声を与えて音声合成(voice cloning)の技術である.
【目次】
【関連する外部ページ】
Gitは,バージョン管理システム.ソースコードの管理や複数人での共同に役立つ.
【サイト内の関連ページ】
Windows での Git のインストール: 別ページ »で説明している.
【関連する外部ページ】
Git の公式ページ: https://git-scm.com/
【サイト内の関連ページ】
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
【サイト内の関連ページ】
NVIDIA グラフィックスボードを搭載しているパソコンの場合には, NVIDIA ドライバ, NVIDIA CUDA ツールキット, NVIDIA cuDNN のインストールを行う.
【関連する外部ページ】
コマンドプロンプトを管理者として実行: 別ページ »で説明
PyTorch のページ: https://pytorch.org/index.html
次のコマンドは, PyTorch 2.0 (NVIDIA CUDA 11.8 用) をインストールする. 但し,Anaconda3を使いたい場合には別手順になる.
事前に NVIDIA CUDA のバージョンを確認しておくこと(ここでは,NVIDIA CUDA ツールキット 11.8 が前もってインストール済みであるとする).
PyTorch で,GPU が動作している場合には,「torch.cuda.is_available()」により,True が表示される.
python -m pip install -U --ignore-installed pip python -m pip install -U torch torchvision torchaudio numpy --index-url https://download.pytorch.org/whl/cu118 python -c "import torch; print(torch.__version__, torch.cuda.is_available())"
Anaconda3を使いたい場合には, Anaconda プロンプト (Anaconda Prompt) を管理者として実行し, 次のコマンドを実行する. (PyTorch と NVIDIA CUDA との連携がうまくいかない可能性があるため,Anaconda3を使わないことも検討して欲しい).
conda install -y pytorch torchvision torchaudio pytorch-cuda=11.8 cudnn -c pytorch -c nvidia py -c "import torch; print(torch.__version__, torch.cuda.is_available())"
【サイト内の関連ページ】
【関連する外部ページ】
Windows での FFmpeg のインストール(Windows 上): 別ページ »で説明している.
コマンドプロンプトを管理者として実行: 別ページ »で説明
cd %HOMEPATH% rmdir /s /q VALL-E-X git clone --recursive https://github.com/Plachtaa/VALL-E-X cd VALL-E-X python -m pip install -r requirements.txt mkdir checkpoints
次から、vallex-checkpoint.pt をダウンロード。checkpoints下に置く。
https://drive.google.com/uc?id=10gdQWvP-K_e1undkvv0p2b7SU6I4Egy
cd %HOMEPATH%\VALL-E-X notepad tts.py
このプログラムは, 公式の GitHub のページ: https://github.com/Plachtaa/VALL-E-Xで公開されていたものを変更して使用している.
from utils.generation import SAMPLE_RATE, generate_audio, preload_models from scipy.io.wavfile import write as write_wav # download and load all models preload_models() # generate audio from text text_prompt = """ 日本国民は、国家の名誉にかけ、全力をあげてこの崇高な理想と目的を達成することを誓ふ。 """ audio_array = generate_audio(text_prompt) # save audio to disk write_wav("vallex_generation.wav", SAMPLE_RATE, audio_array)
Python プログラムの実行
Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.
Python のまとめ: 別ページ »にまとめ
プログラムを tts.pyのようなファイル名で保存したので, 「python tts.py」のようなコマンドで行う.
python tts.py
vallex_generation.wav
ここでは,次の音声ファイルとテキストを使用
cd %HOMEPATH%\VALL-E-X notepad vclone.py
このプログラムは, 公式の GitHub のページ: https://github.com/Plachtaa/VALL-E-Xで公開されていたものを変更して使用している.
音声ファイル名とテキストは,実際に使用するものを設定すること.
from utils.prompt_making import make_prompt from utils.generation import SAMPLE_RATE, generate_audio, preload_models from scipy.io.wavfile import write as write_wav # download and load all models preload_models() make_prompt(name="kaneko", audio_prompt_path="kaneko.mp3", transcript="日本国民は、正当に選挙された国会における代表者を通じて行動し") # generate audio from text text_prompt = """ 日本国民は、国家の名誉にかけ、全力をあげて。 """ audio_array = generate_audio(text_prompt, language="ja", prompt="kaneko") # save audio to disk write_wav("vallex_generation.wav", SAMPLE_RATE, audio_array)
Python プログラムの実行
Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.
Python のまとめ: 別ページ »にまとめ
プログラムを vclone.pyのようなファイル名で保存したので, 「python vclone.py」のようなコマンドで行う.
python vclone.py