2.5.0
v2.5.0 (2024-06-02)
このバージョンから利用規約が追加されました。ご利用の際は必ずお読みください。
新機能等
- デフォルトモデルに あみたろの声素材工房 のあみたろ様が公開しているコーパスとライブ配信音声を利用して学習した小春音アミとあみたろモデルを追加(あみたろ様には事前に連絡して許諾を得ています)
- アプデの場合は
Initialize.bat
をダブルクリックすればモデルをダウンロードできます(手動でダウンロードしてmodel_assets
フォルダに入れることも可能)
- アプデの場合は
- 学習時に音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように
inputs
からスライスして使う場合はinputs
直下に作りたいスタイルだけサブフォルダを作りそこに音声ファイルを配置Data/モデル名/raw
から使う場合もraw
直下に同様に配置- サブフォルダの個数が0または1の場合は、今まで通りのNeutralスタイルのみが作成されます
- batファイルでのインストールの大幅な高速化(Pythonのライブラリインストールにuvを使用)
- 学習時に「カスタムバッチサンプラーを無効化」オプションを追加。これにより、長い音声ファイルも学習に使われるようになりますが、使用VRAMがかなり増えたり学習が不安定になる可能性があります。
- よくある質問を追加
- 英語の音声合成の速度向上( @gordon0414 さんによるPRです、ありがとうございます!)
- エディターの各種機能改善(多くが @kamexy 様によるエディターリポジトリへのプルリク群です、ありがとうございます!)
- 選択した行の下に新規の行を作成できるように
- Mac使用時に日本語変換のエンターで音声合成が走るバグの修正
- ペースト時に改行を含まない場合は通常のペーストの振る舞いになるように修正
その他の改善
- 上のスタイル自動作成機能を既存モデルでも使えるような機能追加。具体的には、スタイル作成タブにて、フォルダ分けされた音声ファイルのディレクトリを任意に指定し、そのフォルダ分けを使って既存のモデルのスタイルの作成が可能に
- 音声書き起こしにkotoba-whisperを追加
- 音声書き起こし時にHugging FaceのWhisperモデルを使う際に、書き起こしを順次保存するように改善
- (ライブラリとしてのみ)依存関係の軽量化、音声合成時に読み上げテキストの読みを表す音素列を指定する機能を追加 + 様々な改善 ( @tsukumijima 様によるプルリクです、ありがとうございます!)
内部変更
- これまでpath管理に
configs/paths.yml
を使っていたが、configs/default_paths.yml
にリネームし、configs/paths.yml
はgitの管理対象外に変更
バグ修正
- Gradioのアップデートにより、モデル選択時やスタイルのDBSCAN作成時等に
TypeError: Type is not JSON serializable: WindowsPath
のようなエラーが出る問題を修正 - TensorboardをWebUIから立ち上げた際にエラーが出る問題の修正 (#129)
インストール手順
- sbv2.zipをダウンロードし、解凍してください。
- グラボがある方は、
Install-Style-Bert-VITS2.bat
をダブルクリックします。 - グラボがない方は、
Install-Style-Bert-VITS2-CPU.bat
をダブルクリックします。CPU版では学習はできませんが、音声合成とマージは可能です。
アップデート手順
- 2.4.1からは
Update-Style-Bert-VITS2.bat
をダブルクリックしてください。 - 2.4.1未満からはアップデートができないので、sbv2.zipをダウンロードして新しい場所に新規インストールの上、手動で元のバージョンのところの
model_assets
やData
を移行するなどしてください。