Release 2.5.0 · litagin02/Style-Bert-VITS2

v2.5.0 (2024-06-02)

このバージョンから利用規約が追加されました。ご利用の際は必ずお読みください。

新機能等

デフォルトモデルにあみたろの声素材工房のあみたろ様が公開しているコーパスとライブ配信音声を利用して学習した小春音アミとあみたろモデルを追加（あみたろ様には事前に連絡して許諾を得ています）
- アプデの場合はInitialize.batをダブルクリックすればモデルをダウンロードできます（手動でダウンロードしてmodel_assetsフォルダに入れることも可能）
学習時に音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように
- inputsからスライスして使う場合はinputs直下に作りたいスタイルだけサブフォルダを作りそこに音声ファイルを配置
- Data/モデル名/rawから使う場合もraw直下に同様に配置
- サブフォルダの個数が0または1の場合は、今まで通りのNeutralスタイルのみが作成されます
batファイルでのインストールの大幅な高速化（Pythonのライブラリインストールにuvを使用）
学習時に「カスタムバッチサンプラーを無効化」オプションを追加。これにより、長い音声ファイルも学習に使われるようになりますが、使用VRAMがかなり増えたり学習が不安定になる可能性があります。
よくある質問を追加
英語の音声合成の速度向上（ @gordon0414 さんによるPRです、ありがとうございます！）
エディターの各種機能改善（多くが @kamexy 様によるエディターリポジトリへのプルリク群です、ありがとうございます！）
- 選択した行の下に新規の行を作成できるように
- Mac使用時に日本語変換のエンターで音声合成が走るバグの修正
- ペースト時に改行を含まない場合は通常のペーストの振る舞いになるように修正

その他の改善

上のスタイル自動作成機能を既存モデルでも使えるような機能追加。具体的には、スタイル作成タブにて、フォルダ分けされた音声ファイルのディレクトリを任意に指定し、そのフォルダ分けを使って既存のモデルのスタイルの作成が可能に
音声書き起こしにkotoba-whisperを追加
音声書き起こし時にHugging FaceのWhisperモデルを使う際に、書き起こしを順次保存するように改善
（ライブラリとしてのみ）依存関係の軽量化、音声合成時に読み上げテキストの読みを表す音素列を指定する機能を追加 + 様々な改善 ( @tsukumijima 様によるプルリクです、ありがとうございます！)

内部変更

これまでpath管理にconfigs/paths.ymlを使っていたが、configs/default_paths.ymlにリネームし、configs/paths.ymlはgitの管理対象外に変更

バグ修正

Gradioのアップデートにより、モデル選択時やスタイルのDBSCAN作成時等にTypeError: Type is not JSON serializable: WindowsPathのようなエラーが出る問題を修正
TensorboardをWebUIから立ち上げた際にエラーが出る問題の修正 (#129)

インストール手順

sbv2.zipをダウンロードし、解凍してください。
グラボがある方は、Install-Style-Bert-VITS2.batをダブルクリックします。
グラボがない方は、Install-Style-Bert-VITS2-CPU.batをダブルクリックします。CPU版では学習はできませんが、音声合成とマージは可能です。

アップデート手順

2.4.1からはUpdate-Style-Bert-VITS2.batをダブルクリックしてください。
2.4.1未満からはアップデートができないので、sbv2.zipをダウンロードして新しい場所に新規インストールの上、手動で元のバージョンのところのmodel_assetsやDataを移行するなどしてください。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2.5.0

v2.5.0 (2024-06-02)

新機能等

その他の改善

内部変更

バグ修正

インストール手順

アップデート手順

Contributors