Skip to content

2.5.0

Compare
Choose a tag to compare
@litagin02 litagin02 released this 01 Jun 16:21
· 42 commits to master since this release
250e83e

v2.5.0 (2024-06-02)

このバージョンから利用規約が追加されました。ご利用の際は必ずお読みください。

新機能等

  • デフォルトモデルに あみたろの声素材工房 のあみたろ様が公開しているコーパスとライブ配信音声を利用して学習した小春音アミあみたろモデルを追加(あみたろ様には事前に連絡して許諾を得ています)
    • アプデの場合はInitialize.batをダブルクリックすればモデルをダウンロードできます(手動でダウンロードしてmodel_assetsフォルダに入れることも可能)
  • 学習時に音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように
    • inputsからスライスして使う場合はinputs直下に作りたいスタイルだけサブフォルダを作りそこに音声ファイルを配置
    • Data/モデル名/rawから使う場合もraw直下に同様に配置
    • サブフォルダの個数が0または1の場合は、今まで通りのNeutralスタイルのみが作成されます
  • batファイルでのインストールの大幅な高速化(Pythonのライブラリインストールにuvを使用)
  • 学習時に「カスタムバッチサンプラーを無効化」オプションを追加。これにより、長い音声ファイルも学習に使われるようになりますが、使用VRAMがかなり増えたり学習が不安定になる可能性があります。
  • よくある質問を追加
  • 英語の音声合成の速度向上( @gordon0414 さんによるPRです、ありがとうございます!)
  • エディターの各種機能改善(多くが @kamexy 様によるエディターリポジトリへのプルリク群です、ありがとうございます!)
    • 選択した行の下に新規の行を作成できるように
    • Mac使用時に日本語変換のエンターで音声合成が走るバグの修正
    • ペースト時に改行を含まない場合は通常のペーストの振る舞いになるように修正

その他の改善

  • 上のスタイル自動作成機能を既存モデルでも使えるような機能追加。具体的には、スタイル作成タブにて、フォルダ分けされた音声ファイルのディレクトリを任意に指定し、そのフォルダ分けを使って既存のモデルのスタイルの作成が可能に
  • 音声書き起こしにkotoba-whisperを追加
  • 音声書き起こし時にHugging FaceのWhisperモデルを使う際に、書き起こしを順次保存するように改善
  • ライブラリとしてのみ)依存関係の軽量化、音声合成時に読み上げテキストの読みを表す音素列を指定する機能を追加 + 様々な改善 ( @tsukumijima 様によるプルリクです、ありがとうございます!)

内部変更

  • これまでpath管理にconfigs/paths.ymlを使っていたが、configs/default_paths.ymlにリネームし、configs/paths.ymlはgitの管理対象外に変更

バグ修正

  • Gradioのアップデートにより、モデル選択時やスタイルのDBSCAN作成時等にTypeError: Type is not JSON serializable: WindowsPathのようなエラーが出る問題を修正
  • TensorboardをWebUIから立ち上げた際にエラーが出る問題の修正 (#129)

インストール手順

  • sbv2.zipをダウンロードし、解凍してください。
  • グラボがある方は、Install-Style-Bert-VITS2.batをダブルクリックします。
  • グラボがない方は、Install-Style-Bert-VITS2-CPU.batをダブルクリックします。CPU版では学習はできませんが、音声合成とマージは可能です。

アップデート手順

  • 2.4.1からはUpdate-Style-Bert-VITS2.batをダブルクリックしてください。
  • 2.4.1未満からはアップデートができないので、sbv2.zipをダウンロードして新しい場所に新規インストールの上、手動で元のバージョンのところのmodel_assetsDataを移行するなどしてください。