From 8976a3ed2fc0045fef877157bab1d2033777efa3 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 25 May 2024 10:25:22 +0900 Subject: [PATCH 01/50] Refactor: Use PathConfig and pathlib instead of paths.yml loading --- app.py | 10 +- bert_gen.py | 6 +- colab.ipynb | 2 +- config.py | 171 ++++++++++++++++++---------------- configs/config.json | 2 +- configs/config_jp_extra.json | 2 +- default_style.py | 1 - gradio_tabs/merge.py | 128 +++++++++++++------------ gradio_tabs/style_vectors.py | 50 +++++----- gradio_tabs/train.py | 78 ++++++++++------ preprocess_text.py | 4 +- requirements.txt | 1 + resample.py | 3 +- server_editor.py | 14 +-- server_fastapi.py | 6 +- slice.py | 8 +- speech_mos.py | 13 +-- style_bert_vits2/constants.py | 2 +- style_gen.py | 4 +- train_ms.py | 4 +- train_ms_jp_extra.py | 4 +- transcribe.py | 6 +- 22 files changed, 266 insertions(+), 253 deletions(-) diff --git a/app.py b/app.py index f556a2377..2df938622 100644 --- a/app.py +++ b/app.py @@ -3,7 +3,6 @@ import gradio as gr import torch -import yaml from gradio_tabs.dataset import create_dataset_app from gradio_tabs.inference import create_inference_app @@ -14,6 +13,7 @@ from style_bert_vits2.nlp.japanese import pyopenjtalk_worker from style_bert_vits2.nlp.japanese.user_dict import update_dict from style_bert_vits2.tts_model import TTSModelHolder +from config import get_path_config # このプロセスからはワーカーを起動して辞書を使いたいので、ここで初期化 @@ -22,11 +22,6 @@ # dict_data/ 以下の辞書データを pyopenjtalk に適用 update_dict() -# Get path settings -with Path("configs/paths.yml").open("r", encoding="utf-8") as f: - path_config: dict[str, str] = yaml.safe_load(f.read()) - # dataset_root = path_config["dataset_root"] - assets_root = path_config["assets_root"] parser = argparse.ArgumentParser() parser.add_argument("--device", type=str, default="cuda") @@ -40,7 +35,8 @@ if device == "cuda" and not torch.cuda.is_available(): device = "cpu" -model_holder = TTSModelHolder(Path(assets_root), device) +path_config = get_path_config() +model_holder = TTSModelHolder(Path(path_config.assets_root), device) with gr.Blocks(theme=GRADIO_THEME) as app: gr.Markdown(f"# Style-Bert-VITS2 WebUI (version {VERSION})") diff --git a/bert_gen.py b/bert_gen.py index 1dcab9eb2..af50b600b 100644 --- a/bert_gen.py +++ b/bert_gen.py @@ -5,13 +5,12 @@ import torch.multiprocessing as mp from tqdm import tqdm -from config import config +from config import get_config from style_bert_vits2.constants import Languages from style_bert_vits2.logging import logger from style_bert_vits2.models import commons from style_bert_vits2.models.hyper_parameters import HyperParameters from style_bert_vits2.nlp import ( - bert_models, cleaned_text_to_sequence, extract_bert_feature, ) @@ -20,6 +19,7 @@ from style_bert_vits2.utils.stdout_wrapper import SAFE_STDOUT +config = get_config() # このプロセスからはワーカーを起動して辞書を使いたいので、ここで初期化 pyopenjtalk_worker.initialize_worker() @@ -61,7 +61,7 @@ def process_line(x: tuple[str, bool]): bert = torch.load(bert_path) assert bert.shape[-1] == len(phone) except Exception: - bert = extract_bert_feature(text, word2ph, language_str, device) + bert = extract_bert_feature(text, word2ph, Languages(language_str), device) assert bert.shape[-1] == len(phone) torch.save(bert, bert_path) diff --git a/colab.ipynb b/colab.ipynb index 4f21124c7..a9aaa935c 100644 --- a/colab.ipynb +++ b/colab.ipynb @@ -4,7 +4,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "# Style-Bert-VITS2 (ver 2.4.1) のGoogle Colabでの学習\n", + "# Style-Bert-VITS2 (ver 2.5.0) のGoogle Colabでの学習\n", "\n", "Google Colab上でStyle-Bert-VITS2の学習を行うことができます。\n", "\n", diff --git a/config.py b/config.py index 2229e6156..51e05d496 100644 --- a/config.py +++ b/config.py @@ -2,9 +2,9 @@ @Desc: 全局配置文件读取 """ -import os import shutil -from typing import Dict, List +from pathlib import Path +from typing import Any import torch import yaml @@ -12,6 +12,12 @@ from style_bert_vits2.logging import logger +class PathConfig: + def __init__(self, dataset_root: str, assets_root: str): + self.dataset_root = Path(dataset_root) + self.assets_root = Path(assets_root) + + # If not cuda available, set possible devices to cpu cuda_available = torch.cuda.is_available() @@ -20,17 +26,17 @@ class Resample_config: """重采样配置""" def __init__(self, in_dir: str, out_dir: str, sampling_rate: int = 44100): - self.sampling_rate: int = sampling_rate # 目标采样率 - self.in_dir: str = in_dir # 待处理音频目录路径 - self.out_dir: str = out_dir # 重采样输出路径 + self.sampling_rate = sampling_rate # 目标采样率 + self.in_dir = Path(in_dir) # 待处理音频目录路径 + self.out_dir = Path(out_dir) # 重采样输出路径 @classmethod - def from_dict(cls, dataset_path: str, data: Dict[str, any]): + def from_dict(cls, dataset_path: Path, data: dict[str, Any]): """从字典中生成实例""" # 不检查路径是否有效,此逻辑在resample.py中处理 - data["in_dir"] = os.path.join(dataset_path, data["in_dir"]) - data["out_dir"] = os.path.join(dataset_path, data["out_dir"]) + data["in_dir"] = dataset_path / data["in_dir"] + data["out_dir"] = dataset_path / data["out_dir"] return cls(**data) @@ -49,39 +55,27 @@ def __init__( max_val_total: int = 10000, clean: bool = True, ): - self.transcription_path: str = ( - transcription_path # 原始文本文件路径,文本格式应为{wav_path}|{speaker_name}|{language}|{text}。 - ) - self.cleaned_path: str = ( - cleaned_path # 数据清洗后文本路径,可以不填。不填则将在原始文本目录生成 - ) - self.train_path: str = ( - train_path # 训练集路径,可以不填。不填则将在原始文本目录生成 - ) - self.val_path: str = ( - val_path # 验证集路径,可以不填。不填则将在原始文本目录生成 - ) - self.config_path: str = config_path # 配置文件路径 - self.val_per_lang: int = val_per_lang # 每个speaker的验证集条数 - self.max_val_total: int = ( - max_val_total # 验证集最大条数,多于的会被截断并放到训练集中 - ) - self.clean: bool = clean # 是否进行数据清洗 + self.transcription_path = Path(transcription_path) + self.cleaned_path = Path(cleaned_path) + self.train_path = Path(train_path) + self.val_path = Path(val_path) + self.config_path = Path(config_path) + self.val_per_lang = val_per_lang + self.max_val_total = max_val_total + self.clean = clean @classmethod - def from_dict(cls, dataset_path: str, data: Dict[str, any]): + def from_dict(cls, dataset_path: Path, data: dict[str, Any]): """从字典中生成实例""" - data["transcription_path"] = os.path.join( - dataset_path, data["transcription_path"] - ) + data["transcription_path"] = dataset_path / data["transcription_path"] if data["cleaned_path"] == "" or data["cleaned_path"] is None: data["cleaned_path"] = None else: - data["cleaned_path"] = os.path.join(dataset_path, data["cleaned_path"]) - data["train_path"] = os.path.join(dataset_path, data["train_path"]) - data["val_path"] = os.path.join(dataset_path, data["val_path"]) - data["config_path"] = os.path.join(dataset_path, data["config_path"]) + data["cleaned_path"] = dataset_path / data["cleaned_path"] + data["train_path"] = dataset_path / data["train_path"] + data["val_path"] = dataset_path / data["val_path"] + data["config_path"] = dataset_path / data["config_path"] return cls(**data) @@ -96,7 +90,7 @@ def __init__( device: str = "cuda", use_multi_device: bool = False, ): - self.config_path = config_path + self.config_path = Path(config_path) self.num_processes = num_processes if not cuda_available: device = "cpu" @@ -104,8 +98,8 @@ def __init__( self.use_multi_device = use_multi_device @classmethod - def from_dict(cls, dataset_path: str, data: Dict[str, any]): - data["config_path"] = os.path.join(dataset_path, data["config_path"]) + def from_dict(cls, dataset_path: Path, data: dict[str, Any]): + data["config_path"] = dataset_path / data["config_path"] return cls(**data) @@ -119,15 +113,15 @@ def __init__( num_processes: int = 4, device: str = "cuda", ): - self.config_path = config_path + self.config_path = Path(config_path) self.num_processes = num_processes if not cuda_available: device = "cpu" self.device = device @classmethod - def from_dict(cls, dataset_path: str, data: Dict[str, any]): - data["config_path"] = os.path.join(dataset_path, data["config_path"]) + def from_dict(cls, dataset_path: Path, data: dict[str, Any]): + data["config_path"] = dataset_path / data["config_path"] return cls(**data) @@ -138,7 +132,7 @@ class Train_ms_config: def __init__( self, config_path: str, - env: Dict[str, any], + env: dict[str, Any], # base: Dict[str, any], model_dir: str, num_workers: int, @@ -147,16 +141,18 @@ def __init__( ): self.env = env # 需要加载的环境变量 # self.base = base # 底模配置 - self.model_dir = model_dir # 训练模型存储目录,该路径为相对于dataset_path的路径,而非项目根目录 - self.config_path = config_path # 配置文件路径 + self.model_dir = Path( + model_dir + ) # 训练模型存储目录,该路径为相对于dataset_path的路径,而非项目根目录 + self.config_path = Path(config_path) # 配置文件路径 self.num_workers = num_workers # worker数量 self.spec_cache = spec_cache # 是否启用spec缓存 self.keep_ckpts = keep_ckpts # ckpt数量 @classmethod - def from_dict(cls, dataset_path: str, data: Dict[str, any]): + def from_dict(cls, dataset_path: Path, data: dict[str, Any]): # data["model"] = os.path.join(dataset_path, data["model"]) - data["config_path"] = os.path.join(dataset_path, data["config_path"]) + data["config_path"] = dataset_path / data["config_path"] return cls(**data) @@ -176,20 +172,18 @@ def __init__( ): if not cuda_available: device = "cpu" - self.device: str = device - self.model: str = model # 端口号 - self.config_path: str = config_path # 是否公开部署,对外网开放 - self.port: int = port # 是否开启debug模式 - self.share: bool = share # 模型路径 - self.debug: bool = debug # 配置文件路径 - self.language_identification_library: str = ( - language_identification_library # 语种识别库 - ) + self.device = device + self.model = Path(model) + self.config_path = Path(config_path) + self.port: int = port + self.share: bool = share + self.debug: bool = debug + self.language_identification_library: str = language_identification_library @classmethod - def from_dict(cls, dataset_path: str, data: Dict[str, any]): - data["config_path"] = os.path.join(dataset_path, data["config_path"]) - data["model"] = os.path.join(dataset_path, data["model"]) + def from_dict(cls, dataset_path: Path, data: dict[str, Any]): + data["config_path"] = dataset_path / data["config_path"] + data["model"] = dataset_path / data["model"] return cls(**data) @@ -200,7 +194,7 @@ def __init__( device: str = "cuda", limit: int = 100, language: str = "JP", - origins: List[str] = None, + origins: list[str] = ["*"], ): self.port: int = port if not cuda_available: @@ -208,10 +202,10 @@ def __init__( self.device: str = device self.language: str = language self.limit: int = limit - self.origins: List[str] = origins + self.origins: list[str] = origins @classmethod - def from_dict(cls, data: Dict[str, any]): + def from_dict(cls, data: dict[str, Any]): return cls(**data) @@ -223,32 +217,32 @@ def __init__(self, app_key: str, secret_key: str): self.secret_key = secret_key @classmethod - def from_dict(cls, data: Dict[str, any]): + def from_dict(cls, data: dict[str, Any]): return cls(**data) class Config: - def __init__(self, config_path: str, path_config: dict[str, str]): - if not os.path.isfile(config_path) and os.path.isfile("default_config.yml"): + def __init__(self, config_path: str, path_config: PathConfig): + if not Path(config_path).exists(): shutil.copy(src="default_config.yml", dst=config_path) logger.info( f"A configuration file {config_path} has been generated based on the default configuration file default_config.yml." ) logger.info( - "If you have no special needs, please do not modify default_config.yml." + "Please do not modify default_config.yml. Instead, modify config.yml." ) # sys.exit(0) with open(config_path, "r", encoding="utf-8") as file: - yaml_config: Dict[str, any] = yaml.safe_load(file.read()) + yaml_config: dict[str, Any] = yaml.safe_load(file.read()) model_name: str = yaml_config["model_name"] self.model_name: str = model_name if "dataset_path" in yaml_config: - dataset_path = yaml_config["dataset_path"] + dataset_path = Path(yaml_config["dataset_path"]) else: - dataset_path = os.path.join(path_config["dataset_root"], model_name) - self.dataset_path: str = dataset_path - self.assets_root: str = path_config["assets_root"] - self.out_dir = os.path.join(self.assets_root, model_name) + dataset_path = path_config.dataset_root / model_name + self.dataset_path = dataset_path + self.assets_root = path_config.assets_root + self.out_dir = self.assets_root / model_name self.resample_config: Resample_config = Resample_config.from_dict( dataset_path, yaml_config["resample"] ) @@ -277,16 +271,31 @@ def __init__(self, config_path: str, path_config: dict[str, str]): # ) -with open(os.path.join("configs", "paths.yml"), "r", encoding="utf-8") as f: - path_config: dict[str, str] = yaml.safe_load(f.read()) - # Should contain the following keys: - # - dataset_root: the root directory of the dataset, default to "Data" - # - assets_root: the root directory of the assets, default to "model_assets" +# Load and initialize the configuration + + +def get_path_config() -> PathConfig: + path_config_path = Path("configs/paths.yml") + if not path_config_path.exists(): + shutil.copy(src="configs/default_paths.yml", dst=path_config_path) + logger.info( + f"A configuration file {path_config_path} has been generated based on the default configuration file default_paths.yml." + ) + logger.info( + "Please do not modify configs/default_paths.yml. Instead, modify configs/paths.yml." + ) + with open(path_config_path, "r", encoding="utf-8") as file: + path_config_dict: dict[str, str] = yaml.safe_load(file.read()) + return PathConfig(**path_config_dict) + +def get_config() -> Config: + path_config = get_path_config() + try: + config = Config("config.yml", path_config) + except (TypeError, KeyError): + logger.warning("Old config.yml found. Replace it with default_config.yml.") + shutil.copy(src="default_config.yml", dst="config.yml") + config = Config("config.yml", path_config) -try: - config = Config("config.yml", path_config) -except (TypeError, KeyError): - logger.warning("Old config.yml found. Replace it with default_config.yml.") - shutil.copy(src="default_config.yml", dst="config.yml") - config = Config("config.yml", path_config) + return config diff --git a/configs/config.json b/configs/config.json index 2f3988b4f..75629e9ea 100644 --- a/configs/config.json +++ b/configs/config.json @@ -69,5 +69,5 @@ "use_spectral_norm": false, "gin_channels": 256 }, - "version": "2.4.1" + "version": "2.5.0" } diff --git a/configs/config_jp_extra.json b/configs/config_jp_extra.json index d7548094b..d7e135ad0 100644 --- a/configs/config_jp_extra.json +++ b/configs/config_jp_extra.json @@ -76,5 +76,5 @@ "initial_channel": 64 } }, - "version": "2.4.1-JP-Extra" + "version": "2.5.0-JP-Extra" } diff --git a/default_style.py b/default_style.py index 49881eb1c..3897cb05b 100644 --- a/default_style.py +++ b/default_style.py @@ -1,5 +1,4 @@ import json -import os from pathlib import Path from typing import Union diff --git a/gradio_tabs/merge.py b/gradio_tabs/merge.py index 661f23369..c6348ddab 100644 --- a/gradio_tabs/merge.py +++ b/gradio_tabs/merge.py @@ -1,14 +1,13 @@ import json -import os from pathlib import Path import gradio as gr import numpy as np import torch -import yaml from safetensors import safe_open from safetensors.torch import save_file +from config import get_path_config from style_bert_vits2.constants import DEFAULT_STYLE, GRADIO_THEME from style_bert_vits2.logging import logger from style_bert_vits2.tts_model import TTSModel, TTSModelHolder @@ -20,15 +19,17 @@ tempo_keys = ["sdp", "dp"] device = "cuda" if torch.cuda.is_available() else "cpu" +path_config = get_path_config() +assets_root = path_config.assets_root -# Get path settings -with open(os.path.join("configs", "paths.yml"), "r", encoding="utf-8") as f: - path_config: dict[str, str] = yaml.safe_load(f.read()) - # dataset_root = path_config["dataset_root"] - assets_root = path_config["assets_root"] - -def merge_style(model_name_a, model_name_b, weight, output_name, style_triple_list): +def merge_style( + model_name_a: str, + model_name_b: str, + weight: float, + output_name: str, + style_triple_list: list[tuple[str, str, str]], +) -> tuple[Path, list[str]]: """ style_triple_list: list[(model_aでのスタイル名, model_bでのスタイル名, 出力するスタイル名)] """ @@ -41,18 +42,14 @@ def merge_style(model_name_a, model_name_b, weight, output_name, style_triple_li raise ValueError(f"No element with {DEFAULT_STYLE} output style name found.") style_vectors_a = np.load( - os.path.join(assets_root, model_name_a, "style_vectors.npy") + assets_root / model_name_a / "style_vectors.npy" ) # (style_num_a, 256) style_vectors_b = np.load( - os.path.join(assets_root, model_name_b, "style_vectors.npy") + assets_root / model_name_b / "style_vectors.npy" ) # (style_num_b, 256) - with open( - os.path.join(assets_root, model_name_a, "config.json"), "r", encoding="utf-8" - ) as f: + with open(assets_root / model_name_a / "config.json", "r", encoding="utf-8") as f: config_a = json.load(f) - with open( - os.path.join(assets_root, model_name_b, "config.json"), "r", encoding="utf-8" - ) as f: + with open(assets_root / model_name_b / "config.json", "r", encoding="utf-8") as f: config_b = json.load(f) style2id_a = config_a["data"]["style2id"] style2id_b = config_b["data"]["style2id"] @@ -73,21 +70,19 @@ def merge_style(model_name_a, model_name_b, weight, output_name, style_triple_li new_style2id[style_out] = len(new_style_vecs) - 1 new_style_vecs = np.array(new_style_vecs) - output_style_path = os.path.join(assets_root, output_name, "style_vectors.npy") + output_style_path = assets_root / output_name / "style_vectors.npy" np.save(output_style_path, new_style_vecs) new_config = config_a.copy() new_config["data"]["num_styles"] = len(new_style2id) new_config["data"]["style2id"] = new_style2id new_config["model_name"] = output_name - with open( - os.path.join(assets_root, output_name, "config.json"), "w", encoding="utf-8" - ) as f: + with open(assets_root / output_name / "config.json", "w", encoding="utf-8") as f: json.dump(new_config, f, indent=2, ensure_ascii=False) # recipe.jsonを読み込んで、style_triple_listを追記 - info_path = os.path.join(assets_root, output_name, "recipe.json") - if os.path.exists(info_path): + info_path = assets_root / output_name / "recipe.json" + if info_path.exists(): with open(info_path, "r", encoding="utf-8") as f: info = json.load(f) else: @@ -99,11 +94,13 @@ def merge_style(model_name_a, model_name_b, weight, output_name, style_triple_li return output_style_path, list(new_style2id.keys()) -def lerp_tensors(t, v0, v1): +def lerp_tensors(t: float, v0: torch.Tensor, v1: torch.Tensor): return v0 * (1 - t) + v1 * t -def slerp_tensors(t, v0, v1, dot_thres=0.998): +def slerp_tensors( + t: float, v0: torch.Tensor, v1: torch.Tensor, dot_thres: float = 0.998 +): device = v0.device v0c = v0.cpu().numpy() v1c = v1.cpu().numpy() @@ -123,23 +120,23 @@ def slerp_tensors(t, v0, v1, dot_thres=0.998): def merge_models( - model_path_a, - model_path_b, - voice_weight, - voice_pitch_weight, - speech_style_weight, - tempo_weight, - output_name, - use_slerp_instead_of_lerp, + model_path_a: str, + model_path_b: str, + voice_weight: float, + voice_pitch_weight: float, + speech_style_weight: float, + tempo_weight: float, + output_name: str, + use_slerp_instead_of_lerp: bool, ): """model Aを起点に、model Bの各要素を重み付けしてマージする。 safetensors形式を前提とする。""" - model_a_weight = {} + model_a_weight: dict[str, torch.Tensor] = {} with safe_open(model_path_a, framework="pt", device="cpu") as f: for k in f.keys(): model_a_weight[k] = f.get_tensor(k) - model_b_weight = {} + model_b_weight: dict[str, torch.Tensor] = {} with safe_open(model_path_b, framework="pt", device="cpu") as f: for k in f.keys(): model_b_weight[k] = f.get_tensor(k) @@ -161,10 +158,8 @@ def merge_models( slerp_tensors if use_slerp_instead_of_lerp else lerp_tensors )(weight, model_a_weight[key], model_b_weight[key]) - merged_model_path = os.path.join( - assets_root, output_name, f"{output_name}.safetensors" - ) - os.makedirs(os.path.dirname(merged_model_path), exist_ok=True) + merged_model_path = assets_root / output_name / f"{output_name}.safetensors" + merged_model_path.parent.mkdir(parents=True, exist_ok=True) save_file(merged_model_weight, merged_model_path) info = { @@ -175,24 +170,22 @@ def merge_models( "speech_style_weight": speech_style_weight, "tempo_weight": tempo_weight, } - with open( - os.path.join(assets_root, output_name, "recipe.json"), "w", encoding="utf-8" - ) as f: + with open(assets_root / output_name / "recipe.json", "w", encoding="utf-8") as f: json.dump(info, f, indent=2, ensure_ascii=False) return merged_model_path def merge_models_gr( - model_name_a, - model_path_a, - model_name_b, - model_path_b, - output_name, - voice_weight, - voice_pitch_weight, - speech_style_weight, - tempo_weight, - use_slerp_instead_of_lerp, + model_name_a: str, + model_path_a: str, + model_name_b: str, + model_path_b: str, + output_name: str, + voice_weight: float, + voice_pitch_weight: float, + speech_style_weight: float, + tempo_weight: float, + use_slerp_instead_of_lerp: bool, ): if output_name == "": return "Error: 新しいモデル名を入力してください。" @@ -210,10 +203,10 @@ def merge_models_gr( def merge_style_gr( - model_name_a, - model_name_b, - weight, - output_name, + model_name_a: str, + model_name_b: str, + weight: float, + output_name: str, style_triple_list_str: str, ): if output_name == "": @@ -245,12 +238,14 @@ def merge_style_gr( ) -def simple_tts(model_name, text, style=DEFAULT_STYLE, style_weight=1.0): - model_path = os.path.join(assets_root, model_name, f"{model_name}.safetensors") - config_path = os.path.join(assets_root, model_name, "config.json") - style_vec_path = os.path.join(assets_root, model_name, "style_vectors.npy") +def simple_tts( + model_name: str, text: str, style: str = DEFAULT_STYLE, style_weight: float = 1.0 +): + model_path = assets_root / model_name / f"{model_name}.safetensors" + config_path = assets_root / model_name / "config.json" + style_vec_path = assets_root / model_name / "style_vectors.npy" - model = TTSModel(Path(model_path), Path(config_path), Path(style_vec_path), device) + model = TTSModel(model_path, config_path, style_vec_path, device) return model.infer(text, style=style, style_weight=style_weight) @@ -259,13 +254,13 @@ def update_two_model_names_dropdown(model_holder: TTSModelHolder): return new_names, new_files, new_names, new_files -def load_styles_gr(model_name_a, model_name_b): - config_path_a = os.path.join(assets_root, model_name_a, "config.json") +def load_styles_gr(model_name_a: str, model_name_b: str): + config_path_a = assets_root / model_name_a / "config.json" with open(config_path_a, "r", encoding="utf-8") as f: config_a = json.load(f) styles_a = list(config_a["data"]["style2id"].keys()) - config_path_b = os.path.join(assets_root, model_name_b, "config.json") + config_path_b = assets_root / model_name_b / "config.json" with open(config_path_b, "r", encoding="utf-8") as f: config_b = json.load(f) styles_b = list(config_b["data"]["style2id"].keys()) @@ -336,7 +331,10 @@ def create_merge_app(model_holder: TTSModelHolder) -> gr.Blocks: ) return app initial_id = 0 - initial_model_files = model_holder.model_files_dict[model_names[initial_id]] + # initial_model_files = model_holder.model_files_dict[model_names[initial_id]] + initial_model_files = [ + str(f) for f in model_holder.model_files_dict[model_names[initial_id]] + ] with gr.Blocks(theme=GRADIO_THEME) as app: gr.Markdown( diff --git a/gradio_tabs/style_vectors.py b/gradio_tabs/style_vectors.py index 1800c8562..90cb04dbc 100644 --- a/gradio_tabs/style_vectors.py +++ b/gradio_tabs/style_vectors.py @@ -1,27 +1,23 @@ import json -import os import shutil from pathlib import Path import gradio as gr import matplotlib.pyplot as plt import numpy as np -import yaml from scipy.spatial.distance import pdist, squareform from sklearn.cluster import DBSCAN, AgglomerativeClustering, KMeans from sklearn.manifold import TSNE from umap import UMAP -from config import config +from config import get_path_config from style_bert_vits2.constants import DEFAULT_STYLE, GRADIO_THEME from style_bert_vits2.logging import logger -# Get path settings -with open(os.path.join("configs", "paths.yml"), "r", encoding="utf-8") as f: - path_config: dict[str, str] = yaml.safe_load(f.read()) - dataset_root = Path(path_config["dataset_root"]) - # assets_root = path_config["assets_root"] +path_config = get_path_config() +dataset_root = path_config.dataset_root +assets_root = path_config.assets_root MAX_CLUSTER_NUM = 10 MAX_AUDIO_NUM = 10 @@ -39,11 +35,7 @@ def load(model_name: str, reduction_method: str): global wav_files, x, x_reduced, mean - # wavs_dir = os.path.join(dataset_root, model_name, "wavs") wavs_dir = dataset_root / model_name / "wavs" - # style_vector_files = [ - # os.path.join(wavs_dir, f) for f in os.listdir(wavs_dir) if f.endswith(".npy") - # ] style_vector_files = [f for f in wavs_dir.rglob("*.npy") if f.is_file()] # foo.wav.npy -> foo.wav wav_files = [f.with_suffix("") for f in style_vector_files] @@ -196,21 +188,21 @@ def do_clustering_gradio(n_clusters=4, method="KMeans"): ] * MAX_AUDIO_NUM -def save_style_vectors_from_clustering(model_name, style_names_str: str): +def save_style_vectors_from_clustering(model_name: str, style_names_str: str): """centerとcentroidsを保存する""" - result_dir = os.path.join(config.assets_root, model_name) - os.makedirs(result_dir, exist_ok=True) + result_dir = assets_root / model_name + result_dir.mkdir(parents=True, exist_ok=True) style_vectors = np.stack([mean] + centroids) - style_vector_path = os.path.join(result_dir, "style_vectors.npy") - if os.path.exists(style_vector_path): + style_vector_path = result_dir / "style_vectors.npy" + if style_vector_path.exists(): logger.info(f"Backup {style_vector_path} to {style_vector_path}.bak") shutil.copy(style_vector_path, f"{style_vector_path}.bak") np.save(style_vector_path, style_vectors) logger.success(f"Saved style vectors to {style_vector_path}") # config.jsonの更新 - config_path = os.path.join(result_dir, "config.json") - if not os.path.exists(config_path): + config_path = result_dir / "config.json" + if not config_path.exists(): return f"{config_path}が存在しません。" style_names = [name.strip() for name in style_names_str.split(",")] style_name_list = [DEFAULT_STYLE] + style_names @@ -233,7 +225,7 @@ def save_style_vectors_from_clustering(model_name, style_names_str: str): def save_style_vectors_from_files( - model_name, audio_files_str: str, style_names_str: str + model_name: str, audio_files_str: str, style_names_str: str ): """音声ファイルからスタイルベクトルを作成して保存する""" global mean @@ -241,8 +233,8 @@ def save_style_vectors_from_files( return "Error: スタイルベクトルを読み込んでください。" mean = np.mean(x, axis=0) - result_dir = os.path.join(config.assets_root, model_name) - os.makedirs(result_dir, exist_ok=True) + result_dir = assets_root / model_name + result_dir.mkdir(parents=True, exist_ok=True) audio_files = [name.strip() for name in audio_files_str.split(",")] style_names = [name.strip() for name in style_names_str.split(",")] if len(audio_files) != len(style_names): @@ -252,23 +244,23 @@ def save_style_vectors_from_files( return "スタイル名が重複しています。" style_vectors = [mean] - wavs_dir = os.path.join(dataset_root, model_name, "wavs") + wavs_dir = dataset_root / model_name / "wavs" for audio_file in audio_files: - path = os.path.join(wavs_dir, audio_file) - if not os.path.exists(path): + path = wavs_dir / audio_file + if not path.exists(): return f"{path}が存在しません。" style_vectors.append(np.load(f"{path}.npy")) style_vectors = np.stack(style_vectors) assert len(style_name_list) == len(style_vectors) - style_vector_path = os.path.join(result_dir, "style_vectors.npy") - if os.path.exists(style_vector_path): + style_vector_path = result_dir / "style_vectors.npy" + if style_vector_path.exists(): logger.info(f"Backup {style_vector_path} to {style_vector_path}.bak") shutil.copy(style_vector_path, f"{style_vector_path}.bak") np.save(style_vector_path, style_vectors) # config.jsonの更新 - config_path = os.path.join(result_dir, "config.json") - if not os.path.exists(config_path): + config_path = result_dir / "config.json" + if not config_path.exists(): return f"{config_path}が存在しません。" logger.info(f"Backup {config_path} to {config_path}.bak") shutil.copy(config_path, f"{config_path}.bak") diff --git a/gradio_tabs/train.py b/gradio_tabs/train.py index 03efdde57..e3b130ed2 100644 --- a/gradio_tabs/train.py +++ b/gradio_tabs/train.py @@ -1,5 +1,4 @@ import json -import os import shutil import socket import subprocess @@ -12,7 +11,8 @@ import gradio as gr import yaml - +from dataclasses import dataclass +from config import get_path_config from style_bert_vits2.logging import logger from style_bert_vits2.utils.stdout_wrapper import SAFE_STDOUT from style_bert_vits2.utils.subprocess import run_script_with_log, second_elem_of @@ -21,20 +21,27 @@ logger_handler = None tensorboard_executed = False -# Get path settings -with open(os.path.join("configs", "paths.yml"), "r", encoding="utf-8") as f: - path_config: dict[str, str] = yaml.safe_load(f.read()) - dataset_root = Path(path_config["dataset_root"]) +path_config = get_path_config() +dataset_root = path_config.dataset_root + +@dataclass +class PathsForPreprocess: + dataset_path: Path + esd_path: Path + train_path: Path + val_path: Path + config_path: Path -def get_path(model_name: str) -> tuple[Path, Path, Path, Path, Path]: + +def get_path(model_name: str) -> PathsForPreprocess: assert model_name != "", "モデル名は空にできません" dataset_path = dataset_root / model_name - lbl_path = dataset_path / "esd.list" + esd_path = dataset_path / "esd.list" train_path = dataset_path / "train.list" val_path = dataset_path / "val.list" config_path = dataset_path / "config.json" - return dataset_path, lbl_path, train_path, val_path, config_path + return PathsForPreprocess(dataset_path, esd_path, train_path, val_path, config_path) def initialize( @@ -51,14 +58,14 @@ def initialize( log_interval: int, ): global logger_handler - dataset_path, _, train_path, val_path, config_path = get_path(model_name) + paths = get_path(model_name) # 前処理のログをファイルに保存する timestamp = datetime.now().strftime("%Y%m%d_%H%M%S") file_name = f"preprocess_{timestamp}.log" if logger_handler is not None: logger.remove(logger_handler) - logger_handler = logger.add(os.path.join(dataset_path, file_name)) + logger_handler = logger.add(paths.dataset_path / file_name) logger.info( f"Step 1: start initialization...\nmodel_name: {model_name}, batch_size: {batch_size}, epochs: {epochs}, save_every_steps: {save_every_steps}, freeze_ZH_bert: {freeze_ZH_bert}, freeze_JP_bert: {freeze_JP_bert}, freeze_EN_bert: {freeze_EN_bert}, freeze_style: {freeze_style}, freeze_decoder: {freeze_decoder}, use_jp_extra: {use_jp_extra}" @@ -71,8 +78,8 @@ def initialize( with open(default_config_path, "r", encoding="utf-8") as f: config = json.load(f) config["model_name"] = model_name - config["data"]["training_files"] = str(train_path) - config["data"]["validation_files"] = str(val_path) + config["data"]["training_files"] = str(paths.train_path) + config["data"]["validation_files"] = str(paths.val_path) config["train"]["batch_size"] = batch_size config["train"]["epochs"] = epochs config["train"]["eval_interval"] = save_every_steps @@ -89,14 +96,14 @@ def initialize( # 今はデフォルトであるが、以前は非JP-Extra版になくバグの原因になるので念のため config["data"]["use_jp_extra"] = use_jp_extra - model_path = dataset_path / "models" + model_path = paths.dataset_path / "models" if model_path.exists(): logger.warning( f"Step 1: {model_path} already exists, so copy it to backup to {model_path}_backup" ) shutil.copytree( src=model_path, - dst=dataset_path / "models_backup", + dst=paths.dataset_path / "models_backup", dirs_exist_ok=True, ) shutil.rmtree(model_path) @@ -110,14 +117,14 @@ def initialize( logger.error(f"Step 1: {pretrained_dir} folder not found.") return False, f"Step 1, Error: {pretrained_dir}フォルダが見つかりません。" - with open(config_path, "w", encoding="utf-8") as f: + with open(paths.config_path, "w", encoding="utf-8") as f: json.dump(config, f, indent=2, ensure_ascii=False) if not Path("config.yml").exists(): shutil.copy(src="default_config.yml", dst="config.yml") with open("config.yml", "r", encoding="utf-8") as f: yml_data = yaml.safe_load(f) yml_data["model_name"] = model_name - yml_data["dataset_path"] = str(dataset_path) + yml_data["dataset_path"] = str(paths.dataset_path) with open("config.yml", "w", encoding="utf-8") as f: yaml.dump(yml_data, f, allow_unicode=True) logger.success("Step 1: initialization finished.") @@ -126,7 +133,7 @@ def initialize( def resample(model_name: str, normalize: bool, trim: bool, num_processes: int): logger.info("Step 2: start resampling...") - dataset_path, _, _, _, _ = get_path(model_name) + dataset_path = get_path(model_name).dataset_path input_dir = dataset_path / "raw" output_dir = dataset_path / "wavs" cmd = [ @@ -159,21 +166,24 @@ def preprocess_text( model_name: str, use_jp_extra: bool, val_per_lang: int, yomi_error: str ): logger.info("Step 3: start preprocessing text...") - _, lbl_path, train_path, val_path, config_path = get_path(model_name) - if not lbl_path.exists(): - logger.error(f"Step 3: {lbl_path} not found.") - return False, f"Step 3, Error: 書き起こしファイル {lbl_path} が見つかりません。" + paths = get_path(model_name) + if not paths.esd_path.exists(): + logger.error(f"Step 3: {paths.esd_path} not found.") + return ( + False, + f"Step 3, Error: 書き起こしファイル {paths.esd_path} が見つかりません。", + ) cmd = [ "preprocess_text.py", "--config-path", - str(config_path), + str(paths.config_path), "--transcription-path", - str(lbl_path), + str(paths.esd_path), "--train-path", - str(train_path), + str(paths.train_path), "--val-path", - str(val_path), + str(paths.val_path), "--val-per-lang", str(val_per_lang), "--yomi_error", @@ -201,7 +211,7 @@ def preprocess_text( def bert_gen(model_name: str): logger.info("Step 4: start bert_gen...") - _, _, _, _, config_path = get_path(model_name) + config_path = get_path(model_name).config_path success, message = run_script_with_log( ["bert_gen.py", "--config", str(config_path)] ) @@ -220,7 +230,7 @@ def bert_gen(model_name: str): def style_gen(model_name: str, num_processes: int): logger.info("Step 5: start style_gen...") - _, _, _, _, config_path = get_path(model_name) + config_path = get_path(model_name).config_path success, message = run_script_with_log( [ "style_gen.py", @@ -319,17 +329,23 @@ def train( use_jp_extra: bool = True, speedup: bool = False, ): - dataset_path, _, _, _, config_path = get_path(model_name) + paths = get_path(model_name) # 学習再開の場合を考えて念のためconfig.ymlの名前等を更新 with open("config.yml", "r", encoding="utf-8") as f: yml_data = yaml.safe_load(f) yml_data["model_name"] = model_name - yml_data["dataset_path"] = str(dataset_path) + yml_data["dataset_path"] = str(paths.dataset_path) with open("config.yml", "w", encoding="utf-8") as f: yaml.dump(yml_data, f, allow_unicode=True) train_py = "train_ms.py" if not use_jp_extra else "train_ms_jp_extra.py" - cmd = [train_py, "--config", str(config_path), "--model", str(dataset_path)] + cmd = [ + train_py, + "--config", + str(paths.config_path), + "--model", + str(paths.dataset_path), + ] if skip_style: cmd.append("--skip_default_style") if speedup: diff --git a/preprocess_text.py b/preprocess_text.py index a65a1d6be..99badd406 100644 --- a/preprocess_text.py +++ b/preprocess_text.py @@ -7,7 +7,7 @@ from tqdm import tqdm -from config import Preprocess_text_config, config +from config import get_config from style_bert_vits2.logging import logger from style_bert_vits2.nlp import clean_text from style_bert_vits2.nlp.japanese import pyopenjtalk_worker @@ -22,7 +22,7 @@ update_dict() -preprocess_text_config: Preprocess_text_config = config.preprocess_text_config +preprocess_text_config = get_config().preprocess_text_config # Count lines for tqdm diff --git a/requirements.txt b/requirements.txt index d111e6910..68a4fee6e 100644 --- a/requirements.txt +++ b/requirements.txt @@ -12,6 +12,7 @@ matplotlib num2words numba numpy +protobuf==4.25 psutil pyannote.audio>=3.1.0 pydantic>=2.0 diff --git a/resample.py b/resample.py index 55f0f7f94..050ce9a6e 100644 --- a/resample.py +++ b/resample.py @@ -10,7 +10,7 @@ from numpy.typing import NDArray from tqdm import tqdm -from config import config +from config import get_config from style_bert_vits2.logging import logger from style_bert_vits2.utils.stdout_wrapper import SAFE_STDOUT @@ -70,6 +70,7 @@ def resample( if __name__ == "__main__": + config = get_config() parser = argparse.ArgumentParser() parser.add_argument( "--sr", diff --git a/server_editor.py b/server_editor.py index c6f856e2f..cf70febe0 100644 --- a/server_editor.py +++ b/server_editor.py @@ -22,7 +22,6 @@ import requests import torch import uvicorn -import yaml from fastapi import APIRouter, FastAPI, HTTPException, status from fastapi.middleware.cors import CORSMiddleware from fastapi.responses import JSONResponse, Response @@ -30,6 +29,7 @@ from pydantic import BaseModel from scipy.io import wavfile +from config import get_path_config from style_bert_vits2.constants import ( DEFAULT_ASSIST_TEXT_WEIGHT, DEFAULT_NOISE, @@ -174,22 +174,14 @@ class AudioResponse(Response): "http://127.0.0.1:8000", ] -# Get path settings -with open(Path("configs/paths.yml"), "r", encoding="utf-8") as f: - path_config: dict[str, str] = yaml.safe_load(f.read()) - # dataset_root = path_config["dataset_root"] - assets_root = path_config["assets_root"] - +path_config = get_path_config() parser = argparse.ArgumentParser() -parser.add_argument("--model_dir", type=str, default="model_assets/") +parser.add_argument("--model_dir", type=str, default=path_config.assets_root) parser.add_argument("--device", type=str, default="cuda") parser.add_argument("--port", type=int, default=8000) parser.add_argument("--inbrowser", action="store_true") parser.add_argument("--line_length", type=int, default=None) parser.add_argument("--line_count", type=int, default=None) -parser.add_argument( - "--dir", "-d", type=str, help="Model directory", default=assets_root -) args = parser.parse_args() device = args.device diff --git a/server_fastapi.py b/server_fastapi.py index 3c9d31e68..dbae8c7fb 100644 --- a/server_fastapi.py +++ b/server_fastapi.py @@ -20,7 +20,7 @@ from fastapi.responses import FileResponse, Response from scipy.io import wavfile -from config import config +from config import get_config from style_bert_vits2.constants import ( DEFAULT_ASSIST_TEXT_WEIGHT, DEFAULT_LENGTH, @@ -40,6 +40,7 @@ from style_bert_vits2.tts_model import TTSModel, TTSModelHolder +config = get_config() ln = config.server_config.language @@ -113,6 +114,9 @@ def load_models(model_holder: TTSModelHolder): load_models(model_holder) limit = config.server_config.limit + logger.info( + f"The maximum length of the text is {limit}. If you want to change it, modify config.yml" + ) app = FastAPI() allow_origins = config.server_config.origins if allow_origins: diff --git a/slice.py b/slice.py index c4b2292fd..bf28bf651 100644 --- a/slice.py +++ b/slice.py @@ -10,6 +10,7 @@ import yaml from tqdm import tqdm +from config import get_path_config from style_bert_vits2.logging import logger from style_bert_vits2.utils.stdout_wrapper import SAFE_STDOUT @@ -150,13 +151,12 @@ def split_wav( ) args = parser.parse_args() - with open(Path("configs/paths.yml"), "r", encoding="utf-8") as f: - path_config: dict[str, str] = yaml.safe_load(f.read()) - dataset_root = path_config["dataset_root"] + path_config = get_path_config() + dataset_root = path_config.dataset_root model_name = str(args.model_name) input_dir = Path(args.input_dir) - output_dir = Path(dataset_root) / model_name / "raw" + output_dir = dataset_root / model_name / "raw" min_sec: float = args.min_sec max_sec: float = args.max_sec min_silence_dur_ms: int = args.min_silence_dur_ms diff --git a/speech_mos.py b/speech_mos.py index 453b7d313..c7a6a25a7 100644 --- a/speech_mos.py +++ b/speech_mos.py @@ -10,7 +10,7 @@ import torch from tqdm import tqdm -from config import config +from config import get_path_config from style_bert_vits2.logging import logger from style_bert_vits2.tts_model import TTSModel @@ -35,6 +35,8 @@ "この分野の最新の研究成果を使うと、より自然で表現豊かな音声の生成が可能である。深層学習の応用により、感情やアクセントを含む声質の微妙な変化も再現することが出来る。", ] +path_config = get_path_config() + predictor = torch.hub.load( "tarepan/SpeechMOS:v1.2.0", "utmos22_strong", trust_repo=True ) @@ -48,17 +50,16 @@ model_name: str = args.model_name device: str = args.device -model_path = Path(config.assets_root) / model_name - +model_path = path_config.assets_root / model_name # .safetensorsファイルを検索 safetensors_files = model_path.glob("*.safetensors") def get_model(model_file: Path): return TTSModel( - model_path=str(model_file), - config_path=str(model_file.parent / "config.json"), - style_vec_path=str(model_file.parent / "style_vectors.npy"), + model_path=model_file, + config_path=model_file.parent / "config.json", + style_vec_path=model_file.parent / "style_vectors.npy", device=device, ) diff --git a/style_bert_vits2/constants.py b/style_bert_vits2/constants.py index 58b6441a6..b1987d8b7 100644 --- a/style_bert_vits2/constants.py +++ b/style_bert_vits2/constants.py @@ -4,7 +4,7 @@ # Style-Bert-VITS2 のバージョン -VERSION = "2.4.1" +VERSION = "2.5.0" # Style-Bert-VITS2 のベースディレクトリ BASE_DIR = Path(__file__).parent.parent diff --git a/style_gen.py b/style_gen.py index a21ab2b33..2293e222f 100644 --- a/style_gen.py +++ b/style_gen.py @@ -8,12 +8,14 @@ from pyannote.audio import Inference, Model from tqdm import tqdm -from config import config +from config import get_config from style_bert_vits2.logging import logger from style_bert_vits2.models.hyper_parameters import HyperParameters from style_bert_vits2.utils.stdout_wrapper import SAFE_STDOUT +config = get_config() + model = Model.from_pretrained("pyannote/wespeaker-voxceleb-resnet34-LM") inference = Inference(model, window="whole") device = torch.device(config.style_gen_config.device) diff --git a/train_ms.py b/train_ms.py index 067a6a571..152f8ed0b 100644 --- a/train_ms.py +++ b/train_ms.py @@ -16,7 +16,7 @@ # logging.getLogger("numba").setLevel(logging.WARNING) import default_style -from config import config +from config import get_config from data_utils import ( DistributedBucketSampler, TextAudioSpeakerCollate, @@ -48,7 +48,7 @@ ) # Not available if torch version is lower than 2.0 torch.backends.cuda.enable_math_sdp(True) - +config = get_config() global_step = 0 api = HfApi() diff --git a/train_ms_jp_extra.py b/train_ms_jp_extra.py index ad3d3bd92..93461282f 100644 --- a/train_ms_jp_extra.py +++ b/train_ms_jp_extra.py @@ -16,7 +16,7 @@ # logging.getLogger("numba").setLevel(logging.WARNING) import default_style -from config import config +from config import get_config from data_utils import ( DistributedBucketSampler, TextAudioSpeakerCollate, @@ -48,6 +48,8 @@ torch.backends.cuda.enable_mem_efficient_sdp( True ) # Not available if torch version is lower than 2.0 + +config = get_config() global_step = 0 api = HfApi() diff --git a/transcribe.py b/transcribe.py index 898fdc98e..c7aa49360 100644 --- a/transcribe.py +++ b/transcribe.py @@ -8,6 +8,7 @@ from torch.utils.data import Dataset from tqdm import tqdm +from config import get_path_config from style_bert_vits2.constants import Languages from style_bert_vits2.logging import logger from style_bert_vits2.utils.stdout_wrapper import SAFE_STDOUT @@ -124,9 +125,8 @@ def transcribe_files_with_hf_whisper( parser.add_argument("--no_repeat_ngram_size", type=int, default=10) args = parser.parse_args() - with open(os.path.join("configs", "paths.yml"), "r", encoding="utf-8") as f: - path_config: dict[str, str] = yaml.safe_load(f.read()) - dataset_root = Path(path_config["dataset_root"]) + path_config = get_path_config() + dataset_root = path_config.dataset_root model_name = str(args.model_name) From 0c87c6ffd42babc50475f43b0b38caf7c49e2b87 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 25 May 2024 15:58:19 +0900 Subject: [PATCH 02/50] Clean, and fix tensorboard protobuf bug --- requirements.txt | 10 ---------- 1 file changed, 10 deletions(-) diff --git a/requirements.txt b/requirements.txt index 68a4fee6e..3ddff0b4e 100644 --- a/requirements.txt +++ b/requirements.txt @@ -8,24 +8,14 @@ jieba langid librosa==0.9.2 loguru -matplotlib num2words -numba -numpy protobuf==4.25 psutil pyannote.audio>=3.1.0 -pydantic>=2.0 pyloudnorm -# pyopenjtalk-prebuilt # Should be manually uninstalled pyopenjtalk-dict pypinyin pyworld-prebuilt -PyYAML -requests -safetensors -scipy tensorboard -torch>=2.1 transformers umap-learn From 175aa62a26059c692b9d0bcf823a1b3970bf23e1 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 25 May 2024 17:14:28 +0900 Subject: [PATCH 03/50] Feat: make style vectors w.r.t. subdirs structure --- default_style.py | 63 +++++++++++++++++++++++++++++++++++++- train_ms.py | 37 +++++++++------------- train_ms_jp_extra.py | 73 +++++++++++++++++++------------------------- 3 files changed, 109 insertions(+), 64 deletions(-) diff --git a/default_style.py b/default_style.py index 3897cb05b..de2856436 100644 --- a/default_style.py +++ b/default_style.py @@ -9,7 +9,7 @@ def set_style_config(json_path: Path, output_path: Path): - with open(json_path, "r", encoding="utf-8") as f: + with open(json_path, encoding="utf-8") as f: json_dict = json.load(f) json_dict["data"]["num_styles"] = 1 json_dict["data"]["style2id"] = {DEFAULT_STYLE: 0} @@ -21,6 +21,7 @@ def set_style_config(json_path: Path, output_path: Path): def save_neutral_vector(wav_dir: Union[Path, str], output_path: Union[Path, str]): wav_dir = Path(wav_dir) output_path = Path(output_path) + json_path = output_path / "config.json" embs = [] for file in wav_dir.rglob("*.npy"): xvec = np.load(file) @@ -31,3 +32,63 @@ def save_neutral_vector(wav_dir: Union[Path, str], output_path: Union[Path, str] only_mean = np.stack([mean]) # (1, 256) np.save(output_path, only_mean) logger.info(f"Saved mean style vector to {output_path}") + + with open(json_path, "r", encoding="utf-8") as f: + json_dict = json.load(f) + json_dict["data"]["num_styles"] = 1 + json_dict["data"]["style2id"] = {DEFAULT_STYLE: 0} + with open(json_path, "w", encoding="utf-8") as f: + json.dump(json_dict, f, indent=2, ensure_ascii=False) + logger.info(f"Saved style config to {json_path}") + + +def save_styles_by_dirs(wav_dir: Union[Path, str], output_dir: Union[Path, str]): + wav_dir = Path(wav_dir) + output_dir = Path(output_dir) + output_dir.mkdir(parents=True, exist_ok=True) + json_path = output_dir / "config.json" + + subdirs = [d for d in wav_dir.iterdir() if d.is_dir()] + subdirs.sort() + if len(subdirs) in (0, 1): + logger.warning("No style directories found. Saving only neutral style.") + save_neutral_vector(wav_dir, output_dir) + + # First get mean of all for Neutral + embs = [] + for file in wav_dir.rglob("*.npy"): + xvec = np.load(file) + embs.append(np.expand_dims(xvec, axis=0)) + x = np.concatenate(embs, axis=0) # (N, 256) + mean = np.mean(x, axis=0) # (256,) + style_vectors = [mean] + + names = [DEFAULT_STYLE] + for style_dir in subdirs: + npy_files = list(style_dir.rglob("*.npy")) + if not npy_files: + continue + embs = [] + for file in npy_files: + xvec = np.load(file) + embs.append(np.expand_dims(xvec, axis=0)) + + x = np.concatenate(embs, axis=0) # (N, 256) + mean = np.mean(x, axis=0) # (256,) + style_vectors.append(mean) + names.append(style_dir.name) + + # Stack them to make (num_styles, 256) + style_vectors_npy = np.stack(style_vectors, axis=0) + np.save(output_dir / "style_vectors.npy", style_vectors_npy) + logger.info(f"Saved style vectors to {output_dir / 'style_vectors.npy'}") + + # Save style2id config to json + style2id = {name: i for i, name in enumerate(names)} + with open(json_path, "r", encoding="utf-8") as f: + json_dict = json.load(f) + json_dict["data"]["num_styles"] = len(names) + json_dict["data"]["style2id"] = style2id + with open(json_path, "w", encoding="utf-8") as f: + json.dump(json_dict, f, indent=2, ensure_ascii=False) + logger.info(f"Saved style config to {json_path}") diff --git a/train_ms.py b/train_ms.py index 152f8ed0b..930e8c3c5 100644 --- a/train_ms.py +++ b/train_ms.py @@ -108,7 +108,7 @@ def run(): envs = config.train_ms_config.env for env_name, env_value in envs.items(): if env_name not in os.environ.keys(): - logger.info("Loading configuration from config {}".format(str(env_value))) + logger.info(f"Loading configuration from config {env_value!s}") os.environ[env_name] = str(env_value) logger.info( "Loading environment variables \nMASTER_ADDR: {},\nMASTER_PORT: {},\nWORLD_SIZE: {},\nRANK: {},\nLOCAL_RANK: {}".format( @@ -142,7 +142,7 @@ def run(): if os.path.realpath(args.config) != os.path.realpath( config.train_ms_config.config_path ): - with open(args.config, "r", encoding="utf-8") as f: + with open(args.config, encoding="utf-8") as f: data = f.read() os.makedirs(os.path.dirname(config.train_ms_config.config_path), exist_ok=True) with open(config.train_ms_config.config_path, "w", encoding="utf-8") as f: @@ -192,13 +192,9 @@ def run(): os.makedirs(config.out_dir, exist_ok=True) if not args.skip_default_style: - # Save default style to out_dir - default_style.set_style_config( - args.config, os.path.join(config.out_dir, "config.json") - ) - default_style.save_neutral_vector( + default_style.save_styles_by_dirs( os.path.join(args.model, "wavs"), - os.path.join(config.out_dir, "style_vectors.npy"), + config.out_dir, ) torch.manual_seed(hps.train.seed) @@ -505,7 +501,7 @@ def lr_lambda(epoch): optim_g, hps.train.learning_rate, epoch, - os.path.join(model_dir, "G_{}.pth".format(global_step)), + os.path.join(model_dir, f"G_{global_step}.pth"), ) assert optim_d is not None utils.checkpoints.save_checkpoint( @@ -513,7 +509,7 @@ def lr_lambda(epoch): optim_d, hps.train.learning_rate, epoch, - os.path.join(model_dir, "D_{}.pth".format(global_step)), + os.path.join(model_dir, f"D_{global_step}.pth"), ) if net_dur_disc is not None: assert optim_dur_disc is not None @@ -522,7 +518,7 @@ def lr_lambda(epoch): optim_dur_disc, hps.train.learning_rate, epoch, - os.path.join(model_dir, "DUR_{}.pth".format(global_step)), + os.path.join(model_dir, f"DUR_{global_step}.pth"), ) utils.safetensors.save_safetensors( net_g, @@ -757,14 +753,12 @@ def train_and_evaluate( "loss/g/kl": loss_kl, } ) + scalar_dict.update({f"loss/g/{i}": v for i, v in enumerate(losses_gen)}) scalar_dict.update( - {"loss/g/{}".format(i): v for i, v in enumerate(losses_gen)} - ) - scalar_dict.update( - {"loss/d_r/{}".format(i): v for i, v in enumerate(losses_disc_r)} + {f"loss/d_r/{i}": v for i, v in enumerate(losses_disc_r)} ) scalar_dict.update( - {"loss/d_g/{}".format(i): v for i, v in enumerate(losses_disc_g)} + {f"loss/d_g/{i}": v for i, v in enumerate(losses_disc_g)} ) image_dict = { @@ -801,14 +795,14 @@ def train_and_evaluate( optim_g, hps.train.learning_rate, epoch, - os.path.join(hps.model_dir, "G_{}.pth".format(global_step)), + os.path.join(hps.model_dir, f"G_{global_step}.pth"), ) utils.checkpoints.save_checkpoint( net_d, optim_d, hps.train.learning_rate, epoch, - os.path.join(hps.model_dir, "D_{}.pth".format(global_step)), + os.path.join(hps.model_dir, f"D_{global_step}.pth"), ) if net_dur_disc is not None: utils.checkpoints.save_checkpoint( @@ -816,7 +810,7 @@ def train_and_evaluate( optim_dur_disc, hps.train.learning_rate, epoch, - os.path.join(hps.model_dir, "DUR_{}.pth".format(global_step)), + os.path.join(hps.model_dir, f"DUR_{global_step}.pth"), ) keep_ckpts = config.train_ms_config.keep_ckpts if keep_ckpts > 0: @@ -853,9 +847,7 @@ def train_and_evaluate( global_step += 1 if pbar is not None: pbar.set_description( - "Epoch {}({:.0f}%)/{}".format( - epoch, 100.0 * batch_idx / len(train_loader), hps.train.epochs - ) + f"Epoch {epoch}({100.0 * batch_idx / len(train_loader):.0f}%)/{hps.train.epochs}" ) pbar.update() # 本家ではこれをスピードアップのために消すと書かれていたので、一応消してみる @@ -870,6 +862,7 @@ def evaluate(hps, generator, eval_loader, writer_eval): generator.eval() image_dict = {} audio_dict = {} + print() logger.info("Evaluating ...") with torch.no_grad(): for batch_idx, ( diff --git a/train_ms_jp_extra.py b/train_ms_jp_extra.py index 93461282f..cdc46b2f2 100644 --- a/train_ms_jp_extra.py +++ b/train_ms_jp_extra.py @@ -109,7 +109,7 @@ def run(): envs = config.train_ms_config.env for env_name, env_value in envs.items(): if env_name not in os.environ.keys(): - logger.info("Loading configuration from config {}".format(str(env_value))) + logger.info(f"Loading configuration from config {env_value!s}") os.environ[env_name] = str(env_value) logger.info( "Loading environment variables \nMASTER_ADDR: {},\nMASTER_PORT: {},\nWORLD_SIZE: {},\nRANK: {},\nLOCAL_RANK: {}".format( @@ -143,7 +143,7 @@ def run(): if os.path.realpath(args.config) != os.path.realpath( config.train_ms_config.config_path ): - with open(args.config, "r", encoding="utf-8") as f: + with open(args.config, encoding="utf-8") as f: data = f.read() os.makedirs(os.path.dirname(config.train_ms_config.config_path), exist_ok=True) with open(config.train_ms_config.config_path, "w", encoding="utf-8") as f: @@ -193,13 +193,9 @@ def run(): os.makedirs(config.out_dir, exist_ok=True) if not args.skip_default_style: - # Save default style to out_dir - default_style.set_style_config( - args.config, os.path.join(config.out_dir, "config.json") - ) - default_style.save_neutral_vector( + default_style.save_styles_by_dirs( os.path.join(args.model, "wavs"), - os.path.join(config.out_dir, "style_vectors.npy"), + config.out_dir, ) torch.manual_seed(hps.train.seed) @@ -215,24 +211,25 @@ def run(): writer = SummaryWriter(log_dir=model_dir) writer_eval = SummaryWriter(log_dir=os.path.join(model_dir, "eval")) train_dataset = TextAudioSpeakerLoader(hps.data.training_files, hps.data) - train_sampler = DistributedBucketSampler( - train_dataset, - hps.train.batch_size, - [32, 300, 400, 500, 600, 700, 800, 900, 1000], - num_replicas=n_gpus, - rank=rank, - shuffle=True, - ) + # train_sampler = DistributedBucketSampler( + # train_dataset, + # hps.train.batch_size, + # [32, 300, 400, 500, 600, 700, 800, 900, 1000], + # num_replicas=n_gpus, + # rank=rank, + # shuffle=True, + # ) collate_fn = TextAudioSpeakerCollate(use_jp_extra=True) train_loader = DataLoader( train_dataset, # メモリ消費量を減らそうとnum_workersを1にしてみる # num_workers=min(config.train_ms_config.num_workers, os.cpu_count() // 2), num_workers=1, - shuffle=False, + shuffle=True, pin_memory=True, collate_fn=collate_fn, - batch_sampler=train_sampler, + # batch_sampler=train_sampler, + batch_size=hps.train.batch_size, persistent_workers=True, # これもメモリ消費量を減らそうとしてコメントアウト # prefetch_factor=6, @@ -579,7 +576,7 @@ def lr_lambda(epoch): optim_g, hps.train.learning_rate, epoch, - os.path.join(model_dir, "G_{}.pth".format(global_step)), + os.path.join(model_dir, f"G_{global_step}.pth"), ) assert optim_d is not None utils.checkpoints.save_checkpoint( @@ -587,7 +584,7 @@ def lr_lambda(epoch): optim_d, hps.train.learning_rate, epoch, - os.path.join(model_dir, "D_{}.pth".format(global_step)), + os.path.join(model_dir, f"D_{global_step}.pth"), ) if net_dur_disc is not None: assert optim_dur_disc is not None @@ -596,7 +593,7 @@ def lr_lambda(epoch): optim_dur_disc, hps.train.learning_rate, epoch, - os.path.join(model_dir, "DUR_{}.pth".format(global_step)), + os.path.join(model_dir, f"DUR_{global_step}.pth"), ) if net_wd is not None: assert optim_wd is not None @@ -605,7 +602,7 @@ def lr_lambda(epoch): optim_wd, hps.train.learning_rate, epoch, - os.path.join(model_dir, "WD_{}.pth".format(global_step)), + os.path.join(model_dir, f"WD_{global_step}.pth"), ) utils.safetensors.save_safetensors( net_g, @@ -663,7 +660,7 @@ def train_and_evaluate( if writers is not None: writer, writer_eval = writers - train_loader.batch_sampler.set_epoch(epoch) + # train_loader.batch_sampler.set_epoch(epoch) global global_step net_g.train() @@ -869,14 +866,12 @@ def train_and_evaluate( "loss/g/kl": loss_kl, } ) + scalar_dict.update({f"loss/g/{i}": v for i, v in enumerate(losses_gen)}) scalar_dict.update( - {"loss/g/{}".format(i): v for i, v in enumerate(losses_gen)} + {f"loss/d_r/{i}": v for i, v in enumerate(losses_disc_r)} ) scalar_dict.update( - {"loss/d_r/{}".format(i): v for i, v in enumerate(losses_disc_r)} - ) - scalar_dict.update( - {"loss/d_g/{}".format(i): v for i, v in enumerate(losses_disc_g)} + {f"loss/d_g/{i}": v for i, v in enumerate(losses_disc_g)} ) if net_dur_disc is not None: @@ -884,23 +879,20 @@ def train_and_evaluate( scalar_dict.update( { - "loss/dur_disc_g/{}".format(i): v + f"loss/dur_disc_g/{i}": v for i, v in enumerate(losses_dur_disc_g) } ) scalar_dict.update( { - "loss/dur_disc_r/{}".format(i): v + f"loss/dur_disc_r/{i}": v for i, v in enumerate(losses_dur_disc_r) } ) scalar_dict.update({"loss/g/dur_gen": loss_dur_gen}) scalar_dict.update( - { - "loss/g/dur_gen_{}".format(i): v - for i, v in enumerate(losses_dur_gen) - } + {f"loss/g/dur_gen_{i}": v for i, v in enumerate(losses_dur_gen)} ) if net_wd is not None: @@ -945,14 +937,14 @@ def train_and_evaluate( optim_g, hps.train.learning_rate, epoch, - os.path.join(hps.model_dir, "G_{}.pth".format(global_step)), + os.path.join(hps.model_dir, f"G_{global_step}.pth"), ) utils.checkpoints.save_checkpoint( net_d, optim_d, hps.train.learning_rate, epoch, - os.path.join(hps.model_dir, "D_{}.pth".format(global_step)), + os.path.join(hps.model_dir, f"D_{global_step}.pth"), ) if net_dur_disc is not None: utils.checkpoints.save_checkpoint( @@ -960,7 +952,7 @@ def train_and_evaluate( optim_dur_disc, hps.train.learning_rate, epoch, - os.path.join(hps.model_dir, "DUR_{}.pth".format(global_step)), + os.path.join(hps.model_dir, f"DUR_{global_step}.pth"), ) if net_wd is not None: utils.checkpoints.save_checkpoint( @@ -968,7 +960,7 @@ def train_and_evaluate( optim_wd, hps.train.learning_rate, epoch, - os.path.join(hps.model_dir, "WD_{}.pth".format(global_step)), + os.path.join(hps.model_dir, f"WD_{global_step}.pth"), ) keep_ckpts = config.train_ms_config.keep_ckpts if keep_ckpts > 0: @@ -1006,9 +998,7 @@ def train_and_evaluate( global_step += 1 if pbar is not None: pbar.set_description( - "Epoch {}({:.0f}%)/{}".format( - epoch, 100.0 * batch_idx / len(train_loader), hps.train.epochs - ) + f"Epoch {epoch}({100.0 * batch_idx / len(train_loader):.0f}%)/{hps.train.epochs}" ) pbar.update() @@ -1022,6 +1012,7 @@ def evaluate(hps, generator, eval_loader, writer_eval): generator.eval() image_dict = {} audio_dict = {} + print() logger.info("Evaluating ...") with torch.no_grad(): for batch_idx, ( From acf93b80ce4457508d1ebfde2a700f06db1727d8 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 25 May 2024 18:13:34 +0900 Subject: [PATCH 04/50] Feat: make style vec by subdirs (for webui) --- gradio_tabs/style_vectors.py | 364 ++++++++++++++++++++++------------- style_gen.py | 5 +- 2 files changed, 236 insertions(+), 133 deletions(-) diff --git a/gradio_tabs/style_vectors.py b/gradio_tabs/style_vectors.py index 90cb04dbc..ad5762689 100644 --- a/gradio_tabs/style_vectors.py +++ b/gradio_tabs/style_vectors.py @@ -11,6 +11,7 @@ from umap import UMAP from config import get_path_config +from default_style import save_styles_by_dirs from style_bert_vits2.constants import DEFAULT_STYLE, GRADIO_THEME from style_bert_vits2.logging import logger @@ -213,7 +214,7 @@ def save_style_vectors_from_clustering(model_name: str, style_names_str: str): logger.info(f"Backup {config_path} to {config_path}.bak") shutil.copy(config_path, f"{config_path}.bak") - with open(config_path, "r", encoding="utf-8") as f: + with open(config_path, encoding="utf-8") as f: json_dict = json.load(f) json_dict["data"]["num_styles"] = len(style_name_list) style_dict = {name: i for i, name in enumerate(style_name_list)} @@ -265,7 +266,7 @@ def save_style_vectors_from_files( logger.info(f"Backup {config_path} to {config_path}.bak") shutil.copy(config_path, f"{config_path}.bak") - with open(config_path, "r", encoding="utf-8") as f: + with open(config_path, encoding="utf-8") as f: json_dict = json.load(f) json_dict["data"]["num_styles"] = len(style_name_list) style_dict = {name: i for i, name in enumerate(style_name_list)} @@ -276,20 +277,98 @@ def save_style_vectors_from_files( return f"成功!\n{style_vector_path}に保存し{config_path}を更新しました。" -how_to_md = f""" -Style-Bert-VITS2でこまかくスタイルを指定して音声合成するには、モデルごとにスタイルベクトルのファイル`style_vectors.npy`を手動で作成する必要があります。 +def save_style_vectors_by_dirs(model_name: str, audio_dir_str: str): + import sys + from concurrent.futures import ThreadPoolExecutor + from multiprocessing import cpu_count + + from tqdm import tqdm + + from style_bert_vits2.utils.stdout_wrapper import SAFE_STDOUT + from style_gen import save_style_vector + + # First generate style vectors for each audio file + + audio_dir = Path(audio_dir_str) + audio_suffixes = [".wav", ".flac", ".mp3", ".ogg", ".opus", ".m4a"] + audio_files = [f for f in audio_dir.rglob("*") if f.suffix in audio_suffixes] + + def process(file: Path): + # f: `test.wav` -> search `test.wav.npy` + if (file.with_name(file.name + ".npy")).exists(): + return file, None + try: + save_style_vector(str(file)) + except Exception as e: + return file, e + return file, None + + with ThreadPoolExecutor(max_workers=cpu_count() // 2) as executor: + _ = list( + tqdm( + executor.map( + process, + audio_files, + ), + total=len(audio_files), + file=SAFE_STDOUT, + desc="Generating style vectors", + ) + ) -ただし、学習の過程で自動的に平均スタイル「{DEFAULT_STYLE}」のみは作成されるので、それをそのまま使うこともできます(その場合はこのWebUIは使いません)。 + result_dir = assets_root / model_name + config_path = result_dir / "config.json" + if not config_path.exists(): + return f"{config_path}が存在しません。" + logger.info(f"Backup {config_path} to {config_path}.bak") + shutil.copy(config_path, f"{config_path}.bak") -このプロセスは学習とは全く関係がないので、何回でも独立して繰り返して試せます。また学習中にもたぶん軽いので動くはずです。 + style_vector_path = result_dir / "style_vectors.npy" + if style_vector_path.exists(): + logger.info(f"Backup {style_vector_path} to {style_vector_path}.bak") + shutil.copy(style_vector_path, f"{style_vector_path}.bak") + save_styles_by_dirs(audio_dir, result_dir) + return f"成功!\n{result_dir}にスタイルベクトルを保存しました。" + + +how_to_md = f""" +Style-Bert-VITS2でこまかくスタイルを指定して音声合成するには、モデルごとにスタイルベクトルのファイル`style_vectors.npy`を作成する必要があります。 + +ただし、学習の過程では自動的に、平均スタイル「{DEFAULT_STYLE}」と、(**Ver 2.5.0以降からは**)音声をサブフォルダに分けていた場合はそのサブフォルダごとのスタイルが保存されています。 ## 方法 +- 方法0: 音声を作りたいスタイルごとのサブフォルダに分け、そのフォルダごとにスタイルベクトルを作成 - 方法1: 音声ファイルを自動でスタイル別に分け、その各スタイルの平均を取って保存 - 方法2: スタイルを代表する音声ファイルを手動で選んで、その音声のスタイルベクトルを保存 - 方法3: 自分でもっと頑張ってこだわって作る(JVNVコーパスなど、もともとスタイルラベル等が利用可能な場合はこれがよいかも) """ +method0 = """ +音声をスタイルごとにサブフォルダを作り、その中に音声ファイルを入れてください。 + +**注意** + +- Ver 2.5.0以降では、raw/フォルダにサブディレクトリに分けて音声ファイルを入れるだけで、スタイルベクトルが自動で作成されるので、この手順は不要です。 +- それ未満のバージョンで学習したモデルに新しくスタイルベクトルをつけたい場合や、学習に使ったのとは別の音声でスタイルベクトルを作成したい場合に使います。 +- 学習との整合性のため、もし**現在学習中や、今後学習する予定がある場合は**、音声ファイルは、`Data/{モデル名}/wavs`フォルダではなく**新しい別のディレクトリに保存してください**。 + +例: + +```bash +audio_dir +├── style1 +│ ├── audio1.wav +│ ├── audio2.wav +│ └── ... +├── style2 +│ ├── audio1.wav +│ ├── audio2.wav +│ └── ... +└── ... +``` +""" + method1 = f""" 学習の時に取り出したスタイルベクトルを読み込んで、可視化を見ながらスタイルを分けていきます。 @@ -325,138 +404,163 @@ def create_style_vectors_app(): with gr.Blocks(theme=GRADIO_THEME) as app: with gr.Accordion("使い方", open=False): gr.Markdown(how_to_md) - with gr.Row(): - model_name = gr.Textbox(placeholder="your_model_name", label="モデル名") - reduction_method = gr.Radio( - choices=["UMAP", "t-SNE"], - label="次元削減方法", - info="v 1.3以前はt-SNEでしたがUMAPのほうがよい可能性もあります。", - value="UMAP", + model_name = gr.Textbox(placeholder="your_model_name", label="モデル名") + with gr.Tab("方法0: サブフォルダごとにスタイルベクトルを作成"): + gr.Markdown(method0) + audio_dir = gr.Textbox( + placeholder="path/to/audio_dir", + label="音声が入っているフォルダ", + info="音声ファイルをスタイルごとにサブフォルダに分けて保存してください。", ) - load_button = gr.Button("スタイルベクトルを読み込む", variant="primary") - output = gr.Plot(label="音声スタイルの可視化") - load_button.click(load, inputs=[model_name, reduction_method], outputs=[output]) - with gr.Tab("方法1: スタイル分けを自動で行う"): - with gr.Tab("スタイル分け1"): - n_clusters = gr.Slider( - minimum=2, - maximum=10, - step=1, - value=4, - label="作るスタイルの数(平均スタイルを除く)", - info="上の図を見ながらスタイルの数を試行錯誤してください。", - ) - c_method = gr.Radio( - choices=[ - "Agglomerative after reduction", - "KMeans after reduction", - "Agglomerative", - "KMeans", - ], - label="アルゴリズム", - info="分類する(クラスタリング)アルゴリズムを選択します。いろいろ試してみてください。", - value="Agglomerative after reduction", - ) - c_button = gr.Button("スタイル分けを実行") - with gr.Tab("スタイル分け2: DBSCAN"): - gr.Markdown(dbscan_md) - eps = gr.Slider( - minimum=0.1, - maximum=10, - step=0.01, - value=0.3, - label="eps", - ) - min_samples = gr.Slider( - minimum=1, - maximum=50, - step=1, - value=15, - label="min_samples", - ) - with gr.Row(): - dbscan_button = gr.Button("スタイル分けを実行") - num_styles_result = gr.Textbox(label="スタイル数") - gr.Markdown("スタイル分けの結果") - gr.Markdown( - "注意: もともと256次元なものをを2次元に落としているので、正確なベクトルの位置関係ではありません。" + method0_btn = gr.Button("スタイルベクトルを作成", variant="primary") + method0_info = gr.Textbox(label="結果") + method0_btn.click( + save_style_vectors_by_dirs, + inputs=[model_name, audio_dir], + outputs=[method0_info], ) + with gr.Tab("その他の方法"): with gr.Row(): - gr_plot = gr.Plot() - with gr.Column(): - with gr.Row(): - cluster_index = gr.Slider( - minimum=1, - maximum=MAX_CLUSTER_NUM, - step=1, - value=1, - label="スタイル番号", - info="選択したスタイルの代表音声を表示します。", - ) - num_files = gr.Slider( - minimum=1, - maximum=MAX_AUDIO_NUM, - step=1, - value=5, - label="代表音声の数をいくつ表示するか", - ) - get_audios_button = gr.Button("代表音声を取得") - with gr.Row(): - audio_list = [] - for i in range(MAX_AUDIO_NUM): - audio_list.append(gr.Audio(visible=False, show_label=True)) - c_button.click( - do_clustering_gradio, - inputs=[n_clusters, c_method], - outputs=[gr_plot, cluster_index] + audio_list, - ) - dbscan_button.click( - do_dbscan_gradio, - inputs=[eps, min_samples], - outputs=[gr_plot, cluster_index, num_styles_result] + audio_list, + reduction_method = gr.Radio( + choices=["UMAP", "t-SNE"], + label="次元削減方法", + info="v 1.3以前はt-SNEでしたがUMAPのほうがよい可能性もあります。", + value="UMAP", ) - get_audios_button.click( - representative_wav_files_gradio, - inputs=[cluster_index, num_files], - outputs=audio_list, - ) - gr.Markdown("結果が良さそうなら、これを保存します。") - style_names = gr.Textbox( - "Angry, Sad, Happy", - label="スタイルの名前", - info=f"スタイルの名前を`,`で区切って入力してください(日本語可)。例: `Angry, Sad, Happy`や`怒り, 悲しみ, 喜び`など。平均音声は{DEFAULT_STYLE}として自動的に保存されます。", - ) - with gr.Row(): - save_button1 = gr.Button("スタイルベクトルを保存", variant="primary") - info2 = gr.Textbox(label="保存結果") - - save_button1.click( - save_style_vectors_from_clustering, - inputs=[model_name, style_names], - outputs=[info2], - ) - with gr.Tab("方法2: 手動でスタイルを選ぶ"): - gr.Markdown( - "下のテキスト欄に、各スタイルの代表音声のファイル名を`,`区切りで、その横に対応するスタイル名を`,`区切りで入力してください。" + load_button = gr.Button("スタイルベクトルを読み込む", variant="primary") + output = gr.Plot(label="音声スタイルの可視化") + load_button.click( + load, inputs=[model_name, reduction_method], outputs=[output] ) - gr.Markdown("例: `angry.wav, sad.wav, happy.wav`と`Angry, Sad, Happy`") - gr.Markdown( - f"注意: {DEFAULT_STYLE}スタイルは自動的に保存されます、手動では{DEFAULT_STYLE}という名前のスタイルは指定しないでください。" - ) - with gr.Row(): - audio_files_text = gr.Textbox( - label="音声ファイル名", placeholder="angry.wav, sad.wav, happy.wav" + with gr.Tab("方法1: スタイル分けを自動で行う"): + with gr.Tab("スタイル分け1"): + n_clusters = gr.Slider( + minimum=2, + maximum=10, + step=1, + value=4, + label="作るスタイルの数(平均スタイルを除く)", + info="上の図を見ながらスタイルの数を試行錯誤してください。", + ) + c_method = gr.Radio( + choices=[ + "Agglomerative after reduction", + "KMeans after reduction", + "Agglomerative", + "KMeans", + ], + label="アルゴリズム", + info="分類する(クラスタリング)アルゴリズムを選択します。いろいろ試してみてください。", + value="Agglomerative after reduction", + ) + c_button = gr.Button("スタイル分けを実行") + with gr.Tab("スタイル分け2: DBSCAN"): + gr.Markdown(dbscan_md) + eps = gr.Slider( + minimum=0.1, + maximum=10, + step=0.01, + value=0.3, + label="eps", + ) + min_samples = gr.Slider( + minimum=1, + maximum=50, + step=1, + value=15, + label="min_samples", + ) + with gr.Row(): + dbscan_button = gr.Button("スタイル分けを実行") + num_styles_result = gr.Textbox(label="スタイル数") + gr.Markdown("スタイル分けの結果") + gr.Markdown( + "注意: もともと256次元なものをを2次元に落としているので、正確なベクトルの位置関係ではありません。" ) - style_names_text = gr.Textbox( - label="スタイル名", placeholder="Angry, Sad, Happy" + with gr.Row(): + gr_plot = gr.Plot() + with gr.Column(): + with gr.Row(): + cluster_index = gr.Slider( + minimum=1, + maximum=MAX_CLUSTER_NUM, + step=1, + value=1, + label="スタイル番号", + info="選択したスタイルの代表音声を表示します。", + ) + num_files = gr.Slider( + minimum=1, + maximum=MAX_AUDIO_NUM, + step=1, + value=5, + label="代表音声の数をいくつ表示するか", + ) + get_audios_button = gr.Button("代表音声を取得") + with gr.Row(): + audio_list = [] + for i in range(MAX_AUDIO_NUM): + audio_list.append( + gr.Audio(visible=False, show_label=True) + ) + c_button.click( + do_clustering_gradio, + inputs=[n_clusters, c_method], + outputs=[gr_plot, cluster_index] + audio_list, + ) + dbscan_button.click( + do_dbscan_gradio, + inputs=[eps, min_samples], + outputs=[gr_plot, cluster_index, num_styles_result] + + audio_list, + ) + get_audios_button.click( + representative_wav_files_gradio, + inputs=[cluster_index, num_files], + outputs=audio_list, + ) + gr.Markdown("結果が良さそうなら、これを保存します。") + style_names = gr.Textbox( + "Angry, Sad, Happy", + label="スタイルの名前", + info=f"スタイルの名前を`,`で区切って入力してください(日本語可)。例: `Angry, Sad, Happy`や`怒り, 悲しみ, 喜び`など。平均音声は{DEFAULT_STYLE}として自動的に保存されます。", ) - with gr.Row(): - save_button2 = gr.Button("スタイルベクトルを保存", variant="primary") - info2 = gr.Textbox(label="保存結果") - save_button2.click( - save_style_vectors_from_files, - inputs=[model_name, audio_files_text, style_names_text], + with gr.Row(): + save_button1 = gr.Button( + "スタイルベクトルを保存", variant="primary" + ) + info2 = gr.Textbox(label="保存結果") + + save_button1.click( + save_style_vectors_from_clustering, + inputs=[model_name, style_names], outputs=[info2], ) + with gr.Tab("方法2: 手動でスタイルを選ぶ"): + gr.Markdown( + "下のテキスト欄に、各スタイルの代表音声のファイル名を`,`区切りで、その横に対応するスタイル名を`,`区切りで入力してください。" + ) + gr.Markdown("例: `angry.wav, sad.wav, happy.wav`と`Angry, Sad, Happy`") + gr.Markdown( + f"注意: {DEFAULT_STYLE}スタイルは自動的に保存されます、手動では{DEFAULT_STYLE}という名前のスタイルは指定しないでください。" + ) + with gr.Row(): + audio_files_text = gr.Textbox( + label="音声ファイル名", + placeholder="angry.wav, sad.wav, happy.wav", + ) + style_names_text = gr.Textbox( + label="スタイル名", placeholder="Angry, Sad, Happy" + ) + with gr.Row(): + save_button2 = gr.Button( + "スタイルベクトルを保存", variant="primary" + ) + info2 = gr.Textbox(label="保存結果") + save_button2.click( + save_style_vectors_from_files, + inputs=[model_name, audio_files_text, style_names_text], + outputs=[info2], + ) return app diff --git a/style_gen.py b/style_gen.py index 2293e222f..f8b6452fa 100644 --- a/style_gen.py +++ b/style_gen.py @@ -25,7 +25,6 @@ class NaNValueError(ValueError): """カスタム例外クラス。NaN値が見つかった場合に使用されます。""" - pass # 推論時にインポートするために短いが関数を書く @@ -74,7 +73,7 @@ def process_line(line: str): device = config.style_gen_config.device training_lines: list[str] = [] - with open(hps.data.training_files, "r", encoding="utf-8") as f: + with open(hps.data.training_files, encoding="utf-8") as f: training_lines.extend(f.readlines()) with ThreadPoolExecutor(max_workers=num_processes) as executor: training_results = list( @@ -95,7 +94,7 @@ def process_line(line: str): ) val_lines: list[str] = [] - with open(hps.data.validation_files, "r", encoding="utf-8") as f: + with open(hps.data.validation_files, encoding="utf-8") as f: val_lines.extend(f.readlines()) with ThreadPoolExecutor(max_workers=num_processes) as executor: From 2274087da4ed7d456aa6ce57617c4281000421a2 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 25 May 2024 18:15:36 +0900 Subject: [PATCH 05/50] Fmt only (maybe) --- app.py | 2 +- bert_gen.py | 9 +- config.py | 14 +- data_utils.py | 7 +- default_style.py | 6 +- gen_yaml.py | 2 +- gradio_tabs/merge.py | 12 +- gradio_tabs/train.py | 9 +- initialize.py | 4 +- preprocess_text.py | 2 +- pyproject.toml | 74 ++++------ server_editor.py | 2 +- slice.py | 1 - style_bert_vits2/models/hyper_parameters.py | 2 +- style_bert_vits2/models/models.py | 2 +- style_bert_vits2/models/models_jp_extra.py | 2 +- style_bert_vits2/models/utils/__init__.py | 12 +- style_bert_vits2/models/utils/safetensors.py | 2 +- style_bert_vits2/nlp/chinese/g2p.py | 10 +- style_bert_vits2/nlp/chinese/normalizer.py | 2 +- style_bert_vits2/nlp/chinese/tone_sandhi.py | 54 ++++---- style_bert_vits2/nlp/english/cmudict.py | 2 +- style_bert_vits2/nlp/english/g2p.py | 126 ++++++++++++++---- style_bert_vits2/nlp/english/normalizer.py | 2 +- style_bert_vits2/nlp/japanese/g2p.py | 2 - style_bert_vits2/nlp/japanese/normalizer.py | 2 +- .../japanese/pyopenjtalk_worker/__init__.py | 4 +- .../nlp/japanese/user_dict/word_model.py | 2 +- style_bert_vits2/tts_model.py | 2 +- style_bert_vits2/utils/subprocess.py | 1 + style_gen.py | 1 - train_ms_jp_extra.py | 6 +- transcribe.py | 2 - 33 files changed, 216 insertions(+), 166 deletions(-) diff --git a/app.py b/app.py index 2df938622..d363a5720 100644 --- a/app.py +++ b/app.py @@ -4,6 +4,7 @@ import gradio as gr import torch +from config import get_path_config from gradio_tabs.dataset import create_dataset_app from gradio_tabs.inference import create_inference_app from gradio_tabs.merge import create_merge_app @@ -13,7 +14,6 @@ from style_bert_vits2.nlp.japanese import pyopenjtalk_worker from style_bert_vits2.nlp.japanese.user_dict import update_dict from style_bert_vits2.tts_model import TTSModelHolder -from config import get_path_config # このプロセスからはワーカーを起動して辞書を使いたいので、ここで初期化 diff --git a/bert_gen.py b/bert_gen.py index af50b600b..c4995cb16 100644 --- a/bert_gen.py +++ b/bert_gen.py @@ -10,10 +10,7 @@ from style_bert_vits2.logging import logger from style_bert_vits2.models import commons from style_bert_vits2.models.hyper_parameters import HyperParameters -from style_bert_vits2.nlp import ( - cleaned_text_to_sequence, - extract_bert_feature, -) +from style_bert_vits2.nlp import cleaned_text_to_sequence, extract_bert_feature from style_bert_vits2.nlp.japanese import pyopenjtalk_worker from style_bert_vits2.nlp.japanese.user_dict import update_dict from style_bert_vits2.utils.stdout_wrapper import SAFE_STDOUT @@ -77,10 +74,10 @@ def process_line(x: tuple[str, bool]): config_path = args.config hps = HyperParameters.load_from_json(config_path) lines: list[str] = [] - with open(hps.data.training_files, "r", encoding="utf-8") as f: + with open(hps.data.training_files, encoding="utf-8") as f: lines.extend(f.readlines()) - with open(hps.data.validation_files, "r", encoding="utf-8") as f: + with open(hps.data.validation_files, encoding="utf-8") as f: lines.extend(f.readlines()) add_blank = [hps.data.add_blank] * len(lines) diff --git a/config.py b/config.py index 51e05d496..4ce32f8d3 100644 --- a/config.py +++ b/config.py @@ -56,8 +56,13 @@ def __init__( clean: bool = True, ): self.transcription_path = Path(transcription_path) - self.cleaned_path = Path(cleaned_path) self.train_path = Path(train_path) + if cleaned_path == "" or cleaned_path is None: + self.cleaned_path = self.transcription_path.with_name( + self.transcription_path.name + ".cleaned" + ) + else: + self.cleaned_path = Path(cleaned_path) self.val_path = Path(val_path) self.config_path = Path(config_path) self.val_per_lang = val_per_lang @@ -70,7 +75,7 @@ def from_dict(cls, dataset_path: Path, data: dict[str, Any]): data["transcription_path"] = dataset_path / data["transcription_path"] if data["cleaned_path"] == "" or data["cleaned_path"] is None: - data["cleaned_path"] = None + data["cleaned_path"] = "" else: data["cleaned_path"] = dataset_path / data["cleaned_path"] data["train_path"] = dataset_path / data["train_path"] @@ -232,7 +237,7 @@ def __init__(self, config_path: str, path_config: PathConfig): "Please do not modify default_config.yml. Instead, modify config.yml." ) # sys.exit(0) - with open(config_path, "r", encoding="utf-8") as file: + with open(config_path, encoding="utf-8") as file: yaml_config: dict[str, Any] = yaml.safe_load(file.read()) model_name: str = yaml_config["model_name"] self.model_name: str = model_name @@ -241,6 +246,7 @@ def __init__(self, config_path: str, path_config: PathConfig): else: dataset_path = path_config.dataset_root / model_name self.dataset_path = dataset_path + self.dataset_root = path_config.dataset_root self.assets_root = path_config.assets_root self.out_dir = self.assets_root / model_name self.resample_config: Resample_config = Resample_config.from_dict( @@ -284,7 +290,7 @@ def get_path_config() -> PathConfig: logger.info( "Please do not modify configs/default_paths.yml. Instead, modify configs/paths.yml." ) - with open(path_config_path, "r", encoding="utf-8") as file: + with open(path_config_path, encoding="utf-8") as file: path_config_dict: dict[str, str] = yaml.safe_load(file.read()) return PathConfig(**path_config_dict) diff --git a/data_utils.py b/data_utils.py index 73d4303c8..4121e350c 100644 --- a/data_utils.py +++ b/data_utils.py @@ -7,7 +7,7 @@ import torch.utils.data from tqdm import tqdm -from config import config +from config import get_config from mel_processing import mel_spectrogram_torch, spectrogram_torch from style_bert_vits2.logging import logger from style_bert_vits2.models import commons @@ -16,6 +16,7 @@ from style_bert_vits2.nlp import cleaned_text_to_sequence +config = get_config() """Multi speaker version""" @@ -120,9 +121,7 @@ def get_audio(self, filename): audio, sampling_rate = load_wav_to_torch(filename) if sampling_rate != self.sampling_rate: raise ValueError( - "{} {} SR doesn't match target {} SR".format( - filename, sampling_rate, self.sampling_rate - ) + f"{filename} {sampling_rate} SR doesn't match target {self.sampling_rate} SR" ) audio_norm = audio / self.max_wav_value audio_norm = audio_norm.unsqueeze(0) diff --git a/default_style.py b/default_style.py index de2856436..abad90e7e 100644 --- a/default_style.py +++ b/default_style.py @@ -33,7 +33,7 @@ def save_neutral_vector(wav_dir: Union[Path, str], output_path: Union[Path, str] np.save(output_path, only_mean) logger.info(f"Saved mean style vector to {output_path}") - with open(json_path, "r", encoding="utf-8") as f: + with open(json_path, encoding="utf-8") as f: json_dict = json.load(f) json_dict["data"]["num_styles"] = 1 json_dict["data"]["style2id"] = {DEFAULT_STYLE: 0} @@ -50,7 +50,7 @@ def save_styles_by_dirs(wav_dir: Union[Path, str], output_dir: Union[Path, str]) subdirs = [d for d in wav_dir.iterdir() if d.is_dir()] subdirs.sort() - if len(subdirs) in (0, 1): + if not subdirs: logger.warning("No style directories found. Saving only neutral style.") save_neutral_vector(wav_dir, output_dir) @@ -85,7 +85,7 @@ def save_styles_by_dirs(wav_dir: Union[Path, str], output_dir: Union[Path, str]) # Save style2id config to json style2id = {name: i for i, name in enumerate(names)} - with open(json_path, "r", encoding="utf-8") as f: + with open(json_path, encoding="utf-8") as f: json_dict = json.load(f) json_dict["data"]["num_styles"] = len(names) json_dict["data"]["style2id"] = style2id diff --git a/gen_yaml.py b/gen_yaml.py index ac27103ea..18e3115fd 100644 --- a/gen_yaml.py +++ b/gen_yaml.py @@ -22,7 +22,7 @@ def gen_yaml(model_name, dataset_path): if not os.path.exists("config.yml"): shutil.copy(src="default_config.yml", dst="config.yml") - with open("config.yml", "r", encoding="utf-8") as f: + with open("config.yml", encoding="utf-8") as f: yml_data = yaml.safe_load(f) yml_data["model_name"] = model_name yml_data["dataset_path"] = dataset_path diff --git a/gradio_tabs/merge.py b/gradio_tabs/merge.py index c6348ddab..750f310c6 100644 --- a/gradio_tabs/merge.py +++ b/gradio_tabs/merge.py @@ -47,9 +47,9 @@ def merge_style( style_vectors_b = np.load( assets_root / model_name_b / "style_vectors.npy" ) # (style_num_b, 256) - with open(assets_root / model_name_a / "config.json", "r", encoding="utf-8") as f: + with open(assets_root / model_name_a / "config.json", encoding="utf-8") as f: config_a = json.load(f) - with open(assets_root / model_name_b / "config.json", "r", encoding="utf-8") as f: + with open(assets_root / model_name_b / "config.json", encoding="utf-8") as f: config_b = json.load(f) style2id_a = config_a["data"]["style2id"] style2id_b = config_b["data"]["style2id"] @@ -83,7 +83,7 @@ def merge_style( # recipe.jsonを読み込んで、style_triple_listを追記 info_path = assets_root / output_name / "recipe.json" if info_path.exists(): - with open(info_path, "r", encoding="utf-8") as f: + with open(info_path, encoding="utf-8") as f: info = json.load(f) else: info = {} @@ -143,7 +143,7 @@ def merge_models( merged_model_weight = model_a_weight.copy() - for key in model_a_weight.keys(): + for key in model_a_weight: if any([key.startswith(prefix) for prefix in voice_keys]): weight = voice_weight elif any([key.startswith(prefix) for prefix in voice_pitch_keys]): @@ -256,12 +256,12 @@ def update_two_model_names_dropdown(model_holder: TTSModelHolder): def load_styles_gr(model_name_a: str, model_name_b: str): config_path_a = assets_root / model_name_a / "config.json" - with open(config_path_a, "r", encoding="utf-8") as f: + with open(config_path_a, encoding="utf-8") as f: config_a = json.load(f) styles_a = list(config_a["data"]["style2id"].keys()) config_path_b = assets_root / model_name_b / "config.json" - with open(config_path_b, "r", encoding="utf-8") as f: + with open(config_path_b, encoding="utf-8") as f: config_b = json.load(f) styles_b = list(config_b["data"]["style2id"].keys()) diff --git a/gradio_tabs/train.py b/gradio_tabs/train.py index e3b130ed2..82377971c 100644 --- a/gradio_tabs/train.py +++ b/gradio_tabs/train.py @@ -5,13 +5,14 @@ import sys import time import webbrowser +from dataclasses import dataclass from datetime import datetime from multiprocessing import cpu_count from pathlib import Path import gradio as gr import yaml -from dataclasses import dataclass + from config import get_path_config from style_bert_vits2.logging import logger from style_bert_vits2.utils.stdout_wrapper import SAFE_STDOUT @@ -75,7 +76,7 @@ def initialize( "configs/config.json" if not use_jp_extra else "configs/config_jp_extra.json" ) - with open(default_config_path, "r", encoding="utf-8") as f: + with open(default_config_path, encoding="utf-8") as f: config = json.load(f) config["model_name"] = model_name config["data"]["training_files"] = str(paths.train_path) @@ -121,7 +122,7 @@ def initialize( json.dump(config, f, indent=2, ensure_ascii=False) if not Path("config.yml").exists(): shutil.copy(src="default_config.yml", dst="config.yml") - with open("config.yml", "r", encoding="utf-8") as f: + with open("config.yml", encoding="utf-8") as f: yml_data = yaml.safe_load(f) yml_data["model_name"] = model_name yml_data["dataset_path"] = str(paths.dataset_path) @@ -331,7 +332,7 @@ def train( ): paths = get_path(model_name) # 学習再開の場合を考えて念のためconfig.ymlの名前等を更新 - with open("config.yml", "r", encoding="utf-8") as f: + with open("config.yml", encoding="utf-8") as f: yml_data = yaml.safe_load(f) yml_data["model_name"] = model_name yml_data["dataset_path"] = str(paths.dataset_path) diff --git a/initialize.py b/initialize.py index 664d57055..2bb0680db 100644 --- a/initialize.py +++ b/initialize.py @@ -10,7 +10,7 @@ def download_bert_models(): - with open("bert/bert_models.json", "r", encoding="utf-8") as fp: + with open("bert/bert_models.json", encoding="utf-8") as fp: models = json.load(fp) for k, v in models.items(): local_path = Path("bert").joinpath(k) @@ -113,7 +113,7 @@ def main(): return # Change default paths if necessary - with open(paths_yml, "r", encoding="utf-8") as f: + with open(paths_yml, encoding="utf-8") as f: yml_data = yaml.safe_load(f) if args.assets_root is not None: yml_data["assets_root"] = args.assets_root diff --git a/preprocess_text.py b/preprocess_text.py index 99badd406..5120a1f8e 100644 --- a/preprocess_text.py +++ b/preprocess_text.py @@ -145,7 +145,7 @@ def preprocess( spk_utt_map[spk].append(line) # 新しい話者が出てきたら話者IDを割り当て、current_sidを1増やす - if spk not in spk_id_map.keys(): + if spk not in spk_id_map: spk_id_map[spk] = current_sid current_sid += 1 if count_same > 0 or count_not_found > 0: diff --git a/pyproject.toml b/pyproject.toml index 77306ad06..c292b5066 100644 --- a/pyproject.toml +++ b/pyproject.toml @@ -5,7 +5,7 @@ build-backend = "hatchling.build" [project] name = "style-bert-vits2" dynamic = ["version"] -description = 'Style-Bert-VITS2: Bert-VITS2 with more controllable voice styles.' +description = "Style-Bert-VITS2: Bert-VITS2 with more controllable voice styles." readme = "README.md" requires-python = ">=3.9" license = "AGPL-3.0" @@ -22,21 +22,21 @@ classifiers = [ "Programming Language :: Python :: Implementation :: CPython", ] dependencies = [ - 'cmudict', - 'cn2an', - 'g2p_en', - 'jieba', - 'loguru', - 'num2words', - 'numba', - 'numpy', - 'pydantic>=2.0', - 'pyopenjtalk-dict', - 'pypinyin', - 'pyworld-prebuilt', - 'safetensors', - 'torch>=2.1', - 'transformers', + "cmudict", + "cn2an", + "g2p_en", + "jieba", + "loguru", + "num2words", + "numba", + "numpy", + "pydantic>=2.0", + "pyopenjtalk-dict", + "pypinyin", + "pyworld-prebuilt", + "safetensors", + "torch>=2.1", + "transformers", ] [project.urls] @@ -59,42 +59,26 @@ only-include = [ "pyproject.toml", "README.md", ] -exclude = [ - ".git", - ".gitignore", - ".gitattributes", -] +exclude = [".git", ".gitignore", ".gitattributes"] [tool.hatch.build.targets.wheel] packages = ["style_bert_vits2"] [tool.hatch.envs.test] -dependencies = [ - "coverage[toml]>=6.5", - "pytest", -] +dependencies = ["coverage[toml]>=6.5", "pytest"] [tool.hatch.envs.test.scripts] # Usage: `hatch run test:test` test = "pytest {args:tests}" # Usage: `hatch run test:coverage` test-cov = "coverage run -m pytest {args:tests}" # Usage: `hatch run test:cov-report` -cov-report = [ - "- coverage combine", - "coverage report", -] +cov-report = ["- coverage combine", "coverage report"] # Usage: `hatch run test:cov` -cov = [ - "test-cov", - "cov-report", -] +cov = ["test-cov", "cov-report"] [tool.hatch.envs.style] detached = true -dependencies = [ - "black", - "isort", -] +dependencies = ["black", "isort"] [tool.hatch.envs.style.scripts] check = [ "black --check --diff .", @@ -113,17 +97,17 @@ python = ["3.9", "3.10", "3.11"] source_pkgs = ["style_bert_vits2", "tests"] branch = true parallel = true -omit = [ - "style_bert_vits2/constants.py", -] +omit = ["style_bert_vits2/constants.py"] [tool.coverage.paths] style_bert_vits2 = ["style_bert_vits2", "*/style-bert-vits2/style_bert_vits2"] tests = ["tests", "*/style-bert-vits2/tests"] [tool.coverage.report] -exclude_lines = [ - "no cov", - "if __name__ == .__main__.:", - "if TYPE_CHECKING:", -] +exclude_lines = ["no cov", "if __name__ == .__main__.:", "if TYPE_CHECKING:"] + +[tool.ruff] +extend-select = ["I"] + +[tool.ruff.lint.isort] +lines-after-imports = 2 \ No newline at end of file diff --git a/server_editor.py b/server_editor.py index cf70febe0..e0028c1cc 100644 --- a/server_editor.py +++ b/server_editor.py @@ -127,7 +127,7 @@ def download_and_extract(url, extract_to: Path): def new_release_available(latest_release): if LAST_DOWNLOAD_FILE.exists(): - with open(LAST_DOWNLOAD_FILE, "r") as file: + with open(LAST_DOWNLOAD_FILE) as file: last_download_str = file.read().strip() # 'Z'を除去して日時オブジェクトに変換 last_download_str = last_download_str.replace("Z", "+00:00") diff --git a/slice.py b/slice.py index bf28bf651..3f9fcc18f 100644 --- a/slice.py +++ b/slice.py @@ -7,7 +7,6 @@ import soundfile as sf import torch -import yaml from tqdm import tqdm from config import get_path_config diff --git a/style_bert_vits2/models/hyper_parameters.py b/style_bert_vits2/models/hyper_parameters.py index feb6bfbaf..827ce6dea 100644 --- a/style_bert_vits2/models/hyper_parameters.py +++ b/style_bert_vits2/models/hyper_parameters.py @@ -125,5 +125,5 @@ def load_from_json(json_path: Union[str, Path]) -> "HyperParameters": HyperParameters: ハイパーパラメータ """ - with open(json_path, "r", encoding="utf-8") as f: + with open(json_path, encoding="utf-8") as f: return HyperParameters.model_validate_json(f.read()) diff --git a/style_bert_vits2/models/models.py b/style_bert_vits2/models/models.py index 56fb27c62..eaff2fadf 100644 --- a/style_bert_vits2/models/models.py +++ b/style_bert_vits2/models/models.py @@ -786,7 +786,7 @@ def __init__(self, spec_channels: int, gin_channels: int = 0) -> None: for i in range(K) ] self.convs = nn.ModuleList(convs) - # self.wns = nn.ModuleList([weight_norm(num_features=ref_enc_filters[i]) for i in range(K)]) # noqa: E501 + # self.wns = nn.ModuleList([weight_norm(num_features=ref_enc_filters[i]) for i in range(K)]) out_channels = self.calculate_channels(spec_channels, 3, 2, 1, K) self.gru = nn.GRU( diff --git a/style_bert_vits2/models/models_jp_extra.py b/style_bert_vits2/models/models_jp_extra.py index 2850baf20..e8df7d9fa 100644 --- a/style_bert_vits2/models/models_jp_extra.py +++ b/style_bert_vits2/models/models_jp_extra.py @@ -844,7 +844,7 @@ def __init__(self, spec_channels: int, gin_channels: int = 0) -> None: for i in range(K) ] self.convs = nn.ModuleList(convs) - # self.wns = nn.ModuleList([weight_norm(num_features=ref_enc_filters[i]) for i in range(K)]) # noqa: E501 + # self.wns = nn.ModuleList([weight_norm(num_features=ref_enc_filters[i]) for i in range(K)]) out_channels = self.calculate_channels(spec_channels, 3, 2, 1, K) self.gru = nn.GRU( diff --git a/style_bert_vits2/models/utils/__init__.py b/style_bert_vits2/models/utils/__init__.py index 2e750c8b4..b91c74aee 100644 --- a/style_bert_vits2/models/utils/__init__.py +++ b/style_bert_vits2/models/utils/__init__.py @@ -186,7 +186,7 @@ def load_filepaths_and_text( list[list[str]]: ファイルパスとテキストのリスト """ - with open(filename, "r", encoding="utf-8") as f: + with open(filename, encoding="utf-8") as f: filepaths_and_text = [line.strip().split(split) for line in f] return filepaths_and_text @@ -245,9 +245,7 @@ def check_git_hash(model_dir_path: Union[str, Path]) -> None: source_dir = os.path.dirname(os.path.realpath(__file__)) if not os.path.exists(os.path.join(source_dir, ".git")): logger.warning( - "{} is not a git repository, therefore hash value comparison will be ignored.".format( - source_dir - ) + f"{source_dir} is not a git repository, therefore hash value comparison will be ignored." ) return @@ -255,13 +253,11 @@ def check_git_hash(model_dir_path: Union[str, Path]) -> None: path = os.path.join(model_dir_path, "githash") if os.path.exists(path): - with open(path, "r", encoding="utf-8") as f: + with open(path, encoding="utf-8") as f: saved_hash = f.read() if saved_hash != cur_hash: logger.warning( - "git hash values are different. {}(saved) != {}(current)".format( - saved_hash[:8], cur_hash[:8] - ) + f"git hash values are different. {saved_hash[:8]}(saved) != {cur_hash[:8]}(current)" ) else: with open(path, "w", encoding="utf-8") as f: diff --git a/style_bert_vits2/models/utils/safetensors.py b/style_bert_vits2/models/utils/safetensors.py index 52ab115b2..4b4ef3fbd 100644 --- a/style_bert_vits2/models/utils/safetensors.py +++ b/style_bert_vits2/models/utils/safetensors.py @@ -77,7 +77,7 @@ def save_safetensors( keys = [] for k in state_dict: if "enc_q" in k and for_infer: - continue # noqa: E701 + continue keys.append(k) new_dict = ( diff --git a/style_bert_vits2/nlp/chinese/g2p.py b/style_bert_vits2/nlp/chinese/g2p.py index f38e09fa8..1f0894f95 100644 --- a/style_bert_vits2/nlp/chinese/g2p.py +++ b/style_bert_vits2/nlp/chinese/g2p.py @@ -8,7 +8,7 @@ from style_bert_vits2.nlp.symbols import PUNCTUATIONS -with open(Path(__file__).parent / "opencpop-strict.txt", "r", encoding="utf-8") as f: +with open(Path(__file__).parent / "opencpop-strict.txt", encoding="utf-8") as f: __PINYIN_TO_SYMBOL_MAP = { line.split("\t")[0]: line.strip().split("\t")[1] for line in f.readlines() } @@ -73,7 +73,7 @@ def __g2p(segments: list[str]) -> tuple[list[str], list[int], list[int]]: "iou": "iu", "uen": "un", } - if v_without_tone in v_rep_map.keys(): + if v_without_tone in v_rep_map: pinyin = c + v_rep_map[v_without_tone] else: # 单音节 @@ -83,7 +83,7 @@ def __g2p(segments: list[str]) -> tuple[list[str], list[int], list[int]]: "in": "yin", "u": "wu", } - if pinyin in pinyin_rep_map.keys(): + if pinyin in pinyin_rep_map: pinyin = pinyin_rep_map[pinyin] else: single_rep_map = { @@ -92,10 +92,10 @@ def __g2p(segments: list[str]) -> tuple[list[str], list[int], list[int]]: "i": "y", "u": "w", } - if pinyin[0] in single_rep_map.keys(): + if pinyin[0] in single_rep_map: pinyin = single_rep_map[pinyin[0]] + pinyin[1:] - assert pinyin in __PINYIN_TO_SYMBOL_MAP.keys(), ( + assert pinyin in __PINYIN_TO_SYMBOL_MAP, ( pinyin, seg, raw_pinyin, diff --git a/style_bert_vits2/nlp/chinese/normalizer.py b/style_bert_vits2/nlp/chinese/normalizer.py index 8239bc710..c076408dc 100644 --- a/style_bert_vits2/nlp/chinese/normalizer.py +++ b/style_bert_vits2/nlp/chinese/normalizer.py @@ -51,7 +51,7 @@ def normalize_text(text: str) -> str: def replace_punctuation(text: str) -> str: text = text.replace("嗯", "恩").replace("呣", "母") - pattern = re.compile("|".join(re.escape(p) for p in __REPLACE_MAP.keys())) + pattern = re.compile("|".join(re.escape(p) for p in __REPLACE_MAP)) replaced_text = pattern.sub(lambda x: __REPLACE_MAP[x.group()], text) diff --git a/style_bert_vits2/nlp/chinese/tone_sandhi.py b/style_bert_vits2/nlp/chinese/tone_sandhi.py index 552cb0d36..4945ab952 100644 --- a/style_bert_vits2/nlp/chinese/tone_sandhi.py +++ b/style_bert_vits2/nlp/chinese/tone_sandhi.py @@ -471,26 +471,27 @@ def _neural_sandhi(self, word: str, pos: str, finals: list[str]) -> list[str]: ): finals[j] = finals[j][:-1] + "5" ge_idx = word.find("个") - if len(word) >= 1 and word[-1] in "吧呢啊呐噻嘛吖嗨呐哦哒额滴哩哟喽啰耶喔诶": - finals[-1] = finals[-1][:-1] + "5" - elif len(word) >= 1 and word[-1] in "的地得": - finals[-1] = finals[-1][:-1] + "5" - # e.g. 走了, 看着, 去过 - # elif len(word) == 1 and word in "了着过" and pos in {"ul", "uz", "ug"}: - # finals[-1] = finals[-1][:-1] + "5" - elif ( - len(word) > 1 - and word[-1] in "们子" - and pos in {"r", "n"} - and word not in self.must_not_neural_tone_words + if ( + len(word) >= 1 + and word[-1] in "吧呢啊呐噻嘛吖嗨呐哦哒额滴哩哟喽啰耶喔诶" + or len(word) >= 1 + and word[-1] in "的地得" + or ( + ( + len(word) > 1 + and word[-1] in "们子" + and pos in {"r", "n"} + and word not in self.must_not_neural_tone_words + ) + or len(word) > 1 + and word[-1] in "上下里" + and pos in {"s", "l", "f"} + ) + or len(word) > 1 + and word[-1] in "来去" + and word[-2] in "上下进出回过起开" ): finals[-1] = finals[-1][:-1] + "5" - # e.g. 桌上, 地下, 家里 - elif len(word) > 1 and word[-1] in "上下里" and pos in {"s", "l", "f"}: - finals[-1] = finals[-1][:-1] + "5" - # e.g. 上来, 下去 - elif len(word) > 1 and word[-1] in "来去" and word[-2] in "上下进出回过起开": - finals[-1] = finals[-1][:-1] + "5" # 个做量词 elif ( ge_idx >= 1 @@ -500,12 +501,11 @@ def _neural_sandhi(self, word: str, pos: str, finals: list[str]) -> list[str]: ) ) or word == "个": finals[ge_idx] = finals[ge_idx][:-1] + "5" - else: - if ( - word in self.must_neural_tone_words - or word[-2:] in self.must_neural_tone_words - ): - finals[-1] = finals[-1][:-1] + "5" + elif ( + word in self.must_neural_tone_words + or word[-2:] in self.must_neural_tone_words + ): + finals[-1] = finals[-1][:-1] + "5" word_list = self._split_word(word) finals_list = [finals[: len(word_list[0])], finals[len(word_list[0]) :]] @@ -549,10 +549,8 @@ def _yi_sandhi(self, word: str, finals: list[str]) -> list[str]: if finals[i + 1][-1] == "4": finals[i] = finals[i][:-1] + "2" # "一" before non-tone4 should be yi4, e.g. 一天 - else: - # "一" 后面如果是标点,还读一声 - if word[i + 1] not in self.punc: - finals[i] = finals[i][:-1] + "4" + elif word[i + 1] not in self.punc: + finals[i] = finals[i][:-1] + "4" return finals def _split_word(self, word: str) -> list[str]: diff --git a/style_bert_vits2/nlp/english/cmudict.py b/style_bert_vits2/nlp/english/cmudict.py index 7772e77b8..fd17405f5 100644 --- a/style_bert_vits2/nlp/english/cmudict.py +++ b/style_bert_vits2/nlp/english/cmudict.py @@ -20,7 +20,7 @@ def get_dict() -> dict[str, list[list[str]]]: def read_dict() -> dict[str, list[list[str]]]: g2p_dict = {} start_line = 49 - with open(CMU_DICT_PATH, "r", encoding="utf-8") as f: + with open(CMU_DICT_PATH, encoding="utf-8") as f: line = f.readline() line_index = 1 while line: diff --git a/style_bert_vits2/nlp/english/g2p.py b/style_bert_vits2/nlp/english/g2p.py index deeef3f64..4e3f9b329 100644 --- a/style_bert_vits2/nlp/english/g2p.py +++ b/style_bert_vits2/nlp/english/g2p.py @@ -1,23 +1,91 @@ import re + from g2p_en import G2p + from style_bert_vits2.constants import Languages from style_bert_vits2.nlp import bert_models from style_bert_vits2.nlp.english.cmudict import get_dict from style_bert_vits2.nlp.symbols import PUNCTUATIONS, SYMBOLS + # Initialize global variables once ARPA = { - "AH0", "S", "AH1", "EY2", "AE2", "EH0", "OW2", "UH0", "NG", "B", "G", "AY0", - "M", "AA0", "F", "AO0", "ER2", "UH1", "IY1", "AH2", "DH", "IY0", "EY1", - "IH0", "K", "N", "W", "IY2", "T", "AA1", "ER1", "EH2", "OY0", "UH2", "UW1", - "Z", "AW2", "AW1", "V", "UW2", "AA2", "ER", "AW0", "UW0", "R", "OW1", "EH1", - "ZH", "AE0", "IH2", "IH", "Y", "JH", "P", "AY1", "EY0", "OY2", "TH", "HH", - "D", "ER0", "CH", "AO1", "AE1", "AO2", "OY1", "AY2", "IH1", "OW0", "L", - "SH" + "AH0", + "S", + "AH1", + "EY2", + "AE2", + "EH0", + "OW2", + "UH0", + "NG", + "B", + "G", + "AY0", + "M", + "AA0", + "F", + "AO0", + "ER2", + "UH1", + "IY1", + "AH2", + "DH", + "IY0", + "EY1", + "IH0", + "K", + "N", + "W", + "IY2", + "T", + "AA1", + "ER1", + "EH2", + "OY0", + "UH2", + "UW1", + "Z", + "AW2", + "AW1", + "V", + "UW2", + "AA2", + "ER", + "AW0", + "UW0", + "R", + "OW1", + "EH1", + "ZH", + "AE0", + "IH2", + "IH", + "Y", + "JH", + "P", + "AY1", + "EY0", + "OY2", + "TH", + "HH", + "D", + "ER0", + "CH", + "AO1", + "AE1", + "AO2", + "OY1", + "AY2", + "IH1", + "OW0", + "L", + "SH", } _g2p = G2p() eng_dict = get_dict() + def g2p(text: str) -> tuple[list[str], list[int], list[int]]: phones = [] tones = [] @@ -51,7 +119,7 @@ def g2p(text: str) -> tuple[list[str], list[int], list[int]]: tns.append(0) temp_phones += [__post_replace_ph(i) for i in phns] temp_tones += tns - + phones += temp_phones tones += temp_tones phone_len.append(len(temp_phones)) @@ -72,9 +140,19 @@ def g2p(text: str) -> tuple[list[str], list[int], list[int]]: def __post_replace_ph(ph: str) -> str: REPLACE_MAP = { - ":": ",", ";": ",", ",": ",", "。": ".", "!": "!", "?": "?", - "\n": ".", "·": ",", "、": ",", "…": "...", "···": "...", - "・・・": "...", "v": "V" + ":": ",", + ";": ",", + ",": ",", + "。": ".", + "!": "!", + "?": "?", + "\n": ".", + "·": ",", + "、": ",", + "…": "...", + "···": "...", + "・・・": "...", + "v": "V", } if ph in REPLACE_MAP: ph = REPLACE_MAP[ph] @@ -120,21 +198,22 @@ def __text_to_words(text: str) -> list[list[str]]: for idx, t in enumerate(tokens): if t.startswith("▁"): words.append([t[1:]]) - else: - if t in PUNCTUATIONS: - if idx == len(tokens) - 1: - words.append([f"{t}"]) - else: - if not tokens[idx + 1].startswith("▁") and tokens[idx + 1] not in PUNCTUATIONS: - if idx == 0: - words.append([]) - words[-1].append(f"{t}") - else: - words.append([f"{t}"]) - else: + elif t in PUNCTUATIONS: + if idx == len(tokens) - 1: + words.append([f"{t}"]) + elif ( + not tokens[idx + 1].startswith("▁") + and tokens[idx + 1] not in PUNCTUATIONS + ): if idx == 0: words.append([]) words[-1].append(f"{t}") + else: + words.append([f"{t}"]) + else: + if idx == 0: + words.append([]) + words[-1].append(f"{t}") return words @@ -149,4 +228,3 @@ def __text_to_words(text: str) -> list[list[str]]: # for ph in group: # all_phones.add(ph) # print(all_phones) - diff --git a/style_bert_vits2/nlp/english/normalizer.py b/style_bert_vits2/nlp/english/normalizer.py index f6ddc90c2..88cec023a 100644 --- a/style_bert_vits2/nlp/english/normalizer.py +++ b/style_bert_vits2/nlp/english/normalizer.py @@ -58,7 +58,7 @@ def replace_punctuation(text: str) -> str: "「": "'", "」": "'", } - pattern = re.compile("|".join(re.escape(p) for p in REPLACE_MAP.keys())) + pattern = re.compile("|".join(re.escape(p) for p in REPLACE_MAP)) replaced_text = pattern.sub(lambda x: REPLACE_MAP[x.group()], text) # replaced_text = re.sub( # r"[^\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF\u3005" diff --git a/style_bert_vits2/nlp/japanese/g2p.py b/style_bert_vits2/nlp/japanese/g2p.py index 54270ba3a..dab3dbf98 100644 --- a/style_bert_vits2/nlp/japanese/g2p.py +++ b/style_bert_vits2/nlp/japanese/g2p.py @@ -719,5 +719,3 @@ class YomiError(Exception): 基本的に「学習の前処理のテキスト処理時」には発生させ、そうでない場合は、 ignore_yomi_error=True にしておいて、この例外を発生させないようにする。 """ - - pass diff --git a/style_bert_vits2/nlp/japanese/normalizer.py b/style_bert_vits2/nlp/japanese/normalizer.py index edb394e8e..7ecbfb6f0 100644 --- a/style_bert_vits2/nlp/japanese/normalizer.py +++ b/style_bert_vits2/nlp/japanese/normalizer.py @@ -60,7 +60,7 @@ "」": "'", } # 記号類の正規化パターン -__REPLACE_PATTERN = re.compile("|".join(re.escape(p) for p in __REPLACE_MAP.keys())) +__REPLACE_PATTERN = re.compile("|".join(re.escape(p) for p in __REPLACE_MAP)) # 句読点等の正規化パターン __PUNCTUATION_CLEANUP_PATTERN = re.compile( # ↓ ひらがな、カタカナ、漢字 diff --git a/style_bert_vits2/nlp/japanese/pyopenjtalk_worker/__init__.py b/style_bert_vits2/nlp/japanese/pyopenjtalk_worker/__init__.py index 3a146b671..d86646787 100644 --- a/style_bert_vits2/nlp/japanese/pyopenjtalk_worker/__init__.py +++ b/style_bert_vits2/nlp/japanese/pyopenjtalk_worker/__init__.py @@ -88,7 +88,7 @@ def initialize_worker(port: int = WORKER_PORT) -> None: client = None try: client = WorkerClient(port) - except (socket.timeout, socket.error): + except (OSError, socket.timeout): logger.debug("try starting pyopenjtalk worker server") import os import subprocess @@ -120,7 +120,7 @@ def initialize_worker(port: int = WORKER_PORT) -> None: try: client = WorkerClient(port) break - except socket.error: + except OSError: time.sleep(0.5) count += 1 # 20: max number of retries diff --git a/style_bert_vits2/nlp/japanese/user_dict/word_model.py b/style_bert_vits2/nlp/japanese/user_dict/word_model.py index c85a5b954..43420da71 100644 --- a/style_bert_vits2/nlp/japanese/user_dict/word_model.py +++ b/style_bert_vits2/nlp/japanese/user_dict/word_model.py @@ -114,7 +114,7 @@ class PartOfSpeechDetail(BaseModel): part_of_speech_detail_2: str = Field(title="品詞細分類2") part_of_speech_detail_3: str = Field(title="品詞細分類3") # context_idは辞書の左・右文脈IDのこと - # https://github.com/VOICEVOX/open_jtalk/blob/427cfd761b78efb6094bea3c5bb8c968f0d711ab/src/mecab-naist-jdic/_left-id.def # noqa + # https://github.com/VOICEVOX/open_jtalk/blob/427cfd761b78efb6094bea3c5bb8c968f0d711ab/src/mecab-naist-jdic/_left-id.def context_id: int = Field(title="文脈ID") cost_candidates: List[int] = Field(title="コストのパーセンタイル") accent_associative_rules: List[str] = Field(title="アクセント結合規則の一覧") diff --git a/style_bert_vits2/tts_model.py b/style_bert_vits2/tts_model.py index 9f668743d..6df8394ae 100644 --- a/style_bert_vits2/tts_model.py +++ b/style_bert_vits2/tts_model.py @@ -1,5 +1,5 @@ from pathlib import Path -from typing import TYPE_CHECKING, Any, Optional, Union +from typing import Any, Optional, Union import numpy as np import torch diff --git a/style_bert_vits2/utils/subprocess.py b/style_bert_vits2/utils/subprocess.py index f8e8e9454..8f159a20f 100644 --- a/style_bert_vits2/utils/subprocess.py +++ b/style_bert_vits2/utils/subprocess.py @@ -27,6 +27,7 @@ def run_script_with_log( stderr=subprocess.PIPE, text=True, encoding="utf-8", + check=False, ) if result.returncode != 0: logger.error(f"Error: {' '.join(cmd)}\n{result.stderr}") diff --git a/style_gen.py b/style_gen.py index f8b6452fa..1ced5f0f8 100644 --- a/style_gen.py +++ b/style_gen.py @@ -26,7 +26,6 @@ class NaNValueError(ValueError): """カスタム例外クラス。NaN値が見つかった場合に使用されます。""" - # 推論時にインポートするために短いが関数を書く def get_style_vector(wav_path: str) -> NDArray[Any]: return inference(wav_path) # type: ignore diff --git a/train_ms_jp_extra.py b/train_ms_jp_extra.py index cdc46b2f2..07cc24bd1 100644 --- a/train_ms_jp_extra.py +++ b/train_ms_jp_extra.py @@ -17,11 +17,7 @@ # logging.getLogger("numba").setLevel(logging.WARNING) import default_style from config import get_config -from data_utils import ( - DistributedBucketSampler, - TextAudioSpeakerCollate, - TextAudioSpeakerLoader, -) +from data_utils import TextAudioSpeakerCollate, TextAudioSpeakerLoader from losses import WavLMLoss, discriminator_loss, feature_loss, generator_loss, kl_loss from mel_processing import mel_spectrogram_torch, spec_to_mel_torch from style_bert_vits2.logging import logger diff --git a/transcribe.py b/transcribe.py index c7aa49360..3fcde2517 100644 --- a/transcribe.py +++ b/transcribe.py @@ -1,10 +1,8 @@ import argparse -import os import sys from pathlib import Path from typing import Any, Optional -import yaml from torch.utils.data import Dataset from tqdm import tqdm From 5af4e2c6acb9a066f5ec0932bb18ead023e679e6 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 25 May 2024 19:05:06 +0900 Subject: [PATCH 06/50] Feat: download model from hf --- app.py | 3 ++ gradio_tabs/download_tab.py | 67 +++++++++++++++++++++++++++++++++++++ 2 files changed, 70 insertions(+) create mode 100644 gradio_tabs/download_tab.py diff --git a/app.py b/app.py index d363a5720..f63bf4cd6 100644 --- a/app.py +++ b/app.py @@ -10,6 +10,7 @@ from gradio_tabs.merge import create_merge_app from gradio_tabs.style_vectors import create_style_vectors_app from gradio_tabs.train import create_train_app +from gradio_tabs.download_tab import create_download_app from style_bert_vits2.constants import GRADIO_THEME, VERSION from style_bert_vits2.nlp.japanese import pyopenjtalk_worker from style_bert_vits2.nlp.japanese.user_dict import update_dict @@ -51,6 +52,8 @@ create_style_vectors_app() with gr.Tab("マージ"): create_merge_app(model_holder=model_holder) + with gr.Tab("モデルダウンロード"): + create_download_app() app.launch( diff --git a/gradio_tabs/download_tab.py b/gradio_tabs/download_tab.py new file mode 100644 index 000000000..02011f0f1 --- /dev/null +++ b/gradio_tabs/download_tab.py @@ -0,0 +1,67 @@ +import gradio as gr +from huggingface_hub import hf_hub_download, snapshot_download + +from config import get_path_config + + +assets_root = get_path_config().assets_root + +how_to_md = """ +## 使い方 + +Hugging Face 🤗 に公開されているモデルをダウンロードして音声合成で使えるようにします。 + +例: + +- `https://huggingface.co/username/my_sbv2_model`を指定すると、`model_assets/username-my_sbv2_model`に全体がダウンロードされます。 +- `https://huggingface.co/username/my_sbv2_models/tree/main/model1`を指定すると、`model_assets/username-my_sbv2_models/model1`に`model1`フォルダのみがダウンロードされます。 + +**注意** + +- 音声合成で使うには、`model_assets/{model_name}`の**直下**に`*.safetensors`ファイルと`config.json`ファイルと`style_vectors.npy`ファイルが必要です。特にリポジトリの構成は確認しないので、ダウンロード後に必要ならば再配置等を行ってください。 +- リポジトリの内容はチェックしませんので、ダウンロードする前にURLにアクセスしてリポジトリの内容を確認してください。怪しいURLは入力しないでください。 +""" + + +def download_model(url: str): + # Parse url like: https://huggingface.co/username/myrepo/tree/main/jvnv-F1-jp + # or like: https://huggingface.co/username/myrepo + + # repo_id = "username/myrepo" + repo_id = url.split("https://huggingface.co/")[1].split("/tree/main")[0] + if len(repo_id.split("/")) != 2: + return "Error: URLが不正です。" + # repo_folder = "jvnv-F1-jp" + repo_folder = url.split("/tree/main/")[-1] if "/tree/main/" in url else "" + # remove last / if exists + if repo_folder.endswith("/"): + repo_folder = repo_folder[:-1] + if repo_folder == "": + model_name = repo_id.replace("/", "-") + result = snapshot_download(repo_id, local_dir=assets_root / model_name) + else: + model_name = repo_id.replace("/", "-") + result = snapshot_download( + repo_id, + local_dir=assets_root / model_name, + allow_patterns=[repo_folder + "/*"], + ) + return f"ダウンロード完了: {result}" + + +def create_download_app() -> gr.Blocks: + with gr.Blocks() as app: + gr.Markdown(how_to_md) + url = gr.Textbox( + label="URL", placeholder="https://huggingface.co/username/myrepo" + ) + btn = gr.Button("ダウンロード") + info = gr.Textbox(label="情報", value="") + btn.click(download_model, inputs=[url], outputs=[info]) + + return app + + +if __name__ == "__main__": + app = create_download_app() + app.launch() From a4f28e4f6fa14feb383add4c4eb640d4bd6fe4fc Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 25 May 2024 19:28:22 +0900 Subject: [PATCH 07/50] Improve download --- gradio_tabs/download_tab.py | 22 +++++++++++++++++----- 1 file changed, 17 insertions(+), 5 deletions(-) diff --git a/gradio_tabs/download_tab.py b/gradio_tabs/download_tab.py index 02011f0f1..6d73b0ff9 100644 --- a/gradio_tabs/download_tab.py +++ b/gradio_tabs/download_tab.py @@ -1,5 +1,7 @@ +import shutil + import gradio as gr -from huggingface_hub import hf_hub_download, snapshot_download +from huggingface_hub import snapshot_download from config import get_path_config @@ -14,7 +16,7 @@ 例: - `https://huggingface.co/username/my_sbv2_model`を指定すると、`model_assets/username-my_sbv2_model`に全体がダウンロードされます。 -- `https://huggingface.co/username/my_sbv2_models/tree/main/model1`を指定すると、`model_assets/username-my_sbv2_models/model1`に`model1`フォルダのみがダウンロードされます。 +- `https://huggingface.co/username/my_sbv2_models/tree/main/model1`を指定すると、`model_assets/username-my_sbv2_models/model1`に`model1`フォルダのみがダウンロードされます(この場合、model1フォルダ)。 **注意** @@ -38,14 +40,24 @@ def download_model(url: str): repo_folder = repo_folder[:-1] if repo_folder == "": model_name = repo_id.replace("/", "-") - result = snapshot_download(repo_id, local_dir=assets_root / model_name) + local_dir = assets_root / model_name + result = snapshot_download(repo_id, local_dir=local_dir) else: - model_name = repo_id.replace("/", "-") + model_name = repo_id.replace("/", "-") + "-" + repo_folder.split("/")[-1] + local_dir = assets_root / model_name result = snapshot_download( repo_id, - local_dir=assets_root / model_name, + local_dir=local_dir, allow_patterns=[repo_folder + "/*"], ) + # Move the downloaded folder to the correct path + for item in (assets_root / model_name / repo_folder).iterdir(): + shutil.move(item, assets_root / model_name) + shutil.rmtree(assets_root / model_name / repo_folder.split("/")[0]) + # Remove local_dir/.huggingface + hf_dir = local_dir / ".huggingface" + if hf_dir.exists(): + shutil.rmtree(local_dir / ".huggingface") return f"ダウンロード完了: {result}" From 7880659d4a93520b446787ff3a85c8fa737c18a9 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 08:00:32 +0900 Subject: [PATCH 08/50] Docs --- README.md | 1 + app.py | 2 +- clustering.ipynb | 612 ++++++++++++++--------------- colab.ipynb | 755 ++++++++++++++++++------------------ docs/CHANGELOG.md | 17 + gradio_tabs/dataset.py | 5 +- gradio_tabs/download_tab.py | 41 +- library.ipynb | 266 +++++++------ pyproject.toml | 2 +- slice.py | 2 +- 10 files changed, 870 insertions(+), 833 deletions(-) diff --git a/README.md b/README.md index 59059808b..c878389ef 100644 --- a/README.md +++ b/README.md @@ -14,6 +14,7 @@ You can install via `pip install style-bert-vits2` (inference only), see [librar - [**リリースページ**](https://github.com/litagin02/Style-Bert-VITS2/releases/)、[更新履歴](/docs/CHANGELOG.md) + - 2024-05-26: Ver 2.5.0 (フォルダ分けからのスタイル生成、長い音声も学習可能に) - 2024-03-16: ver 2.4.1 (**batファイルによるインストール方法の変更**) - 2024-03-15: ver 2.4.0 (大規模リファクタリングや種々の改良、ライブラリ化) - 2024-02-26: ver 2.3 (辞書機能とエディター機能) diff --git a/app.py b/app.py index f63bf4cd6..453479c58 100644 --- a/app.py +++ b/app.py @@ -6,11 +6,11 @@ from config import get_path_config from gradio_tabs.dataset import create_dataset_app +from gradio_tabs.download_tab import create_download_app from gradio_tabs.inference import create_inference_app from gradio_tabs.merge import create_merge_app from gradio_tabs.style_vectors import create_style_vectors_app from gradio_tabs.train import create_train_app -from gradio_tabs.download_tab import create_download_app from style_bert_vits2.constants import GRADIO_THEME, VERSION from style_bert_vits2.nlp.japanese import pyopenjtalk_worker from style_bert_vits2.nlp.japanese.user_dict import update_dict diff --git a/clustering.ipynb b/clustering.ipynb index 12e728ef6..f6844d5ae 100644 --- a/clustering.ipynb +++ b/clustering.ipynb @@ -1,316 +1,316 @@ { - "cells": [ - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "# スタイルベクトルをもっと詳しく作りたい人向け\n", - "\n", - "JVNVコーパスの例を使いながらクラスタリングをいろいろいじったり、また正解ラベルからベクトルを作りたい人向けです。\n", - "もっといろいろ足したりいろんなスタイルベクトルを作って遊べると思います。\n", - "ある程度慣れている人向けです。\n", - "\n", - "JVNVコーパスのように**スタイルが既にファイル名等で分かれている場合は、最後の方のセルを使えばそれを利用してスタイルを作ることができます。**\n", - "\n", - "例では[JVNVコーパス](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus)のjvnv-M1を使います。\n", - "\n", - "## そもそもスタイルベクトルとは\n", - "[この話者識別モデル](https://huggingface.co/pyannote/wespeaker-voxceleb-resnet34-LM)を使って生成された、1つの音声ファイルにつき256次元のベクトルです。話者識別用のものですが、感情や声音の特徴も含まれているので、スタイルベクトルとして使えます。\n", - "\n", - "このStyle-Bert-VITS2では、この256次元のベクトルをエンコーダに注入して学習しているので、推論時にそのベクトルを入れてあげる必要があります。ある感情を強く表していると思われるベクトルを入れると、その感情を強く表現した音声が生成される、という仕組みです。\n", - "\n", - "もともとが話者識別用なので、「この感情はこのベクトル」のような普遍的なスタイルベクトルは使えません。なのでこのように、いちいちデータセットごとにベクトルを作る必要があります。\n", - "\n", - "## モデルを使うために必要なもの\n", - "- `model_assets/{model_name}/model_name.safetensors`: 学習の結果出力されるモデルファイル。これは自動的にこの場所に置かれ、スタイルベクトルとは全く独立。\n", - "- `model_assets/{model_name}/style_vectors.npy`: スタイルベクトルのnumpyファイル。ベクトルをいくつかいれる。\n", - "- `model_assets/{model_name}/config.json`: モデルの設定ファイル(学習前準備で自動的に生成されるはず)。これの以下の項目を設定。\n", - "```json\n", - "{\n", - " \"data\": {\n", - " \"num_styles\": 4, // スタイルベクトルの数\n", - " \"style2id\": { // スタイルベクトルの名前とidの対応\n", - " \"Neutral\": 0,\n", - " \"Angry\": 1,\n", - " \"Happy\": 2,\n", - " \"Sad\": 3\n", - " }\n", - " }\n", - "}\n", - "```\n", - "ここでidは0から始まる整数で、スタイルベクトルのnumpyファイルの何番目のベクトルかを指定します。最初のNeutralは含めたほうがよさそうで、WebUIや下では全スタイルベクトルの平均を入れています。" - ] - }, - { - "cell_type": "code", - "execution_count": 1, - "metadata": {}, - "outputs": [], - "source": [ - "import os\n", - "import numpy as np\n", - "\n", - "wav_dir = \"Data/jvnv-M1/wavs\"\n", - "\n", - "embs = []\n", - "names= []\n", - "for file in os.listdir(wav_dir):\n", - " if file.endswith(\".npy\"):\n", - " xvec = np.load(os.path.join(wav_dir, file))\n", - " embs.append(np.expand_dims(xvec, axis=0))\n", - " names.append(file)\n", - "\n", - "x = np.concatenate(embs, axis=0)" - ] - }, - { - "cell_type": "code", - "execution_count": 2, - "metadata": {}, - "outputs": [ - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "# TSNEで可視化\n", - "from sklearn.manifold import TSNE\n", - "import matplotlib.pyplot as plt\n", - "\n", - "\n", - "# 特徴量の関係か、コサイン距離が良さげ\n", - "tsne = TSNE(n_components=2, random_state=42, metric=\"cosine\")\n", - "\n", - "x_tsne = tsne.fit_transform(x)\n", - "\n", - "plt.figure(figsize=(7, 7))\n", - "plt.scatter(x_tsne[:, 0], x_tsne[:, 1])\n", - "\n", - "plt.show()" - ] - }, - { - "cell_type": "code", - "execution_count": 3, - "metadata": {}, - "outputs": [], - "source": [ - "from sklearn.cluster import KMeans, AgglomerativeClustering\n", - "\n", - "method = \"k\"\n", - "n_clusters = 5\n", - "\n", - "if method == \"k\":\n", - " model = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)\n", - "elif method == \"a\":\n", - " model = AgglomerativeClustering(n_clusters=n_clusters)\n", - "\n", - "y_predict = model.fit_predict(x)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "上は直接生のベクトルでクラスタリングしてますが、次のようにt-SNEで図のように2次元に削減したものをクラスタリングしたほうが、識別がきれいに分かれる、ことが多いような気がします、が詳しくは分かりません:" - ] - }, - { - "cell_type": "code", - "execution_count": 4, - "metadata": {}, - "outputs": [], - "source": [ - "y_predict = model.fit_predict(x_tsne)" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "metadata": {}, - "outputs": [], - "source": [ - "centroids = []\n", - "for i in range(n_clusters):\n", - " centroids.append(x[y_predict == i].mean(axis=0))" - ] - }, - { - "cell_type": "code", - "execution_count": 6, - "metadata": {}, - "outputs": [ - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "# TSNEで可視化\n", - "import matplotlib.pyplot as plt\n", - "\n", - "plt.figure(figsize=(7, 7))\n", - "plt.scatter(x_tsne[:, 0], x_tsne[:, 1], c=y_predict)\n", - "\n", - "plt.show()" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "from scipy.spatial.distance import cdist\n", - "from IPython.display import Audio, display\n", - "\n", - "# 各クラスターのセントロイドに最も近い点に対応するファイル名を取得\n", - "closest_files = []\n", - "for center_idx in range(len(centroids)):\n", - " closest_idx = np.argmin(\n", - " cdist(centroids[center_idx : center_idx + 1], x, metric=\"cosine\")\n", - " )\n", - " closest_files.append(names[closest_idx])\n", - "\n", - "# 対応する音声ファイルをJupyterノートブック上で再生\n", - "for file_name in closest_files:\n", - " wav_path = os.path.join(wav_dir, file_name.replace(\".npy\", \"\"))\n", - " if os.path.exists(wav_path):\n", - " print(wav_path)\n", - " display(Audio(wav_path))" - ] - }, - { - "cell_type": "code", - "execution_count": 37, - "metadata": {}, - "outputs": [], - "source": [ - "# meanとcentroidを保存\n", - "mean = x.mean(axis=0)\n", - "save_vectors = np.vstack([mean, centroids])\n", - "os.makedirs(\"model_assets/jvnv-M1\", exist_ok=True)\n", - "np.save(\"model_assets/jvnv-M1/style_vectors.npy\", save_vectors)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "## 正解ラベルがファイル名から分かる場合の作り方\n", - "JVNVコーパス等でファイル名によってスタイルラベルが分かる場合、以下のようにしてスタイルベクトルを作ることができます(デフォルトのJVNVモデルのスタイルはこれで作成しています)。" - ] - }, - { - "cell_type": "code", - "execution_count": 8, - "metadata": {}, - "outputs": [], - "source": [ - "# JVNVコーパスの場合は正解はファイル名の最初の方から分かる。それを使って正解ラベルを作成\n", - "label_dict = {\"ang\": 0, \"dis\": 1, \"fea\": 2, \"hap\": 3, \"sad\": 4, \"sur\": 5}\n", - "\n", - "y_true = [label_dict[name[3:6]] for name in names]" - ] - }, + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# スタイルベクトルをもっと詳しく作りたい人向け\n", + "\n", + "JVNVコーパスの例を使いながらクラスタリングをいろいろいじったり、また正解ラベルからベクトルを作りたい人向けです。\n", + "もっといろいろ足したりいろんなスタイルベクトルを作って遊べると思います。\n", + "ある程度慣れている人向けです。\n", + "\n", + "JVNVコーパスのように**スタイルが既にファイル名等で分かれている場合は、最後の方のセルを使えばそれを利用してスタイルを作ることができます。**\n", + "\n", + "例では[JVNVコーパス](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus)のjvnv-M1を使います。\n", + "\n", + "## そもそもスタイルベクトルとは\n", + "[この話者識別モデル](https://huggingface.co/pyannote/wespeaker-voxceleb-resnet34-LM)を使って生成された、1つの音声ファイルにつき256次元のベクトルです。話者識別用のものですが、感情や声音の特徴も含まれているので、スタイルベクトルとして使えます。\n", + "\n", + "このStyle-Bert-VITS2では、この256次元のベクトルをエンコーダに注入して学習しているので、推論時にそのベクトルを入れてあげる必要があります。ある感情を強く表していると思われるベクトルを入れると、その感情を強く表現した音声が生成される、という仕組みです。\n", + "\n", + "もともとが話者識別用なので、「この感情はこのベクトル」のような普遍的なスタイルベクトルは使えません。なのでこのように、いちいちデータセットごとにベクトルを作る必要があります。\n", + "\n", + "## モデルを使うために必要なもの\n", + "- `model_assets/{model_name}/model_name.safetensors`: 学習の結果出力されるモデルファイル。これは自動的にこの場所に置かれ、スタイルベクトルとは全く独立。\n", + "- `model_assets/{model_name}/style_vectors.npy`: スタイルベクトルのnumpyファイル。ベクトルをいくつかいれる。\n", + "- `model_assets/{model_name}/config.json`: モデルの設定ファイル(学習前準備で自動的に生成されるはず)。これの以下の項目を設定。\n", + "```json\n", + "{\n", + " \"data\": {\n", + " \"num_styles\": 4, // スタイルベクトルの数\n", + " \"style2id\": { // スタイルベクトルの名前とidの対応\n", + " \"Neutral\": 0,\n", + " \"Angry\": 1,\n", + " \"Happy\": 2,\n", + " \"Sad\": 3\n", + " }\n", + " }\n", + "}\n", + "```\n", + "ここでidは0から始まる整数で、スタイルベクトルのnumpyファイルの何番目のベクトルかを指定します。最初のNeutralは含めたほうがよさそうで、WebUIや下では全スタイルベクトルの平均を入れています。" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [], + "source": [ + "import os\n", + "import numpy as np\n", + "\n", + "wav_dir = \"Data/jvnv-M1/wavs\"\n", + "\n", + "embs = []\n", + "names = []\n", + "for file in os.listdir(wav_dir):\n", + " if file.endswith(\".npy\"):\n", + " xvec = np.load(os.path.join(wav_dir, file))\n", + " embs.append(np.expand_dims(xvec, axis=0))\n", + " names.append(file)\n", + "\n", + "x = np.concatenate(embs, axis=0)" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [ { - "cell_type": "code", - "execution_count": 10, - "metadata": {}, - "outputs": [], - "source": [ - "# 正解のセントロイドを計算\n", - "y_true = np.array(y_true)\n", - "true_centroids = []\n", - "for i in range(6):\n", - " true_centroids.append(np.mean(x[y_true == i], axis=0))\n", - "\n", - "true_centroids = np.array(true_centroids)\n", - "\n", - "# すべてのベクトルの平均を計算\n", - "mean = np.mean(x, axis=0)\n", - "\n", - "# 保存\n", - "os.makedirs(\"model_assets/jvnv-M1\", exist_ok=True)\n", - "np.save(\"model_assets/jvnv-M1/style_vectors.npy\", np.vstack([mean, true_centroids]))" + "data": { + "image/png": "", + "text/plain": [ + "
" ] - }, + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# TSNEで可視化\n", + "from sklearn.manifold import TSNE\n", + "import matplotlib.pyplot as plt\n", + "\n", + "\n", + "# 特徴量の関係か、コサイン距離が良さげ\n", + "tsne = TSNE(n_components=2, random_state=42, metric=\"cosine\")\n", + "\n", + "x_tsne = tsne.fit_transform(x)\n", + "\n", + "plt.figure(figsize=(7, 7))\n", + "plt.scatter(x_tsne[:, 0], x_tsne[:, 1])\n", + "\n", + "plt.show()" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": {}, + "outputs": [], + "source": [ + "from sklearn.cluster import KMeans, AgglomerativeClustering\n", + "\n", + "method = \"k\"\n", + "n_clusters = 5\n", + "\n", + "if method == \"k\":\n", + " model = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)\n", + "elif method == \"a\":\n", + " model = AgglomerativeClustering(n_clusters=n_clusters)\n", + "\n", + "y_predict = model.fit_predict(x)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "上は直接生のベクトルでクラスタリングしてますが、次のようにt-SNEで図のように2次元に削減したものをクラスタリングしたほうが、識別がきれいに分かれる、ことが多いような気がします、が詳しくは分かりません:" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [], + "source": [ + "y_predict = model.fit_predict(x_tsne)" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [], + "source": [ + "centroids = []\n", + "for i in range(n_clusters):\n", + " centroids.append(x[y_predict == i].mean(axis=0))" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [ { - "cell_type": "code", - "execution_count": 11, - "metadata": {}, - "outputs": [ - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "# TSNEで正解ラベルを可視化\n", - "import matplotlib.pyplot as plt\n", - "\n", - "cmap = plt.get_cmap(\"tab10\")\n", - "\n", - "true_label_dict = {0: \"ang\", 1: \"dis\", 2: \"fea\", 3: \"hap\", 4: \"sad\", 5: \"sur\"}\n", - "\n", - "plt.figure(figsize=(7, 7))\n", - "for i in true_label_dict:\n", - " plt.scatter(\n", - " x_tsne[y_true == i, 0],\n", - " x_tsne[y_true == i, 1],\n", - " color=cmap(i),\n", - " label=f\"{true_label_dict[i]}\",\n", - " )\n", - "plt.legend()\n", - "plt.show()" + "data": { + "image/png": "", + "text/plain": [ + "
" ] - }, + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# TSNEで可視化\n", + "import matplotlib.pyplot as plt\n", + "\n", + "plt.figure(figsize=(7, 7))\n", + "plt.scatter(x_tsne[:, 0], x_tsne[:, 1], c=y_predict)\n", + "\n", + "plt.show()" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "from scipy.spatial.distance import cdist\n", + "from IPython.display import Audio, display\n", + "\n", + "# 各クラスターのセントロイドに最も近い点に対応するファイル名を取得\n", + "closest_files = []\n", + "for center_idx in range(len(centroids)):\n", + " closest_idx = np.argmin(\n", + " cdist(centroids[center_idx : center_idx + 1], x, metric=\"cosine\")\n", + " )\n", + " closest_files.append(names[closest_idx])\n", + "\n", + "# 対応する音声ファイルをJupyterノートブック上で再生\n", + "for file_name in closest_files:\n", + " wav_path = os.path.join(wav_dir, file_name.replace(\".npy\", \"\"))\n", + " if os.path.exists(wav_path):\n", + " print(wav_path)\n", + " display(Audio(wav_path))" + ] + }, + { + "cell_type": "code", + "execution_count": 37, + "metadata": {}, + "outputs": [], + "source": [ + "# meanとcentroidを保存\n", + "mean = x.mean(axis=0)\n", + "save_vectors = np.vstack([mean, centroids])\n", + "os.makedirs(\"model_assets/jvnv-M1\", exist_ok=True)\n", + "np.save(\"model_assets/jvnv-M1/style_vectors.npy\", save_vectors)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 正解ラベルがファイル名から分かる場合の作り方\n", + "JVNVコーパス等でファイル名によってスタイルラベルが分かる場合、以下のようにしてスタイルベクトルを作ることができます(デフォルトのJVNVモデルのスタイルはこれで作成しています)。" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [], + "source": [ + "# JVNVコーパスの場合は正解はファイル名の最初の方から分かる。それを使って正解ラベルを作成\n", + "label_dict = {\"ang\": 0, \"dis\": 1, \"fea\": 2, \"hap\": 3, \"sad\": 4, \"sur\": 5}\n", + "\n", + "y_true = [label_dict[name[3:6]] for name in names]" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": {}, + "outputs": [], + "source": [ + "# 正解のセントロイドを計算\n", + "y_true = np.array(y_true)\n", + "true_centroids = []\n", + "for i in range(6):\n", + " true_centroids.append(np.mean(x[y_true == i], axis=0))\n", + "\n", + "true_centroids = np.array(true_centroids)\n", + "\n", + "# すべてのベクトルの平均を計算\n", + "mean = np.mean(x, axis=0)\n", + "\n", + "# 保存\n", + "os.makedirs(\"model_assets/jvnv-M1\", exist_ok=True)\n", + "np.save(\"model_assets/jvnv-M1/style_vectors.npy\", np.vstack([mean, true_centroids]))" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": {}, + "outputs": [ { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "手動でconfig.jsonのstyle2idとnum_stylesを設定するのを忘れずに。" + "data": { + "image/png": "", + "text/plain": [ + "
" ] + }, + "metadata": {}, + "output_type": "display_data" } - ], - "metadata": { - "kernelspec": { - "display_name": "venv", - "language": "python", - "name": "python3" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.10.11" - } + ], + "source": [ + "# TSNEで正解ラベルを可視化\n", + "import matplotlib.pyplot as plt\n", + "\n", + "cmap = plt.get_cmap(\"tab10\")\n", + "\n", + "true_label_dict = {0: \"ang\", 1: \"dis\", 2: \"fea\", 3: \"hap\", 4: \"sad\", 5: \"sur\"}\n", + "\n", + "plt.figure(figsize=(7, 7))\n", + "for i in true_label_dict:\n", + " plt.scatter(\n", + " x_tsne[y_true == i, 0],\n", + " x_tsne[y_true == i, 1],\n", + " color=cmap(i),\n", + " label=f\"{true_label_dict[i]}\",\n", + " )\n", + "plt.legend()\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "手動でconfig.jsonのstyle2idとnum_stylesを設定するのを忘れずに。" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "venv", + "language": "python", + "name": "python3" }, - "nbformat": 4, - "nbformat_minor": 2 + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.10.11" + } + }, + "nbformat": 4, + "nbformat_minor": 2 } diff --git a/colab.ipynb b/colab.ipynb index a9aaa935c..41e200250 100644 --- a/colab.ipynb +++ b/colab.ipynb @@ -1,384 +1,385 @@ { - "cells": [ - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "# Style-Bert-VITS2 (ver 2.5.0) のGoogle Colabでの学習\n", - "\n", - "Google Colab上でStyle-Bert-VITS2の学習を行うことができます。\n", - "\n", - "このnotebookでは、通常使用ではあなたのGoogle Driveにフォルダ`Style-Bert-VITS2`を作り、その内部での作業を行います。他のフォルダには触れません。\n", - "Google Driveを使わない場合は、初期設定のところで適切なパスを指定してください。\n", - "\n", - "## 流れ\n", - "\n", - "### 学習を最初からやりたいとき\n", - "上から順に実行していけばいいです。音声合成に必要なファイルはGoogle Driveの`Style-Bert-VITS2/model_assets/`に保存されます。また、途中経過も`Style-Bert-VITS2/Data/`に保存されるので、学習を中断したり、途中から再開することもできます。\n", - "\n", - "### 学習を途中から再開したいとき\n", - "0と1を行い、3の前処理は飛ばして、4から始めてください。スタイル分け5は、学習が終わったら必要なら行ってください。\n" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "## 0. 環境構築\n", - "\n", - "Style-Bert-VITS2の環境をcolab上に構築します。グラボモードが有効になっていることを確認し、以下のセルを順に実行してください。\n", - "\n", - "**最近のcolabのアップデートにより、エラーダイアログ「WARNING: The following packages were previously imported in this runtime: [pydevd_plugins]」が出るが、「キャンセル」を選択して続行してください。**" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# このセルを実行して環境構築してください。\n", - "# エラーダイアログ「WARNING: The following packages were previously imported in this runtime: [pydevd_plugins]」が出るが「キャンセル」を選択して続行してください。\n", - "\n", - "!git clone https://github.com/litagin02/Style-Bert-VITS2.git\n", - "%cd Style-Bert-VITS2/\n", - "!pip install -r requirements.txt\n", - "!python initialize.py --skip_jvnv" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# Google driveを使う方はこちらを実行してください。\n", - "\n", - "from google.colab import drive\n", - "drive.mount(\"/content/drive\")" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "## 1. 初期設定\n", - "\n", - "学習とその結果を保存するディレクトリ名を指定します。\n", - "Google driveの場合はそのまま実行、カスタマイズしたい方は変更して実行してください。" - ] - }, - { - "cell_type": "code", - "execution_count": 1, - "metadata": {}, - "outputs": [], - "source": [ - "# 学習に必要なファイルや途中経過が保存されるディレクトリ\n", - "dataset_root = \"/content/drive/MyDrive/Style-Bert-VITS2/Data\"\n", - "\n", - "# 学習結果(音声合成に必要なファイルたち)が保存されるディレクトリ\n", - "assets_root = \"/content/drive/MyDrive/Style-Bert-VITS2/model_assets\"\n", - "\n", - "import yaml\n", - "\n", - "\n", - "with open(\"configs/paths.yml\", \"w\", encoding=\"utf-8\") as f:\n", - " yaml.dump({\"dataset_root\": dataset_root, \"assets_root\": assets_root}, f)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "## 2. 学習に使うデータ準備\n", - "\n", - "すでに音声ファイル(1ファイル2-12秒程度)とその書き起こしデータがある場合は2.2を、ない場合は2.1を実行してください。" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### 2.1 音声ファイルからのデータセットの作成(ある人はスキップ可)\n", - "\n", - "音声ファイル(1ファイル2-12秒程度)とその書き起こしのデータセットを持っていない方は、(日本語の)音声ファイルのみから以下の手順でデータセットを作成することができます。Google drive上の`Style-Bert-VITS2/inputs/`フォルダに音声ファイル(wavファイル形式、1ファイルでも複数ファイルでも可)を置いて、下を実行すると、データセットが作られ、自動的に正しい場所へ配置されます。" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# 元となる音声ファイル(wav形式)を入れるディレクトリ\n", - "input_dir = \"/content/drive/MyDrive/Style-Bert-VITS2/inputs\"\n", - "# モデル名(話者名)を入力\n", - "model_name = \"your_model_name\"\n", - "\n", - "# こういうふうに書き起こして欲しいという例文(句読点の入れ方・笑い方や固有名詞等)\n", - "initial_prompt = \"こんにちは。元気、ですかー?ふふっ、私は……ちゃんと元気だよ!\"\n", - "\n", - "!python slice.py -i {input_dir} --model_name {model_name}\n", - "!python transcribe.py --model_name {model_name} --initial_prompt {initial_prompt} --use_hf_whisper" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "成功したらそのまま3へ進んでください" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### 2.2 音声ファイルと書き起こしデータがすでにある場合\n", - "\n", - "指示に従って適切にデータセットを配置してください。\n", - "\n", - "次のセルを実行して、学習データをいれるフォルダ(1で設定した`dataset_root`)を作成します。" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "metadata": { - "id": "esCNJl704h52" - }, - "outputs": [], - "source": [ - "import os\n", - "\n", - "os.makedirs(dataset_root, exist_ok=True)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "次に、学習に必要なデータを、Google driveに作成された`Style-Bert-VITS2/Data`フォルダに配置します。\n", - "\n", - "まず音声データ(wavファイルで1ファイルが2-12秒程度の、長すぎず短すぎない発話のものをいくつか)と、書き起こしテキストを用意してください。wavファイル名やモデルの名前は空白を含まない半角で、wavファイルの拡張子は小文字`.wav`である必要があります。\n", - "\n", - "書き起こしテキストは、次の形式で記述してください。\n", - "```\n", - "****.wav|{話者名}|{言語ID、ZHかJPかEN}|{書き起こしテキスト}\n", - "```\n", - "\n", - "例:\n", - "```\n", - "wav_number1.wav|hanako|JP|こんにちは、聞こえて、いますか?\n", - "wav_next.wav|taro|JP|はい、聞こえています……。\n", - "english_teacher.wav|Mary|EN|How are you? I'm fine, thank you, and you?\n", - "...\n", - "```\n", - "日本語話者の単一話者データセットで構いません。\n", - "\n", - "### データセットの配置\n", - "\n", - "次にモデルの名前を適当に決めてください(空白を含まない半角英数字がよいです)。\n", - "そして、書き起こしファイルを`esd.list`という名前で保存し、またwavファイルも`raw`というフォルダを作成し、あなたのGoogle Driveの中の(上で自動的に作られるはずの)`Data`フォルダのなかに、次のように配置します。\n", - "```\n", - "├── Data\n", - "│ ├── {モデルの名前}\n", - "│ │ ├── esd.list\n", - "│ │ ├── raw\n", - "│ │ │ ├── ****.wav\n", - "│ │ │ ├── ****.wav\n", - "│ │ │ ├── ...\n", - "```" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "5r85-W20ECcr" - }, - "source": [ - "## 3. 学習の前処理\n", - "\n", - "次に学習の前処理を行います。必要なパラメータをここで指定します。次のセルに設定等を入力して実行してください。「~~かどうか」は`True`もしくは`False`を指定してください。" - ] - }, - { - "cell_type": "code", - "execution_count": 6, - "metadata": { - "id": "CXR7kjuF5GlE" - }, - "outputs": [], - "source": [ - "# 上でつけたフォルダの名前`Data/{model_name}/`\n", - "model_name = \"your_model_name\"\n", - "\n", - "# JP-Extra (日本語特化版)を使うかどうか。日本語の能力が向上する代わりに英語と中国語は使えなくなります。\n", - "use_jp_extra = True\n", - "\n", - "# 学習のバッチサイズ。VRAMのはみ出具合に応じて調整してください。\n", - "batch_size = 4\n", - "\n", - "# 学習のエポック数(データセットを合計何周するか)。\n", - "# 100で多すぎるほどかもしれませんが、もっと多くやると質が上がるのかもしれません。\n", - "epochs = 100\n", - "\n", - "# 保存頻度。何ステップごとにモデルを保存するか。分からなければデフォルトのままで。\n", - "save_every_steps = 1000\n", - "\n", - "# 音声ファイルの音量を正規化するかどうか\n", - "normalize = False\n", - "\n", - "# 音声ファイルの開始・終了にある無音区間を削除するかどうか\n", - "trim = False\n", - "\n", - "# 読みのエラーが出た場合にどうするか。\n", - "# \"raise\"ならテキスト前処理が終わったら中断、\"skip\"なら読めない行は学習に使わない、\"use\"なら無理やり使う\n", - "yomi_error = \"skip\"" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "上のセルが実行されたら、次のセルを実行して学習の前処理を行います。" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "xMVaOIPLabV5", - "outputId": "15fac868-9132-45d9-9f5f-365b6aeb67b0" - }, - "outputs": [], - "source": [ - "from gradio_tabs.train import preprocess_all\n", - "\n", - "preprocess_all(\n", - " model_name=model_name,\n", - " batch_size=batch_size,\n", - " epochs=epochs,\n", - " save_every_steps=save_every_steps,\n", - " num_processes=2,\n", - " normalize=normalize,\n", - " trim=trim,\n", - " freeze_EN_bert=False,\n", - " freeze_JP_bert=False,\n", - " freeze_ZH_bert=False,\n", - " freeze_style=False,\n", - " freeze_decoder=False, # ここをTrueにするともしかしたら違う結果になるかもしれません。\n", - " use_jp_extra=use_jp_extra,\n", - " val_per_lang=0,\n", - " log_interval=200,\n", - " yomi_error=yomi_error\n", - ")" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "## 4. 学習\n", - "\n", - "前処理が正常に終わったら、学習を行います。次のセルを実行すると学習が始まります。\n", - "\n", - "学習の結果は、上で指定した`save_every_steps`の間隔で、Google Driveの中の`Style-Bert-VITS2/Data/{モデルの名前}/model_assets/`フォルダに保存されます。\n", - "\n", - "このフォルダをダウンロードし、ローカルのStyle-Bert-VITS2の`model_assets`フォルダに上書きすれば、学習結果を使うことができます。" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "laieKrbEb6Ij", - "outputId": "72238c88-f294-4ed9-84f6-84c1c17999ca" - }, - "outputs": [], - "source": [ - "# 上でつけたモデル名を入力。学習を途中からする場合はきちんとモデルが保存されているフォルダ名を入力。\n", - "model_name = \"your_model_name\"\n", - "\n", - "\n", - "import yaml\n", - "from gradio_tabs.train import get_path\n", - "\n", - "dataset_path, _, _, _, config_path = get_path(model_name)\n", - "\n", - "with open(\"default_config.yml\", \"r\", encoding=\"utf-8\") as f:\n", - " yml_data = yaml.safe_load(f)\n", - "yml_data[\"model_name\"] = model_name\n", - "with open(\"config.yml\", \"w\", encoding=\"utf-8\") as f:\n", - " yaml.dump(yml_data, f, allow_unicode=True)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# 日本語特化版を「使う」場合\n", - "!python train_ms_jp_extra.py --config {config_path} --model {dataset_path} --assets_root {assets_root}" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# 日本語特化版を「使わない」場合\n", - "!python train_ms.py --config {config_path} --model {dataset_path} --assets_root {assets_root}" - ] + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Style-Bert-VITS2 (ver 2.5.0) のGoogle Colabでの学習\n", + "\n", + "Google Colab上でStyle-Bert-VITS2の学習を行うことができます。\n", + "\n", + "このnotebookでは、通常使用ではあなたのGoogle Driveにフォルダ`Style-Bert-VITS2`を作り、その内部での作業を行います。他のフォルダには触れません。\n", + "Google Driveを使わない場合は、初期設定のところで適切なパスを指定してください。\n", + "\n", + "## 流れ\n", + "\n", + "### 学習を最初からやりたいとき\n", + "上から順に実行していけばいいです。音声合成に必要なファイルはGoogle Driveの`Style-Bert-VITS2/model_assets/`に保存されます。また、途中経過も`Style-Bert-VITS2/Data/`に保存されるので、学習を中断したり、途中から再開することもできます。\n", + "\n", + "### 学習を途中から再開したいとき\n", + "0と1を行い、3の前処理は飛ばして、4から始めてください。スタイル分け5は、学習が終わったら必要なら行ってください。\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 0. 環境構築\n", + "\n", + "Style-Bert-VITS2の環境をcolab上に構築します。グラボモードが有効になっていることを確認し、以下のセルを順に実行してください。\n", + "\n", + "**最近のcolabのアップデートにより、エラーダイアログ「WARNING: The following packages were previously imported in this runtime: [pydevd_plugins]」が出るが、「キャンセル」を選択して続行してください。**" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# このセルを実行して環境構築してください。\n", + "# エラーダイアログ「WARNING: The following packages were previously imported in this runtime: [pydevd_plugins]」が出るが「キャンセル」を選択して続行してください。\n", + "\n", + "!git clone https://github.com/litagin02/Style-Bert-VITS2.git\n", + "%cd Style-Bert-VITS2/\n", + "!pip install -r requirements.txt\n", + "!python initialize.py --skip_jvnv" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# Google driveを使う方はこちらを実行してください。\n", + "\n", + "from google.colab import drive\n", + "\n", + "drive.mount(\"/content/drive\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 1. 初期設定\n", + "\n", + "学習とその結果を保存するディレクトリ名を指定します。\n", + "Google driveの場合はそのまま実行、カスタマイズしたい方は変更して実行してください。" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [], + "source": [ + "# 学習に必要なファイルや途中経過が保存されるディレクトリ\n", + "dataset_root = \"/content/drive/MyDrive/Style-Bert-VITS2/Data\"\n", + "\n", + "# 学習結果(音声合成に必要なファイルたち)が保存されるディレクトリ\n", + "assets_root = \"/content/drive/MyDrive/Style-Bert-VITS2/model_assets\"\n", + "\n", + "import yaml\n", + "\n", + "\n", + "with open(\"configs/paths.yml\", \"w\", encoding=\"utf-8\") as f:\n", + " yaml.dump({\"dataset_root\": dataset_root, \"assets_root\": assets_root}, f)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 2. 学習に使うデータ準備\n", + "\n", + "すでに音声ファイル(1ファイル2-12秒程度)とその書き起こしデータがある場合は2.2を、ない場合は2.1を実行してください。" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### 2.1 音声ファイルからのデータセットの作成(ある人はスキップ可)\n", + "\n", + "音声ファイル(1ファイル2-12秒程度)とその書き起こしのデータセットを持っていない方は、(日本語の)音声ファイルのみから以下の手順でデータセットを作成することができます。Google drive上の`Style-Bert-VITS2/inputs/`フォルダに音声ファイル(wavファイル形式、1ファイルでも複数ファイルでも可)を置いて、下を実行すると、データセットが作られ、自動的に正しい場所へ配置されます。" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# 元となる音声ファイル(wav形式)を入れるディレクトリ\n", + "input_dir = \"/content/drive/MyDrive/Style-Bert-VITS2/inputs\"\n", + "# モデル名(話者名)を入力\n", + "model_name = \"your_model_name\"\n", + "\n", + "# こういうふうに書き起こして欲しいという例文(句読点の入れ方・笑い方や固有名詞等)\n", + "initial_prompt = \"こんにちは。元気、ですかー?ふふっ、私は……ちゃんと元気だよ!\"\n", + "\n", + "!python slice.py -i {input_dir} --model_name {model_name}\n", + "!python transcribe.py --model_name {model_name} --initial_prompt {initial_prompt} --use_hf_whisper" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "成功したらそのまま3へ進んでください" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### 2.2 音声ファイルと書き起こしデータがすでにある場合\n", + "\n", + "指示に従って適切にデータセットを配置してください。\n", + "\n", + "次のセルを実行して、学習データをいれるフォルダ(1で設定した`dataset_root`)を作成します。" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": { + "id": "esCNJl704h52" + }, + "outputs": [], + "source": [ + "import os\n", + "\n", + "os.makedirs(dataset_root, exist_ok=True)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "次に、学習に必要なデータを、Google driveに作成された`Style-Bert-VITS2/Data`フォルダに配置します。\n", + "\n", + "まず音声データ(wavファイルで1ファイルが2-12秒程度の、長すぎず短すぎない発話のものをいくつか)と、書き起こしテキストを用意してください。wavファイル名やモデルの名前は空白を含まない半角で、wavファイルの拡張子は小文字`.wav`である必要があります。\n", + "\n", + "書き起こしテキストは、次の形式で記述してください。\n", + "```\n", + "****.wav|{話者名}|{言語ID、ZHかJPかEN}|{書き起こしテキスト}\n", + "```\n", + "\n", + "例:\n", + "```\n", + "wav_number1.wav|hanako|JP|こんにちは、聞こえて、いますか?\n", + "wav_next.wav|taro|JP|はい、聞こえています……。\n", + "english_teacher.wav|Mary|EN|How are you? I'm fine, thank you, and you?\n", + "...\n", + "```\n", + "日本語話者の単一話者データセットで構いません。\n", + "\n", + "### データセットの配置\n", + "\n", + "次にモデルの名前を適当に決めてください(空白を含まない半角英数字がよいです)。\n", + "そして、書き起こしファイルを`esd.list`という名前で保存し、またwavファイルも`raw`というフォルダを作成し、あなたのGoogle Driveの中の(上で自動的に作られるはずの)`Data`フォルダのなかに、次のように配置します。\n", + "```\n", + "├── Data\n", + "│ ├── {モデルの名前}\n", + "│ │ ├── esd.list\n", + "│ │ ├── raw\n", + "│ │ │ ├── ****.wav\n", + "│ │ │ ├── ****.wav\n", + "│ │ │ ├── ...\n", + "```" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "5r85-W20ECcr" + }, + "source": [ + "## 3. 学習の前処理\n", + "\n", + "次に学習の前処理を行います。必要なパラメータをここで指定します。次のセルに設定等を入力して実行してください。「~~かどうか」は`True`もしくは`False`を指定してください。" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": { + "id": "CXR7kjuF5GlE" + }, + "outputs": [], + "source": [ + "# 上でつけたフォルダの名前`Data/{model_name}/`\n", + "model_name = \"your_model_name\"\n", + "\n", + "# JP-Extra (日本語特化版)を使うかどうか。日本語の能力が向上する代わりに英語と中国語は使えなくなります。\n", + "use_jp_extra = True\n", + "\n", + "# 学習のバッチサイズ。VRAMのはみ出具合に応じて調整してください。\n", + "batch_size = 4\n", + "\n", + "# 学習のエポック数(データセットを合計何周するか)。\n", + "# 100で多すぎるほどかもしれませんが、もっと多くやると質が上がるのかもしれません。\n", + "epochs = 100\n", + "\n", + "# 保存頻度。何ステップごとにモデルを保存するか。分からなければデフォルトのままで。\n", + "save_every_steps = 1000\n", + "\n", + "# 音声ファイルの音量を正規化するかどうか\n", + "normalize = False\n", + "\n", + "# 音声ファイルの開始・終了にある無音区間を削除するかどうか\n", + "trim = False\n", + "\n", + "# 読みのエラーが出た場合にどうするか。\n", + "# \"raise\"ならテキスト前処理が終わったら中断、\"skip\"なら読めない行は学習に使わない、\"use\"なら無理やり使う\n", + "yomi_error = \"skip\"" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "上のセルが実行されたら、次のセルを実行して学習の前処理を行います。" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "c7g0hrdeP1Tl", - "outputId": "94f9a6f6-027f-4554-ce0c-60ac56251c22" - }, - "outputs": [], - "source": [ - "# 学習結果を試す・マージ・スタイル分けはこちらから\n", - "!python app.py --share" - ] - } - ], - "metadata": { - "accelerator": "GPU", + "id": "xMVaOIPLabV5", + "outputId": "15fac868-9132-45d9-9f5f-365b6aeb67b0" + }, + "outputs": [], + "source": [ + "from gradio_tabs.train import preprocess_all\n", + "\n", + "preprocess_all(\n", + " model_name=model_name,\n", + " batch_size=batch_size,\n", + " epochs=epochs,\n", + " save_every_steps=save_every_steps,\n", + " num_processes=2,\n", + " normalize=normalize,\n", + " trim=trim,\n", + " freeze_EN_bert=False,\n", + " freeze_JP_bert=False,\n", + " freeze_ZH_bert=False,\n", + " freeze_style=False,\n", + " freeze_decoder=False, # ここをTrueにするともしかしたら違う結果になるかもしれません。\n", + " use_jp_extra=use_jp_extra,\n", + " val_per_lang=0,\n", + " log_interval=200,\n", + " yomi_error=yomi_error,\n", + ")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 4. 学習\n", + "\n", + "前処理が正常に終わったら、学習を行います。次のセルを実行すると学習が始まります。\n", + "\n", + "学習の結果は、上で指定した`save_every_steps`の間隔で、Google Driveの中の`Style-Bert-VITS2/Data/{モデルの名前}/model_assets/`フォルダに保存されます。\n", + "\n", + "このフォルダをダウンロードし、ローカルのStyle-Bert-VITS2の`model_assets`フォルダに上書きすれば、学習結果を使うことができます。" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { "colab": { - "gpuType": "T4", - "provenance": [] + "base_uri": "https://localhost:8080/" }, - "kernelspec": { - "display_name": "Python 3", - "name": "python3" + "id": "laieKrbEb6Ij", + "outputId": "72238c88-f294-4ed9-84f6-84c1c17999ca" + }, + "outputs": [], + "source": [ + "# 上でつけたモデル名を入力。学習を途中からする場合はきちんとモデルが保存されているフォルダ名を入力。\n", + "model_name = \"your_model_name\"\n", + "\n", + "\n", + "import yaml\n", + "from gradio_tabs.train import get_path\n", + "\n", + "dataset_path, _, _, _, config_path = get_path(model_name)\n", + "\n", + "with open(\"default_config.yml\", \"r\", encoding=\"utf-8\") as f:\n", + " yml_data = yaml.safe_load(f)\n", + "yml_data[\"model_name\"] = model_name\n", + "with open(\"config.yml\", \"w\", encoding=\"utf-8\") as f:\n", + " yaml.dump(yml_data, f, allow_unicode=True)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# 日本語特化版を「使う」場合\n", + "!python train_ms_jp_extra.py --config {config_path} --model {dataset_path} --assets_root {assets_root}" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# 日本語特化版を「使わない」場合\n", + "!python train_ms.py --config {config_path} --model {dataset_path} --assets_root {assets_root}" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.10.11" - } + "id": "c7g0hrdeP1Tl", + "outputId": "94f9a6f6-027f-4554-ce0c-60ac56251c22" + }, + "outputs": [], + "source": [ + "# 学習結果を試す・マージ・スタイル分けはこちらから\n", + "!python app.py --share" + ] + } + ], + "metadata": { + "accelerator": "GPU", + "colab": { + "gpuType": "T4", + "provenance": [] + }, + "kernelspec": { + "display_name": "Python 3", + "name": "python3" }, - "nbformat": 4, - "nbformat_minor": 0 + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.10.11" + } + }, + "nbformat": 4, + "nbformat_minor": 0 } diff --git a/docs/CHANGELOG.md b/docs/CHANGELOG.md index fe1ed527a..3a2818f38 100644 --- a/docs/CHANGELOG.md +++ b/docs/CHANGELOG.md @@ -1,5 +1,22 @@ # Changelog +## v2.5.0 (2024-05-26) + +WIP + +### 改善 + +- 音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように +- 上の改善を既存モデルでも使えるようなスタイル作成の機能追加。具体的には、フォルダ分けされた音声ファイルのディレクトリを任意に指定し、そのフォルダ分けを使って既存のモデルのスタイルの作成が可能に +- Hugging Face 🤗 に公開されているSBV2のモデルを、URLを指定すると自動でダウンロードして音声合成に使えるようにする機能の追加 +- (**ライブラリとしてのみ**)依存関係の軽量化、音声合成時に読み上げテキストの読みを表す音素列を指定する機能を追加 + 様々な改善 ([tsukumijimaさん](https://github.com/tsukumijima)による[プルリク](https://github.com/litagin02/Style-Bert-VITS2/pull/118)です、ありがとうございます!) + +### バグ修正 + +- Gradioのアップデートにより、モデル選択時等に`TypeError: Type is not JSON serializable: WindowsPath`のようなエラーが出る問題を修正 +- TensorboardをWebUIから立ち上げた際にエラーが出る問題の修正 ([#129](https://github.com/litagin02/Style-Bert-VITS2/issues/129)) + + ## v2.4.1 (2024-03-16) **batファイルでのインストール・アップデート方法の変更**(それ以外の変更はありません) diff --git a/gradio_tabs/dataset.py b/gradio_tabs/dataset.py index 21b1063b5..bbafdb568 100644 --- a/gradio_tabs/dataset.py +++ b/gradio_tabs/dataset.py @@ -86,7 +86,7 @@ def do_transcribe( ## 必要なもの -学習したい音声が入ったwavファイルいくつか。 +学習したい音声が入った音声ファイルいくつか(形式はwav以外でも通常の音声ファイル形式なら可能)。 合計時間がある程度はあったほうがいいかも、10分とかでも大丈夫だったとの報告あり。単一ファイルでも良いし複数ファイルでもよい。 ## スライス使い方 @@ -102,9 +102,8 @@ def do_transcribe( ## 注意 -- 長すぎる秒数(12-15秒くらいより長い?)のwavファイルは学習に用いられないようです。また短すぎてもあまりよくない可能性もあります。 +- ~~長すぎる秒数(12-15秒くらいより長い?)のwavファイルは学習に用いられないようです。また短すぎてもあまりよくない可能性もあります。~~ この制限はVer 2.5でなくなりましたが、長すぎる音声があるとVRAM消費量が増えたりするので、適度な長さにスライスすることをおすすめします。 - 書き起こしの結果をどれだけ修正すればいいかはデータセットに依存しそうです。 -- 手動で書き起こしをいろいろ修正したり結果を細かく確認したい場合は、[Aivis Dataset](https://github.com/litagin02/Aivis-Dataset)もおすすめします。書き起こし部分もかなり工夫されています。ですがファイル数が多い場合などは、このツールで簡易的に切り出してデータセットを作るだけでも十分という気もしています。 """ diff --git a/gradio_tabs/download_tab.py b/gradio_tabs/download_tab.py index 6d73b0ff9..ae220e5da 100644 --- a/gradio_tabs/download_tab.py +++ b/gradio_tabs/download_tab.py @@ -4,6 +4,7 @@ from huggingface_hub import snapshot_download from config import get_path_config +from style_bert_vits2.logging import logger assets_root = get_path_config().assets_root @@ -11,17 +12,18 @@ how_to_md = """ ## 使い方 -Hugging Face 🤗 に公開されているモデルをダウンロードして音声合成で使えるようにします。 +学習済みモデルの共有サイト Hugging Face 🤗 に公開されているモデルをダウンロードして音声合成で使えるようにします。 例: - `https://huggingface.co/username/my_sbv2_model`を指定すると、`model_assets/username-my_sbv2_model`に全体がダウンロードされます。 -- `https://huggingface.co/username/my_sbv2_models/tree/main/model1`を指定すると、`model_assets/username-my_sbv2_models/model1`に`model1`フォルダのみがダウンロードされます(この場合、model1フォルダ)。 +- `https://huggingface.co/username/my_sbv2_models/tree/main/model1`を指定すると、`model_assets/username-my_sbv2_models-model1`に`model1`フォルダがダウンロードされます。 **注意** -- 音声合成で使うには、`model_assets/{model_name}`の**直下**に`*.safetensors`ファイルと`config.json`ファイルと`style_vectors.npy`ファイルが必要です。特にリポジトリの構成は確認しないので、ダウンロード後に必要ならば再配置等を行ってください。 -- リポジトリの内容はチェックしませんので、ダウンロードする前にURLにアクセスしてリポジトリの内容を確認してください。怪しいURLは入力しないでください。 +- **必ずモデルの利用には(掲載があれば)利用規約を確認してください。** ダウンロード後にREADMEファイルが下記に表示されます。 +- 音声合成で使うには、`model_assets/{model_name}`の**直下**に`*.safetensors`ファイルと`config.json`ファイルと`style_vectors.npy`ファイルが必要です。特にリポジトリの構成は確認しないので、ダウンロード後に確認し、必要ならば再配置を行ってください。 +- 内容はチェックしませんので、**ダウンロードする前にURLにアクセスして中身を必ず確認**してください。怪しいURLは入力しないでください。 """ @@ -32,6 +34,7 @@ def download_model(url: str): # repo_id = "username/myrepo" repo_id = url.split("https://huggingface.co/")[1].split("/tree/main")[0] if len(repo_id.split("/")) != 2: + logger.error(f"Invalid URL: {url}") return "Error: URLが不正です。" # repo_folder = "jvnv-F1-jp" repo_folder = url.split("/tree/main/")[-1] if "/tree/main/" in url else "" @@ -41,24 +44,41 @@ def download_model(url: str): if repo_folder == "": model_name = repo_id.replace("/", "-") local_dir = assets_root / model_name + logger.info(f"Downloading {repo_id} to {local_dir}") result = snapshot_download(repo_id, local_dir=local_dir) else: model_name = repo_id.replace("/", "-") + "-" + repo_folder.split("/")[-1] local_dir = assets_root / model_name + logger.info(f"Downloading {repo_id}/{repo_folder} to {local_dir}") result = snapshot_download( repo_id, local_dir=local_dir, allow_patterns=[repo_folder + "/*"], ) # Move the downloaded folder to the correct path - for item in (assets_root / model_name / repo_folder).iterdir(): - shutil.move(item, assets_root / model_name) + shutil.copytree( + assets_root / model_name / repo_folder, local_dir, dirs_exist_ok=True + ) shutil.rmtree(assets_root / model_name / repo_folder.split("/")[0]) + # try to download README.md + try: + snapshot_download( + repo_id, + local_dir=local_dir, + allow_patterns=["README.md"], + ) + # README.mdの中身を表示 + with open(local_dir / "README.md", encoding="utf-8") as f: + readme = f.read() + except Exception as e: + logger.warning(f"README.md not found: {e}") + readme = "README.mdが見つかりませんでした。" + # Remove local_dir/.huggingface hf_dir = local_dir / ".huggingface" if hf_dir.exists(): shutil.rmtree(local_dir / ".huggingface") - return f"ダウンロード完了: {result}" + return f"保存完了。フォルダ:\n{result}", readme def create_download_app() -> gr.Blocks: @@ -68,8 +88,11 @@ def create_download_app() -> gr.Blocks: label="URL", placeholder="https://huggingface.co/username/myrepo" ) btn = gr.Button("ダウンロード") - info = gr.Textbox(label="情報", value="") - btn.click(download_model, inputs=[url], outputs=[info]) + info = gr.Markdown("ダウンロード結果") + md = gr.Markdown( + label="README.mdファイル", value="ここにREADME.mdがあれば表示されます。" + ) + btn.click(download_model, inputs=[url], outputs=[info, md]) return app diff --git a/library.ipynb b/library.ipynb index 753059a79..abc0afc75 100644 --- a/library.ipynb +++ b/library.ipynb @@ -1,138 +1,134 @@ { - "cells": [ - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "# Style-Bert-VITS2ライブラリの使用例\n", - "\n", - "`pip install style-bert-vits2`を使った、jupyter notebookでの使用例です。Google colab等でも動きます。" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# PyTorch環境の構築(ない場合)\n", - "# 参照: https://pytorch.org/get-started/locally/\n", - "\n", - "!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "id": "LLrngKcQEAyP" - }, - "outputs": [], - "source": [ - "# style-bert-vits2のインストール\n", - "\n", - "!pip install style-bert-vits2" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "id": "9xRtfUg5EZkx" - }, - "outputs": [], - "source": [ - "# BERTモデルをロード(ローカルに手動でダウンロードする必要はありません)\n", - "\n", - "from style_bert_vits2.nlp import bert_models\n", - "from style_bert_vits2.constants import Languages\n", - "\n", - "\n", - "bert_models.load_model(Languages.JP, \"ku-nlp/deberta-v2-large-japanese-char-wwm\")\n", - "bert_models.load_tokenizer(Languages.JP, \"ku-nlp/deberta-v2-large-japanese-char-wwm\")\n", - "# bert_models.load_model(Languages.EN, \"microsoft/deberta-v3-large\")\n", - "# bert_models.load_tokenizer(Languages.EN, \"microsoft/deberta-v3-large\")\n", - "# bert_models.load_model(Languages.ZH, \"hfl/chinese-roberta-wwm-ext-large\")\n", - "# bert_models.load_tokenizer(Languages.ZH, \"hfl/chinese-roberta-wwm-ext-large\")" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "id": "q2V9d3HyFAr_" - }, - "outputs": [], - "source": [ - "# Hugging Faceから試しにデフォルトモデルをダウンロードしてみて、それを音声合成に使ってみる\n", - "# model_assetsディレクトリにダウンロードされます\n", - "\n", - "from pathlib import Path\n", - "from huggingface_hub import hf_hub_download\n", - "\n", - "\n", - "model_file = \"jvnv-F1-jp/jvnv-F1-jp_e160_s14000.safetensors\"\n", - "config_file = \"jvnv-F1-jp/config.json\"\n", - "style_file = \"jvnv-F1-jp/style_vectors.npy\"\n", - "\n", - "for file in [model_file, config_file, style_file]:\n", - " print(file)\n", - " hf_hub_download(\n", - " \"litagin/style_bert_vits2_jvnv\",\n", - " file,\n", - " local_dir=\"model_assets\"\n", - " )" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "id": "hJa31MEUFhe4" - }, - "outputs": [], - "source": [ - "# 上でダウンロードしたモデルファイルを指定して音声合成のテスト\n", - "\n", - "from style_bert_vits2.tts_model import TTSModel\n", - "\n", - "assets_root = Path(\"model_assets\")\n", - "\n", - "model = TTSModel(\n", - " model_path=assets_root / model_file,\n", - " config_path=assets_root / config_file,\n", - " style_vec_path=assets_root / style_file,\n", - " device=\"cpu\"\n", - ")" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "id": "Gal0tqrtGXZx" - }, - "outputs": [], - "source": [ - "from IPython.display import Audio, display\n", - "\n", - "sr, audio = model.infer(text=\"こんにちは\")\n", - "display(Audio(audio, rate=sr))" - ] - } - ], - "metadata": { - "colab": { - "provenance": [] - }, - "kernelspec": { - "display_name": "Python 3", - "name": "python3" - }, - "language_info": { - "name": "python" - } + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Style-Bert-VITS2ライブラリの使用例\n", + "\n", + "`pip install style-bert-vits2`を使った、jupyter notebookでの使用例です。Google colab等でも動きます。" + ] }, - "nbformat": 4, - "nbformat_minor": 0 + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# PyTorch環境の構築(ない場合)\n", + "# 参照: https://pytorch.org/get-started/locally/\n", + "\n", + "!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "LLrngKcQEAyP" + }, + "outputs": [], + "source": [ + "# style-bert-vits2のインストール\n", + "\n", + "!pip install style-bert-vits2" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "9xRtfUg5EZkx" + }, + "outputs": [], + "source": [ + "# BERTモデルをロード(ローカルに手動でダウンロードする必要はありません)\n", + "\n", + "from style_bert_vits2.nlp import bert_models\n", + "from style_bert_vits2.constants import Languages\n", + "\n", + "\n", + "bert_models.load_model(Languages.JP, \"ku-nlp/deberta-v2-large-japanese-char-wwm\")\n", + "bert_models.load_tokenizer(Languages.JP, \"ku-nlp/deberta-v2-large-japanese-char-wwm\")\n", + "# bert_models.load_model(Languages.EN, \"microsoft/deberta-v3-large\")\n", + "# bert_models.load_tokenizer(Languages.EN, \"microsoft/deberta-v3-large\")\n", + "# bert_models.load_model(Languages.ZH, \"hfl/chinese-roberta-wwm-ext-large\")\n", + "# bert_models.load_tokenizer(Languages.ZH, \"hfl/chinese-roberta-wwm-ext-large\")" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "q2V9d3HyFAr_" + }, + "outputs": [], + "source": [ + "# Hugging Faceから試しにデフォルトモデルをダウンロードしてみて、それを音声合成に使ってみる\n", + "# model_assetsディレクトリにダウンロードされます\n", + "\n", + "from pathlib import Path\n", + "from huggingface_hub import hf_hub_download\n", + "\n", + "\n", + "model_file = \"jvnv-F1-jp/jvnv-F1-jp_e160_s14000.safetensors\"\n", + "config_file = \"jvnv-F1-jp/config.json\"\n", + "style_file = \"jvnv-F1-jp/style_vectors.npy\"\n", + "\n", + "for file in [model_file, config_file, style_file]:\n", + " print(file)\n", + " hf_hub_download(\"litagin/style_bert_vits2_jvnv\", file, local_dir=\"model_assets\")" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "hJa31MEUFhe4" + }, + "outputs": [], + "source": [ + "# 上でダウンロードしたモデルファイルを指定して音声合成のテスト\n", + "\n", + "from style_bert_vits2.tts_model import TTSModel\n", + "\n", + "assets_root = Path(\"model_assets\")\n", + "\n", + "model = TTSModel(\n", + " model_path=assets_root / model_file,\n", + " config_path=assets_root / config_file,\n", + " style_vec_path=assets_root / style_file,\n", + " device=\"cpu\",\n", + ")" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "Gal0tqrtGXZx" + }, + "outputs": [], + "source": [ + "from IPython.display import Audio, display\n", + "\n", + "sr, audio = model.infer(text=\"こんにちは\")\n", + "display(Audio(audio, rate=sr))" + ] + } + ], + "metadata": { + "colab": { + "provenance": [] + }, + "kernelspec": { + "display_name": "Python 3", + "name": "python3" + }, + "language_info": { + "name": "python" + } + }, + "nbformat": 4, + "nbformat_minor": 0 } diff --git a/pyproject.toml b/pyproject.toml index c292b5066..45fbbcb7e 100644 --- a/pyproject.toml +++ b/pyproject.toml @@ -78,7 +78,7 @@ cov = ["test-cov", "cov-report"] [tool.hatch.envs.style] detached = true -dependencies = ["black", "isort"] +dependencies = ["black[jupyter]", "isort"] [tool.hatch.envs.style.scripts] check = [ "black --check --diff .", diff --git a/slice.py b/slice.py index 3f9fcc18f..b3d013b13 100644 --- a/slice.py +++ b/slice.py @@ -15,7 +15,7 @@ def is_audio_file(file: Path) -> bool: - supported_extensions = [".wav", ".flac", ".mp3", ".ogg", ".opus"] + supported_extensions = [".wav", ".flac", ".mp3", ".ogg", ".opus", ".m4a"] return file.suffix.lower() in supported_extensions From a92b0cabff939fc297c601f8ffd5c5a7d0be1623 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 08:22:39 +0900 Subject: [PATCH 09/50] Improve: slice.py preserves subdir structure --- slice.py | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/slice.py b/slice.py index b3d013b13..bfcb916cd 100644 --- a/slice.py +++ b/slice.py @@ -197,11 +197,12 @@ def process_queue( q.task_done() break try: + rel_path = file.relative_to(input_dir) time_sec, count = split_wav( vad_model=vad_model, utils=utils, audio_file=file, - target_dir=output_dir, + target_dir=output_dir / rel_path.parent, min_sec=min_sec, max_sec=max_sec, min_silence_dur_ms=min_silence_dur_ms, From 5fa621017664678d692f8bb2306ff964c37591aa Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 08:23:38 +0900 Subject: [PATCH 10/50] Batch sampler for backward compatibility, reduce tb log --- gradio_tabs/dataset.py | 4 +- gradio_tabs/train.py | 16 +++- train_ms.py | 155 +++++++++++++++++++++----------------- train_ms_jp_extra.py | 166 ++++++++++++++++++++++++----------------- 4 files changed, 199 insertions(+), 142 deletions(-) diff --git a/gradio_tabs/dataset.py b/gradio_tabs/dataset.py index bbafdb568..35fccb3fa 100644 --- a/gradio_tabs/dataset.py +++ b/gradio_tabs/dataset.py @@ -86,7 +86,7 @@ def do_transcribe( ## 必要なもの -学習したい音声が入った音声ファイルいくつか(形式はwav以外でも通常の音声ファイル形式なら可能)。 +学習したい音声が入った音声ファイルいくつか(形式はwav以外でもmp3等通常の音声ファイル形式なら可能)。 合計時間がある程度はあったほうがいいかも、10分とかでも大丈夫だったとの報告あり。単一ファイルでも良いし複数ファイルでもよい。 ## スライス使い方 @@ -120,7 +120,7 @@ def create_dataset_app() -> gr.Blocks: input_dir = gr.Textbox( label="元音声の入っているフォルダパス", value="inputs", - info="下記フォルダにwavファイルを入れておいてください", + info="下記フォルダにwavやmp3等のファイルを入れておいてください", ) min_sec = gr.Slider( minimum=0, diff --git a/gradio_tabs/train.py b/gradio_tabs/train.py index 82377971c..f83d30bed 100644 --- a/gradio_tabs/train.py +++ b/gradio_tabs/train.py @@ -329,6 +329,7 @@ def train( skip_style: bool = False, use_jp_extra: bool = True, speedup: bool = False, + use_custom_batch_sampler: bool = False, ): paths = get_path(model_name) # 学習再開の場合を考えて念のためconfig.ymlの名前等を更新 @@ -351,6 +352,8 @@ def train( cmd.append("--skip_default_style") if speedup: cmd.append("--speedup") + if use_custom_batch_sampler: + cmd.append("--use_custom_batch_sampler") success, message = run_script_with_log(cmd, ignore_warning=True) if not success: logger.error("Train failed.") @@ -694,6 +697,11 @@ def create_train_app(): label="JP-Extra版を使う", value=True, ) + use_custom_batch_sampler = gr.Checkbox( + label="カスタムバッチサンプラーを使う", + info="Ver 2.5以降にうまく学習できなかったりVRAMが足りない場合に試してみてください", + value=False, + ) speedup = gr.Checkbox( label="ログ等をスキップして学習を高速化する", value=False, @@ -781,7 +789,13 @@ def create_train_app(): # Train train_btn.click( second_elem_of(train), - inputs=[model_name, skip_style, use_jp_extra_train, speedup], + inputs=[ + model_name, + skip_style, + use_jp_extra_train, + speedup, + use_custom_batch_sampler, + ], outputs=[info_train], ) tensorboard_btn.click( diff --git a/train_ms.py b/train_ms.py index 930e8c3c5..31670ac66 100644 --- a/train_ms.py +++ b/train_ms.py @@ -210,28 +210,45 @@ def run(): writer = SummaryWriter(log_dir=model_dir) writer_eval = SummaryWriter(log_dir=os.path.join(model_dir, "eval")) train_dataset = TextAudioSpeakerLoader(hps.data.training_files, hps.data) - train_sampler = DistributedBucketSampler( - train_dataset, - hps.train.batch_size, - [32, 300, 400, 500, 600, 700, 800, 900, 1000], - num_replicas=n_gpus, - rank=rank, - shuffle=True, - ) collate_fn = TextAudioSpeakerCollate() - train_loader = DataLoader( - train_dataset, - # メモリ消費量を減らそうとnum_workersを1にしてみる - # num_workers=min(config.train_ms_config.num_workers, os.cpu_count() // 2), - num_workers=1, - shuffle=False, - pin_memory=True, - collate_fn=collate_fn, - batch_sampler=train_sampler, - persistent_workers=True, - # これもメモリ消費量を減らそうとしてコメントアウト - # prefetch_factor=4, - ) # DataLoader config could be adjusted. + if args.use_custom_batch_sampler: + train_sampler = DistributedBucketSampler( + train_dataset, + hps.train.batch_size, + [32, 300, 400, 500, 600, 700, 800, 900, 1000], + num_replicas=n_gpus, + rank=rank, + shuffle=True, + ) + train_loader = DataLoader( + train_dataset, + # メモリ消費量を減らそうとnum_workersを1にしてみる + # num_workers=min(config.train_ms_config.num_workers, os.cpu_count() // 2), + num_workers=1, + shuffle=False, + pin_memory=True, + collate_fn=collate_fn, + batch_sampler=train_sampler, + # batch_size=hps.train.batch_size, + persistent_workers=True, + # これもメモリ消費量を減らそうとしてコメントアウト + # prefetch_factor=6, + ) + else: + train_loader = DataLoader( + train_dataset, + # メモリ消費量を減らそうとnum_workersを1にしてみる + # num_workers=min(config.train_ms_config.num_workers, os.cpu_count() // 2), + num_workers=1, + shuffle=True, + pin_memory=True, + collate_fn=collate_fn, + # batch_sampler=train_sampler, + batch_size=hps.train.batch_size, + persistent_workers=True, + # これもメモリ消費量を減らそうとしてコメントアウト + # prefetch_factor=6, + ) eval_dataset = None eval_loader = None if rank == 0 and not args.speedup: @@ -760,21 +777,21 @@ def train_and_evaluate( scalar_dict.update( {f"loss/d_g/{i}": v for i, v in enumerate(losses_disc_g)} ) - - image_dict = { - "slice/mel_org": utils.plot_spectrogram_to_numpy( - y_mel[0].data.cpu().numpy() - ), - "slice/mel_gen": utils.plot_spectrogram_to_numpy( - y_hat_mel[0].data.cpu().numpy() - ), - "all/mel": utils.plot_spectrogram_to_numpy( - mel[0].data.cpu().numpy() - ), - "all/attn": utils.plot_alignment_to_numpy( - attn[0, 0].data.cpu().numpy() - ), - } + # 以降のログは計算が重い気がするし誰も見てない気がするのでコメントアウト + # image_dict = { + # "slice/mel_org": utils.plot_spectrogram_to_numpy( + # y_mel[0].data.cpu().numpy() + # ), + # "slice/mel_gen": utils.plot_spectrogram_to_numpy( + # y_hat_mel[0].data.cpu().numpy() + # ), + # "all/mel": utils.plot_spectrogram_to_numpy( + # mel[0].data.cpu().numpy() + # ), + # "all/attn": utils.plot_alignment_to_numpy( + # attn[0, 0].data.cpu().numpy() + # ), + # } utils.summarize( writer=writer, global_step=global_step, @@ -906,32 +923,39 @@ def evaluate(hps, generator, eval_loader, writer_eval): sdp_ratio=0.0 if not use_sdp else 1.0, ) y_hat_lengths = mask.sum([1, 2]).long() * hps.data.hop_length - - mel = spec_to_mel_torch( - spec, - hps.data.filter_length, - hps.data.n_mel_channels, - hps.data.sampling_rate, - hps.data.mel_fmin, - hps.data.mel_fmax, - ) - y_hat_mel = mel_spectrogram_torch( - y_hat.squeeze(1).float(), - hps.data.filter_length, - hps.data.n_mel_channels, - hps.data.sampling_rate, - hps.data.hop_length, - hps.data.win_length, - hps.data.mel_fmin, - hps.data.mel_fmax, - ) - image_dict.update( - { - f"gen/mel_{batch_idx}": utils.plot_spectrogram_to_numpy( - y_hat_mel[0].cpu().numpy() - ) - } - ) + # 以降のログは計算が重い気がするし誰も見てない気がするのでコメントアウト + # mel = spec_to_mel_torch( + # spec, + # hps.data.filter_length, + # hps.data.n_mel_channels, + # hps.data.sampling_rate, + # hps.data.mel_fmin, + # hps.data.mel_fmax, + # ) + # y_hat_mel = mel_spectrogram_torch( + # y_hat.squeeze(1).float(), + # hps.data.filter_length, + # hps.data.n_mel_channels, + # hps.data.sampling_rate, + # hps.data.hop_length, + # hps.data.win_length, + # hps.data.mel_fmin, + # hps.data.mel_fmax, + # ) + # image_dict.update( + # { + # f"gen/mel_{batch_idx}": utils.plot_spectrogram_to_numpy( + # y_hat_mel[0].cpu().numpy() + # ) + # } + # ) + # image_dict.update( + # { + # f"gt/mel_{batch_idx}": utils.plot_spectrogram_to_numpy( + # mel[0].cpu().numpy() + # ) + # } + # ) audio_dict.update( { f"gen/audio_{batch_idx}_{use_sdp}": y_hat[ @@ -939,13 +963,6 @@ def evaluate(hps, generator, eval_loader, writer_eval): ] } ) - image_dict.update( - { - f"gt/mel_{batch_idx}": utils.plot_spectrogram_to_numpy( - mel[0].cpu().numpy() - ) - } - ) audio_dict.update({f"gt/audio_{batch_idx}": y[0, :, : y_lengths[0]]}) utils.summarize( diff --git a/train_ms_jp_extra.py b/train_ms_jp_extra.py index 07cc24bd1..36cbb6ee4 100644 --- a/train_ms_jp_extra.py +++ b/train_ms_jp_extra.py @@ -17,7 +17,11 @@ # logging.getLogger("numba").setLevel(logging.WARNING) import default_style from config import get_config -from data_utils import TextAudioSpeakerCollate, TextAudioSpeakerLoader +from data_utils import ( + TextAudioSpeakerCollate, + TextAudioSpeakerLoader, + DistributedBucketSampler, +) from losses import WavLMLoss, discriminator_loss, feature_loss, generator_loss, kl_loss from mel_processing import mel_spectrogram_torch, spec_to_mel_torch from style_bert_vits2.logging import logger @@ -94,6 +98,11 @@ def run(): help="Huggingface model repo id to backup the model.", default=None, ) + parser.add_argument( + "--use_custom_batch_sampler", + help="Use custom batch sampler for training, which was used in the version < 2.5", + action="store_true", + ) args = parser.parse_args() # Set log file @@ -207,29 +216,45 @@ def run(): writer = SummaryWriter(log_dir=model_dir) writer_eval = SummaryWriter(log_dir=os.path.join(model_dir, "eval")) train_dataset = TextAudioSpeakerLoader(hps.data.training_files, hps.data) - # train_sampler = DistributedBucketSampler( - # train_dataset, - # hps.train.batch_size, - # [32, 300, 400, 500, 600, 700, 800, 900, 1000], - # num_replicas=n_gpus, - # rank=rank, - # shuffle=True, - # ) collate_fn = TextAudioSpeakerCollate(use_jp_extra=True) - train_loader = DataLoader( - train_dataset, - # メモリ消費量を減らそうとnum_workersを1にしてみる - # num_workers=min(config.train_ms_config.num_workers, os.cpu_count() // 2), - num_workers=1, - shuffle=True, - pin_memory=True, - collate_fn=collate_fn, - # batch_sampler=train_sampler, - batch_size=hps.train.batch_size, - persistent_workers=True, - # これもメモリ消費量を減らそうとしてコメントアウト - # prefetch_factor=6, - ) # DataLoader config could be adjusted. + if args.use_custom_batch_sampler: + train_sampler = DistributedBucketSampler( + train_dataset, + hps.train.batch_size, + [32, 300, 400, 500, 600, 700, 800, 900, 1000], + num_replicas=n_gpus, + rank=rank, + shuffle=True, + ) + train_loader = DataLoader( + train_dataset, + # メモリ消費量を減らそうとnum_workersを1にしてみる + # num_workers=min(config.train_ms_config.num_workers, os.cpu_count() // 2), + num_workers=1, + shuffle=False, + pin_memory=True, + collate_fn=collate_fn, + batch_sampler=train_sampler, + # batch_size=hps.train.batch_size, + persistent_workers=True, + # これもメモリ消費量を減らそうとしてコメントアウト + # prefetch_factor=6, + ) + else: + train_loader = DataLoader( + train_dataset, + # メモリ消費量を減らそうとnum_workersを1にしてみる + # num_workers=min(config.train_ms_config.num_workers, os.cpu_count() // 2), + num_workers=1, + shuffle=True, + pin_memory=True, + collate_fn=collate_fn, + # batch_sampler=train_sampler, + batch_size=hps.train.batch_size, + persistent_workers=True, + # これもメモリ消費量を減らそうとしてコメントアウト + # prefetch_factor=6, + ) eval_dataset = None eval_loader = None if rank == 0 and not args.speedup: @@ -900,20 +925,21 @@ def train_and_evaluate( "loss/g/lm_gen": loss_lm_gen, } ) - image_dict = { - "slice/mel_org": utils.plot_spectrogram_to_numpy( - y_mel[0].data.cpu().numpy() - ), - "slice/mel_gen": utils.plot_spectrogram_to_numpy( - y_hat_mel[0].data.cpu().numpy() - ), - "all/mel": utils.plot_spectrogram_to_numpy( - mel[0].data.cpu().numpy() - ), - "all/attn": utils.plot_alignment_to_numpy( - attn[0, 0].data.cpu().numpy() - ), - } + # 以降のログは計算が重い気がするし誰も見てない気がするのでコメントアウト + # image_dict = { + # "slice/mel_org": utils.plot_spectrogram_to_numpy( + # y_mel[0].data.cpu().numpy() + # ), + # "slice/mel_gen": utils.plot_spectrogram_to_numpy( + # y_hat_mel[0].data.cpu().numpy() + # ), + # "all/mel": utils.plot_spectrogram_to_numpy( + # mel[0].data.cpu().numpy() + # ), + # "all/attn": utils.plot_alignment_to_numpy( + # attn[0, 0].data.cpu().numpy() + # ), + # } utils.summarize( writer=writer, global_step=global_step, @@ -1046,32 +1072,39 @@ def evaluate(hps, generator, eval_loader, writer_eval): sdp_ratio=0.0 if not use_sdp else 1.0, ) y_hat_lengths = mask.sum([1, 2]).long() * hps.data.hop_length - - mel = spec_to_mel_torch( - spec, - hps.data.filter_length, - hps.data.n_mel_channels, - hps.data.sampling_rate, - hps.data.mel_fmin, - hps.data.mel_fmax, - ) - y_hat_mel = mel_spectrogram_torch( - y_hat.squeeze(1).float(), - hps.data.filter_length, - hps.data.n_mel_channels, - hps.data.sampling_rate, - hps.data.hop_length, - hps.data.win_length, - hps.data.mel_fmin, - hps.data.mel_fmax, - ) - image_dict.update( - { - f"gen/mel_{batch_idx}": utils.plot_spectrogram_to_numpy( - y_hat_mel[0].cpu().numpy() - ) - } - ) + # 以降のログは計算が重い気がするし誰も見てない気がするのでコメントアウト + # mel = spec_to_mel_torch( + # spec, + # hps.data.filter_length, + # hps.data.n_mel_channels, + # hps.data.sampling_rate, + # hps.data.mel_fmin, + # hps.data.mel_fmax, + # ) + # y_hat_mel = mel_spectrogram_torch( + # y_hat.squeeze(1).float(), + # hps.data.filter_length, + # hps.data.n_mel_channels, + # hps.data.sampling_rate, + # hps.data.hop_length, + # hps.data.win_length, + # hps.data.mel_fmin, + # hps.data.mel_fmax, + # ) + # image_dict.update( + # { + # f"gen/mel_{batch_idx}": utils.plot_spectrogram_to_numpy( + # y_hat_mel[0].cpu().numpy() + # ) + # } + # ) + # image_dict.update( + # { + # f"gt/mel_{batch_idx}": utils.plot_spectrogram_to_numpy( + # mel[0].cpu().numpy() + # ) + # } + # ) audio_dict.update( { f"gen/audio_{batch_idx}_{use_sdp}": y_hat[ @@ -1079,13 +1112,6 @@ def evaluate(hps, generator, eval_loader, writer_eval): ] } ) - image_dict.update( - { - f"gt/mel_{batch_idx}": utils.plot_spectrogram_to_numpy( - mel[0].cpu().numpy() - ) - } - ) audio_dict.update({f"gt/audio_{batch_idx}": y[0, :, : y_lengths[0]]}) utils.summarize( From f1e022a08c9aefcdd671a26eb9539defb28b5161 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 08:27:39 +0900 Subject: [PATCH 11/50] Fix tb logging --- train_ms.py | 2 +- train_ms_jp_extra.py | 2 +- 2 files changed, 2 insertions(+), 2 deletions(-) diff --git a/train_ms.py b/train_ms.py index 31670ac66..6f416e78d 100644 --- a/train_ms.py +++ b/train_ms.py @@ -795,7 +795,7 @@ def train_and_evaluate( utils.summarize( writer=writer, global_step=global_step, - images=image_dict, + # images=image_dict, scalars=scalar_dict, ) diff --git a/train_ms_jp_extra.py b/train_ms_jp_extra.py index 36cbb6ee4..a7c2d8992 100644 --- a/train_ms_jp_extra.py +++ b/train_ms_jp_extra.py @@ -943,7 +943,7 @@ def train_and_evaluate( utils.summarize( writer=writer, global_step=global_step, - images=image_dict, + # images=image_dict, scalars=scalar_dict, ) From ce26a0384d8413bf9aaaa0f2af86704c198d6ddd Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 10:18:09 +0900 Subject: [PATCH 12/50] Improve: save intermediate trans result for HF whisper --- .gitignore | 2 ++ transcribe.py | 42 ++++++++++++++++++++++++++++-------------- 2 files changed, 30 insertions(+), 14 deletions(-) diff --git a/.gitignore b/.gitignore index cc5fed449..6ca8d26c6 100644 --- a/.gitignore +++ b/.gitignore @@ -39,3 +39,5 @@ safetensors.ipynb # pyopenjtalk's dictionary *.dic + +playground.ipynb diff --git a/transcribe.py b/transcribe.py index 3fcde2517..da489a36f 100644 --- a/transcribe.py +++ b/transcribe.py @@ -48,6 +48,7 @@ def __getitem__(self, i: int) -> str: def transcribe_files_with_hf_whisper( audio_files: list[Path], model_id: str, + output_file: Path, initial_prompt: Optional[str] = None, language: str = "ja", batch_size: int = 16, @@ -68,13 +69,6 @@ def transcribe_files_with_hf_whisper( } logger.info(f"generate_kwargs: {generate_kwargs}") - if initial_prompt is not None: - prompt_ids: torch.Tensor = processor.get_prompt_ids( - initial_prompt, return_tensors="pt" - ) - prompt_ids = prompt_ids.to(device) - generate_kwargs["prompt_ids"] = prompt_ids - pipe = pipeline( model=model_id, max_new_tokens=128, @@ -82,17 +76,32 @@ def transcribe_files_with_hf_whisper( batch_size=batch_size, torch_dtype=torch.float16, device="cuda", - generate_kwargs=generate_kwargs, + # generate_kwargs=generate_kwargs, ) + if initial_prompt is not None: + prompt_ids: torch.Tensor = pipe.tokenizer.get_prompt_ids( + initial_prompt, return_tensors="pt" + ).to(device) + generate_kwargs["prompt_ids"] = prompt_ids + dataset = StrListDataset([str(f) for f in audio_files]) results: list[str] = [] - for whisper_result in pipe(dataset): + for whisper_result, file in zip( + pipe(dataset, generate_kwargs=generate_kwargs), audio_files + ): text: str = whisper_result["text"] # なぜかテキストの最初に" {initial_prompt}"が入るので、文字の最初からこれを削除する # cf. https://github.com/huggingface/transformers/issues/27594 if text.startswith(f" {initial_prompt}"): text = text[len(f" {initial_prompt}") :] + # with open(output_file, "w", encoding="utf-8") as f: + # for wav_file, text in zip(wav_files, results): + # wav_rel_path = wav_file.relative_to(input_dir) + # f.write(f"{wav_rel_path}|{model_name}|{language_id}|{text}\n") + with open(output_file, "a", encoding="utf-8") as f: + wav_rel_path = file.relative_to(input_dir) + f.write(f"{wav_rel_path}|{model_name}|{language_id}|{text}\n") results.append(text) if pbar is not None: pbar.update(1) @@ -118,6 +127,7 @@ def transcribe_files_with_hf_whisper( parser.add_argument("--device", type=str, default="cuda") parser.add_argument("--compute_type", type=str, default="bfloat16") parser.add_argument("--use_hf_whisper", action="store_true") + parser.add_argument("--hf_repo_id", type=str, default="") parser.add_argument("--batch_size", type=int, default=16) parser.add_argument("--num_beams", type=int, default=1) parser.add_argument("--no_repeat_ngram_size", type=int, default=10) @@ -185,7 +195,10 @@ def transcribe_files_with_hf_whisper( with open(output_file, "a", encoding="utf-8") as f: f.write(f"{wav_rel_path}|{model_name}|{language_id}|{text}\n") else: - model_id = f"openai/whisper-{args.model}" + if args.hf_repo_id == "": + model_id = f"openai/whisper-{args.model}" + else: + model_id = args.hf_repo_id logger.info(f"Loading HF Whisper model ({model_id})") pbar = tqdm(total=len(wav_files), file=SAFE_STDOUT) results = transcribe_files_with_hf_whisper( @@ -198,10 +211,11 @@ def transcribe_files_with_hf_whisper( no_repeat_ngram_size=no_repeat_ngram_size, device=device, pbar=pbar, + output_file=output_file, ) - with open(output_file, "w", encoding="utf-8") as f: - for wav_file, text in zip(wav_files, results): - wav_rel_path = wav_file.relative_to(input_dir) - f.write(f"{wav_rel_path}|{model_name}|{language_id}|{text}\n") + # with open(output_file, "w", encoding="utf-8") as f: + # for wav_file, text in zip(wav_files, results): + # wav_rel_path = wav_file.relative_to(input_dir) + # f.write(f"{wav_rel_path}|{model_name}|{language_id}|{text}\n") sys.exit(0) From d8ca829e28b4dbce6f19a126f57e0667b06331a9 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 10:24:52 +0900 Subject: [PATCH 13/50] Docs, if only one subdir skip generating style --- default_style.py | 7 +++++-- gradio_tabs/dataset.py | 9 ++++++--- 2 files changed, 11 insertions(+), 5 deletions(-) diff --git a/default_style.py b/default_style.py index abad90e7e..bfe569809 100644 --- a/default_style.py +++ b/default_style.py @@ -50,8 +50,11 @@ def save_styles_by_dirs(wav_dir: Union[Path, str], output_dir: Union[Path, str]) subdirs = [d for d in wav_dir.iterdir() if d.is_dir()] subdirs.sort() - if not subdirs: - logger.warning("No style directories found. Saving only neutral style.") + if len(subdirs) in (0, 1): + logger.info( + f"At least 2 subdirectories are required for generating style vectors with respect to them, found {len(subdirs)}." + ) + logger.info("Generating only neutral style vector instead.") save_neutral_vector(wav_dir, output_dir) # First get mean of all for Neutral diff --git a/gradio_tabs/dataset.py b/gradio_tabs/dataset.py index 35fccb3fa..f6ad278fe 100644 --- a/gradio_tabs/dataset.py +++ b/gradio_tabs/dataset.py @@ -82,7 +82,7 @@ def do_transcribe( - 与えられた音声からちょうどいい長さの発話区間を切り取りスライス - 音声に対して文字起こし -このうち両方を使ってもよいし、スライスする必要がない場合は後者のみを使ってもよいです。 +このうち両方を使ってもよいし、スライスする必要がない場合は後者のみを使ってもよいです。**コーパス音源などすでに適度な長さの音声ファイルがある場合はスライスは不要**です。 ## 必要なもの @@ -90,13 +90,13 @@ def do_transcribe( 合計時間がある程度はあったほうがいいかも、10分とかでも大丈夫だったとの報告あり。単一ファイルでも良いし複数ファイルでもよい。 ## スライス使い方 -1. `inputs`フォルダにwavファイルをすべて入れる +1. `inputs`フォルダに音声ファイルをすべて入れる(スタイル分けをしたい場合は、サブフォルダにスタイルごとに音声を分けて入れる) 2. `モデル名`を入力して、設定を必要なら調整して`音声のスライス`ボタンを押す 3. 出来上がった音声ファイルたちは`Data/{モデル名}/raw`に保存される ## 書き起こし使い方 -1. 書き起こしたい音声ファイルのあるフォルダを指定(デフォルトは`Data/{モデル名}/raw`なのでスライス後に行う場合は省略してよい) +1. `Data/{モデル名}/raw`に音声ファイルが入っていることを確認(直下でなくてもよい) 2. 設定を必要なら調整してボタンを押す 3. 書き起こしファイルは`Data/{モデル名}/esd.list`に保存される @@ -115,6 +115,9 @@ def create_dataset_app() -> gr.Blocks: label="モデル名を入力してください(話者名としても使われます)。" ) with gr.Accordion("音声のスライス"): + gr.Markdown( + "**すでに適度な長さの音声ファイルからなるデータがある場合は、その音声をData/{モデル名}/rawに入れれば、このステップは不要です。**" + ) with gr.Row(): with gr.Column(): input_dir = gr.Textbox( From e52453040ce0ac75fc7d56fc1991ac07eb338e4e Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 10:47:14 +0900 Subject: [PATCH 14/50] Improve: transc order by path, train.list preserves order --- preprocess_text.py | 26 ++++++++++++++++++-------- transcribe.py | 2 +- 2 files changed, 19 insertions(+), 9 deletions(-) diff --git a/preprocess_text.py b/preprocess_text.py index 5120a1f8e..879223db9 100644 --- a/preprocess_text.py +++ b/preprocess_text.py @@ -2,7 +2,7 @@ import json from collections import defaultdict from pathlib import Path -from random import shuffle +from random import shuffle, sample from typing import Optional from tqdm import tqdm @@ -156,16 +156,26 @@ def preprocess( train_list: list[str] = [] val_list: list[str] = [] - # 各話者ごとにシャッフルして、val_per_lang個をval_listに、残りをtrain_listに追加 + # 各話者ごとに発話リストを処理 for spk, utts in spk_utt_map.items(): - shuffle(utts) - val_list += utts[:val_per_lang] - train_list += utts[val_per_lang:] - - shuffle(val_list) + if val_per_lang == 0: + train_list.extend(utts) + continue + # ランダムにval_per_lang個のインデックスを選択 + val_indices = set(sample(range(len(utts)), val_per_lang)) + # 元の順序を保ちながらリストを分割 + for index, utt in enumerate(utts): + if index in val_indices: + val_list.append(utt) + else: + train_list.append(utt) + + # バリデーションリストのサイズ調整 if len(val_list) > max_val_total: - train_list += val_list[max_val_total:] + extra_val = val_list[max_val_total:] val_list = val_list[:max_val_total] + # 余剰のバリデーション発話をトレーニングリストに追加(元の順序を保持) + train_list.extend(extra_val) with train_path.open("w", encoding="utf-8") as f: for line in train_list: diff --git a/transcribe.py b/transcribe.py index da489a36f..6bbea6b2e 100644 --- a/transcribe.py +++ b/transcribe.py @@ -152,7 +152,7 @@ def transcribe_files_with_hf_whisper( output_file.parent.mkdir(parents=True, exist_ok=True) wav_files = [f for f in input_dir.rglob("*.wav") if f.is_file()] - wav_files = sorted(wav_files, key=lambda x: x.name) + wav_files = sorted(wav_files, key=lambda x: str(x)) if output_file.exists(): logger.warning(f"{output_file} exists, backing up to {output_file}.bak") From 012f159ab5b5c9a81969e638674b492004472726 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 11:07:43 +0900 Subject: [PATCH 15/50] Fix generating style bug --- default_style.py | 17 ++++++++++++----- train_ms.py | 2 ++ train_ms_jp_extra.py | 2 ++ 3 files changed, 16 insertions(+), 5 deletions(-) diff --git a/default_style.py b/default_style.py index bfe569809..9671db2cd 100644 --- a/default_style.py +++ b/default_style.py @@ -42,11 +42,17 @@ def save_neutral_vector(wav_dir: Union[Path, str], output_path: Union[Path, str] logger.info(f"Saved style config to {json_path}") -def save_styles_by_dirs(wav_dir: Union[Path, str], output_dir: Union[Path, str]): +def save_styles_by_dirs( + wav_dir: Union[Path, str], + output_dir: Union[Path, str], + config_path: Union[Path, str], + config_output_path: Union[Path, str], +): wav_dir = Path(wav_dir) output_dir = Path(output_dir) output_dir.mkdir(parents=True, exist_ok=True) - json_path = output_dir / "config.json" + config_path = Path(config_path) + config_output_path = Path(config_output_path) subdirs = [d for d in wav_dir.iterdir() if d.is_dir()] subdirs.sort() @@ -55,6 +61,7 @@ def save_styles_by_dirs(wav_dir: Union[Path, str], output_dir: Union[Path, str]) f"At least 2 subdirectories are required for generating style vectors with respect to them, found {len(subdirs)}." ) logger.info("Generating only neutral style vector instead.") + set_style_config(config_path, config_output_path) save_neutral_vector(wav_dir, output_dir) # First get mean of all for Neutral @@ -88,10 +95,10 @@ def save_styles_by_dirs(wav_dir: Union[Path, str], output_dir: Union[Path, str]) # Save style2id config to json style2id = {name: i for i, name in enumerate(names)} - with open(json_path, encoding="utf-8") as f: + with open(config_path, encoding="utf-8") as f: json_dict = json.load(f) json_dict["data"]["num_styles"] = len(names) json_dict["data"]["style2id"] = style2id - with open(json_path, "w", encoding="utf-8") as f: + with open(config_output_path, "w", encoding="utf-8") as f: json.dump(json_dict, f, indent=2, ensure_ascii=False) - logger.info(f"Saved style config to {json_path}") + logger.info(f"Saved style config to {config_output_path}") diff --git a/train_ms.py b/train_ms.py index 6f416e78d..b699be275 100644 --- a/train_ms.py +++ b/train_ms.py @@ -195,6 +195,8 @@ def run(): default_style.save_styles_by_dirs( os.path.join(args.model, "wavs"), config.out_dir, + config_path=args.config, + config_output_path=os.path.join(config.out_dir, "config.json"), ) torch.manual_seed(hps.train.seed) diff --git a/train_ms_jp_extra.py b/train_ms_jp_extra.py index a7c2d8992..84c04651d 100644 --- a/train_ms_jp_extra.py +++ b/train_ms_jp_extra.py @@ -201,6 +201,8 @@ def run(): default_style.save_styles_by_dirs( os.path.join(args.model, "wavs"), config.out_dir, + config_path=args.config, + config_output_path=os.path.join(config.out_dir, "config.json"), ) torch.manual_seed(hps.train.seed) From 1b656b37fa389ee43d194b4ce013d354360ebc46 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 17:17:32 +0900 Subject: [PATCH 16/50] Feat: koharune-ami --- app.py | 6 +++++- data_utils.py | 1 + gradio_tabs/inference.py | 28 ++++++++++++++++++++++++---- initialize.py | 23 ++++++++++++++++++++--- preprocess_text.py | 2 +- server_editor.py | 6 +++++- style_bert_vits2/constants.py | 2 +- train_ms_jp_extra.py | 2 +- 8 files changed, 58 insertions(+), 12 deletions(-) diff --git a/app.py b/app.py index 453479c58..86d4ad3d0 100644 --- a/app.py +++ b/app.py @@ -11,6 +11,7 @@ from gradio_tabs.merge import create_merge_app from gradio_tabs.style_vectors import create_style_vectors_app from gradio_tabs.train import create_train_app +from initialize import download_default_models from style_bert_vits2.constants import GRADIO_THEME, VERSION from style_bert_vits2.nlp.japanese import pyopenjtalk_worker from style_bert_vits2.nlp.japanese.user_dict import update_dict @@ -30,12 +31,16 @@ parser.add_argument("--port", type=int, default=None) parser.add_argument("--no_autolaunch", action="store_true") parser.add_argument("--share", action="store_true") +parser.add_argument("--skip_default_models", action="store_true") args = parser.parse_args() device = args.device if device == "cuda" and not torch.cuda.is_available(): device = "cpu" +if not args.skip_default_models: + download_default_models() + path_config = get_path_config() model_holder = TTSModelHolder(Path(path_config.assets_root), device) @@ -55,7 +60,6 @@ with gr.Tab("モデルダウンロード"): create_download_app() - app.launch( server_name=args.host, server_port=args.port, diff --git a/data_utils.py b/data_utils.py index 4121e350c..7e40f7f18 100644 --- a/data_utils.py +++ b/data_utils.py @@ -5,6 +5,7 @@ import numpy as np import torch import torch.utils.data +from torch.utils.data import Dataset from tqdm import tqdm from config import get_config diff --git a/gradio_tabs/inference.py b/gradio_tabs/inference.py index 1049db473..cce1a685b 100644 --- a/gradio_tabs/inference.py +++ b/gradio_tabs/inference.py @@ -96,9 +96,28 @@ ] initial_md = """ -- Ver 2.3で追加されたエディターのほうが実際に読み上げさせるには使いやすいかもしれません。`Editor.bat`か`python server_editor.py --inbrowser`で起動できます。 +- Ver 2.5で追加されたデフォルトの[「`koharune-ami`(小春音アミ)」モデル](https://huggingface.co/litagin/sbv2_koharune_ami)は、[あみたろの声素材工房](https://amitaro.net/)で公開されているコーパス音源を利用して学習したモデルです。下記の**利用規約を必ず読んで**からご利用ください。特に**クレジット表記必須**で**エログロ等センシティブな発言に使用できません**。 -- 初期からある[jvnvのモデル](https://huggingface.co/litagin/style_bert_vits2_jvnv)は、[JVNVコーパス(言語音声と非言語音声を持つ日本語感情音声コーパス)](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus)で学習されたモデルです。ライセンスは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ja)です。 +- Ver 2.3で追加された**エディター版**のほうが実際に読み上げさせるには使いやすいかもしれません。`Editor.bat`か`python server_editor.py --inbrowser`で起動できます。 +""" + +terms_of_use_md = """ +## 利用規約 + +### JVNVコーパス (jvnv-F1-jp, jvnv-F2-jp, jvnv-M1-jp, jvnv-M2-jp) + +- [JVNVコーパス](https://huggingface.co/litagin/style_bert_vits2_jvnv) のライセンスは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ja)ですので、これを継承します。 + +### 小春音アミ (koharune-ami) + +- [小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)を全て継承します、特に、 + - エロ・グロ、政治・宗教・ヘイト・人をだます目的などには使えません、つまりセンシティブな作品や発言には使用できません + - 使用する際は(配信やXの動画等でも)必ず分かりやすい場所にクレジット表記を記載してください(クレジット表記例: `SBV2モデル:小春音アミ、あみたろの声素材工房(https://amitaro.net/)`) + - 規約を守れば商用非商用問わず利用できます +- 追加で、以下の事項を守ってください + - モデルマージに関しては、[あみたろの声素材工房のよくある質問への回答](https://amitaro.net/voice/faq/#index_id17)を遵守してください: + - 本モデルを別モデルとマージできるのは、その別モデル作成の際に学習に使われた声の権利者が許諾している場合に限る + - あみたろの声の特徴が残っている場合(マージの割合が25%以上の場合)は、その利用は[小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)の範囲内に限定され、そのモデルに関してもこの規約が適応される """ how_to_md = """ @@ -266,6 +285,7 @@ def tts_fn( with gr.Blocks(theme=GRADIO_THEME) as app: gr.Markdown(initial_md) + gr.Markdown(terms_of_use_md) with gr.Accordion(label="使い方", open=False): gr.Markdown(how_to_md) with gr.Row(): @@ -394,10 +414,10 @@ def tts_fn( ) style_weight = gr.Slider( minimum=0, - maximum=50, + maximum=20, value=DEFAULT_STYLE_WEIGHT, step=0.1, - label="スタイルの強さ", + label="スタイルの強さ(声が崩壊したら小さくしてください)", ) ref_audio_path = gr.Audio( label="参照音声", type="filepath", visible=False diff --git a/initialize.py b/initialize.py index 2bb0680db..62ce69065 100644 --- a/initialize.py +++ b/initialize.py @@ -50,7 +50,7 @@ def download_jp_extra_pretrained_models(): ) -def download_jvnv_models(): +def download_default_models(): files = [ "jvnv-F1-jp/config.json", "jvnv-F1-jp/jvnv-F1-jp_e160_s14000.safetensors", @@ -74,11 +74,28 @@ def download_jvnv_models(): local_dir="model_assets", local_dir_use_symlinks=False, ) + additional_files = { + "litagin/sbv2_koharune_ami": [ + "koharune-ami/config.json", + "koharune-ami/style_vectors.npy", + "koharune-ami/koharune-ami.safetensors", + ] + } + for repo_id, files in additional_files.items(): + for file in files: + if not Path(f"model_assets/{file}").exists(): + logger.info(f"Downloading {file}") + hf_hub_download( + repo_id, + file, + local_dir="model_assets", + local_dir_use_symlinks=False, + ) def main(): parser = argparse.ArgumentParser() - parser.add_argument("--skip_jvnv", action="store_true") + parser.add_argument("--skip_default_models", action="store_true") parser.add_argument("--only_infer", action="store_true") parser.add_argument( "--dataset_root", @@ -97,7 +114,7 @@ def main(): download_bert_models() if not args.skip_jvnv: - download_jvnv_models() + download_default_models() if not args.only_infer: download_slm_model() download_pretrained_models() diff --git a/preprocess_text.py b/preprocess_text.py index 879223db9..4dd7e33e0 100644 --- a/preprocess_text.py +++ b/preprocess_text.py @@ -2,7 +2,7 @@ import json from collections import defaultdict from pathlib import Path -from random import shuffle, sample +from random import sample, shuffle from typing import Optional from tqdm import tqdm diff --git a/server_editor.py b/server_editor.py index e0028c1cc..2a5dabc40 100644 --- a/server_editor.py +++ b/server_editor.py @@ -30,6 +30,7 @@ from scipy.io import wavfile from config import get_path_config +from initialize import download_default_models from style_bert_vits2.constants import ( DEFAULT_ASSIST_TEXT_WEIGHT, DEFAULT_NOISE, @@ -182,19 +183,22 @@ class AudioResponse(Response): parser.add_argument("--inbrowser", action="store_true") parser.add_argument("--line_length", type=int, default=None) parser.add_argument("--line_count", type=int, default=None) - +parser.add_argument("--skip_default_models", action="store_true") args = parser.parse_args() device = args.device if device == "cuda" and not torch.cuda.is_available(): device = "cpu" model_dir = Path(args.model_dir) port = int(args.port) +if not args.skip_default_models: + download_default_models() model_holder = TTSModelHolder(model_dir, device) if len(model_holder.model_names) == 0: logger.error(f"Models not found in {model_dir}.") sys.exit(1) + app = FastAPI() diff --git a/style_bert_vits2/constants.py b/style_bert_vits2/constants.py index b1987d8b7..eba3f1dad 100644 --- a/style_bert_vits2/constants.py +++ b/style_bert_vits2/constants.py @@ -32,7 +32,7 @@ class Languages(StrEnum): # デフォルトの推論パラメータ DEFAULT_STYLE = "Neutral" -DEFAULT_STYLE_WEIGHT = 5.0 +DEFAULT_STYLE_WEIGHT = 1.0 DEFAULT_SDP_RATIO = 0.2 DEFAULT_NOISE = 0.6 DEFAULT_NOISEW = 0.8 diff --git a/train_ms_jp_extra.py b/train_ms_jp_extra.py index 84c04651d..dd19f793d 100644 --- a/train_ms_jp_extra.py +++ b/train_ms_jp_extra.py @@ -18,9 +18,9 @@ import default_style from config import get_config from data_utils import ( + DistributedBucketSampler, TextAudioSpeakerCollate, TextAudioSpeakerLoader, - DistributedBucketSampler, ) from losses import WavLMLoss, discriminator_loss, feature_loss, generator_loss, kl_loss from mel_processing import mel_spectrogram_torch, spec_to_mel_torch From ad95df7d413f26864a6f47a3f8181be07d425b26 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 19:48:56 +0900 Subject: [PATCH 17/50] Add term of use --- README.md | 4 +++- data_utils.py | 1 - docs/TERM_OF_USE.md | 34 ++++++++++++++++++++++++++++++++++ gradio_tabs/inference.py | 20 ++++++++++++++++++-- 4 files changed, 55 insertions(+), 4 deletions(-) create mode 100644 docs/TERM_OF_USE.md diff --git a/README.md b/README.md index c878389ef..2beb4b5d4 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,7 @@ # Style-Bert-VITS2 +**利用の際は必ず[利用規約](/docs/TERM_OF_USE.md)をお読みください。** + Bert-VITS2 with more controllable voice styles. https://github.com/litagin02/Style-Bert-VITS2/assets/139731664/e853f9a2-db4a-4202-a1dd-56ded3c562a0 @@ -14,7 +16,7 @@ You can install via `pip install style-bert-vits2` (inference only), see [librar - [**リリースページ**](https://github.com/litagin02/Style-Bert-VITS2/releases/)、[更新履歴](/docs/CHANGELOG.md) - - 2024-05-26: Ver 2.5.0 (フォルダ分けからのスタイル生成、長い音声も学習可能に) + - 2024-05-26: Ver 2.5.0 (**[利用規約](/docs/TERM_OF_USE.md)の追加**、フォルダ分けからのスタイル生成、小春音アミモデルの追加) - 2024-03-16: ver 2.4.1 (**batファイルによるインストール方法の変更**) - 2024-03-15: ver 2.4.0 (大規模リファクタリングや種々の改良、ライブラリ化) - 2024-02-26: ver 2.3 (辞書機能とエディター機能) diff --git a/data_utils.py b/data_utils.py index 7e40f7f18..4121e350c 100644 --- a/data_utils.py +++ b/data_utils.py @@ -5,7 +5,6 @@ import numpy as np import torch import torch.utils.data -from torch.utils.data import Dataset from tqdm import tqdm from config import get_config diff --git a/docs/TERM_OF_USE.md b/docs/TERM_OF_USE.md new file mode 100644 index 000000000..9785f4a07 --- /dev/null +++ b/docs/TERM_OF_USE.md @@ -0,0 +1,34 @@ +# 利用規約 + +Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してください。 + +## 禁止事項 + +以下の目的での利用は禁止されています。 + +- 法律に違反する目的 +- 政治的な目的(本家Bert-VITS2で禁止されています) +- 他者を傷つける目的 +- ディープフェイク作成目的 + +## 遵守事項 + +- Style-Bert-VITS2を利用する際は、使用するモデルの利用規約・ライセンスを必ず確認し、それに従わなければなりません。 +- またソースコードを利用する際は、[リポジトリのライセンス](https://github.com/litagin02/Style-Bert-VITS2#license)に従ってください。 + +以下はデフォルトで付随しているモデルのライセンスです。 + +## JVNVコーパス (jvnv-F1-jp, jvnv-F2-jp, jvnv-M1-jp, jvnv-M2-jp) + +- [JVNVコーパス](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus) のライセンスは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ja)ですので、これを継承します。 + +## 小春音アミ (koharune-ami) + +- [小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)を全て継承します、特に、 + - エロ・グロ、政治・宗教・ヘイト・人をだます目的などには使えません、つまりセンシティブな作品や発言には使用できません + - 使用する際は(配信やXの動画等でも)必ず分かりやすい場所にクレジット表記を記載してください(クレジット表記例: `SBV2モデル: 小春音アミ、あみたろの声素材工房 (https://amitaro.net/)`) + - 規約を守れば商用非商用問わず利用できます +- 追加で、以下の事項を守ってください + - モデルマージに関しては、[あみたろの声素材工房のよくある質問への回答](https://amitaro.net/voice/faq/#index_id17)を遵守してください: + - 本モデルを別モデルとマージできるのは、その別モデル作成の際に学習に使われた声の権利者が許諾している場合に限る + - あみたろの声の特徴が残っている場合(マージの割合が25%以上の場合)は、その利用は[小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)の範囲内に限定され、そのモデルに関してもこの規約が適応される \ No newline at end of file diff --git a/gradio_tabs/inference.py b/gradio_tabs/inference.py index cce1a685b..939849a69 100644 --- a/gradio_tabs/inference.py +++ b/gradio_tabs/inference.py @@ -104,15 +104,31 @@ terms_of_use_md = """ ## 利用規約 +Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してください。 + +### 禁止事項 + +- 法律に違反する目的 +- 政治的な目的(本家Bert-VITS2で禁止されています) +- 他者を傷つける目的 +- ディープフェイク作成目的 + +### 遵守事項 + +- Style-Bert-VITS2を利用する際は、使用するモデルの利用規約・ライセンスを必ず確認し、それに従わなければなりません。 +- またソースコードを利用する際は、[リポジトリのライセンス](https://github.com/litagin02/Style-Bert-VITS2#license)に従ってください。 + +以下はデフォルトで付随しているモデルのライセンスです。 + ### JVNVコーパス (jvnv-F1-jp, jvnv-F2-jp, jvnv-M1-jp, jvnv-M2-jp) -- [JVNVコーパス](https://huggingface.co/litagin/style_bert_vits2_jvnv) のライセンスは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ja)ですので、これを継承します。 +- [JVNVコーパス](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus) のライセンスは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ja)ですので、これを継承します。 ### 小春音アミ (koharune-ami) - [小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)を全て継承します、特に、 - エロ・グロ、政治・宗教・ヘイト・人をだます目的などには使えません、つまりセンシティブな作品や発言には使用できません - - 使用する際は(配信やXの動画等でも)必ず分かりやすい場所にクレジット表記を記載してください(クレジット表記例: `SBV2モデル:小春音アミ、あみたろの声素材工房(https://amitaro.net/)`) + - 使用する際は(配信やXの動画等でも)必ず分かりやすい場所にクレジット表記を記載してください(クレジット表記例: `SBV2モデル: 小春音アミ、あみたろの声素材工房 (https://amitaro.net/)`) - 規約を守れば商用非商用問わず利用できます - 追加で、以下の事項を守ってください - モデルマージに関しては、[あみたろの声素材工房のよくある質問への回答](https://amitaro.net/voice/faq/#index_id17)を遵守してください: From 0a5e5fe1fe89a7e42442c500cfba780cbc99c58e Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 19:50:50 +0900 Subject: [PATCH 18/50] Add char limit log info --- server_fastapi.py | 3 +++ 1 file changed, 3 insertions(+) diff --git a/server_fastapi.py b/server_fastapi.py index dbae8c7fb..efc880e24 100644 --- a/server_fastapi.py +++ b/server_fastapi.py @@ -309,6 +309,9 @@ def get_audio( logger.info(f"server listen: http://127.0.0.1:{config.server_config.port}") logger.info(f"API docs: http://127.0.0.1:{config.server_config.port}/docs") + logger.info( + f"Input text length limit: {limit}. You can change it in server.limit in config.yml" + ) uvicorn.run( app, port=config.server_config.port, host="0.0.0.0", log_level="warning" ) From e27bd4dfbc1d25bb273689dc4920670baaf196ef Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 19:56:12 +0900 Subject: [PATCH 19/50] Update docs --- docs/TERM_OF_USE.md | 15 ++++++++++----- 1 file changed, 10 insertions(+), 5 deletions(-) diff --git a/docs/TERM_OF_USE.md b/docs/TERM_OF_USE.md index 9785f4a07..4833fb794 100644 --- a/docs/TERM_OF_USE.md +++ b/docs/TERM_OF_USE.md @@ -1,5 +1,7 @@ # 利用規約 +- 2024-05-26: 初版 + Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してください。 ## 禁止事項 @@ -13,22 +15,25 @@ Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してくだ ## 遵守事項 -- Style-Bert-VITS2を利用する際は、使用するモデルの利用規約・ライセンスを必ず確認し、それに従わなければなりません。 +- Style-Bert-VITS2を利用する際は、使用するモデルの利用規約・ライセンス必ず確認し、存在する場合はそれに従わなければなりません。 - またソースコードを利用する際は、[リポジトリのライセンス](https://github.com/litagin02/Style-Bert-VITS2#license)に従ってください。 以下はデフォルトで付随しているモデルのライセンスです。 -## JVNVコーパス (jvnv-F1-jp, jvnv-F2-jp, jvnv-M1-jp, jvnv-M2-jp) +### JVNVコーパス (jvnv-F1-jp, jvnv-F2-jp, jvnv-M1-jp, jvnv-M2-jp) - [JVNVコーパス](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus) のライセンスは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ja)ですので、これを継承します。 -## 小春音アミ (koharune-ami) +### 小春音アミ (koharune-ami) - [小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)を全て継承します、特に、 - エロ・グロ、政治・宗教・ヘイト・人をだます目的などには使えません、つまりセンシティブな作品や発言には使用できません - - 使用する際は(配信やXの動画等でも)必ず分かりやすい場所にクレジット表記を記載してください(クレジット表記例: `SBV2モデル: 小春音アミ、あみたろの声素材工房 (https://amitaro.net/)`) + - 使用する際は(配信やXの動画等でも)必ず分かりやすい場所にクレジット表記を記載してください(クレジット表記例: `SBV2モデル:小春音アミ、あみたろの声素材工房(https://amitaro.net/)`) - 規約を守れば商用非商用問わず利用できます - 追加で、以下の事項を守ってください + - 年齢制限がかかりそうな発言・誰かを騙したり傷つけたりするような発言・政治や宗教やマルチ購などに関する発言・ディープフェイクやヘイト発言などのセリフは禁止です + - あみたろ様本人の発言と誤解されるような使い方はできません + - あみたろ様以外の人の声だと誤解されるような使い方はできません - モデルマージに関しては、[あみたろの声素材工房のよくある質問への回答](https://amitaro.net/voice/faq/#index_id17)を遵守してください: - 本モデルを別モデルとマージできるのは、その別モデル作成の際に学習に使われた声の権利者が許諾している場合に限る - - あみたろの声の特徴が残っている場合(マージの割合が25%以上の場合)は、その利用は[小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)の範囲内に限定され、そのモデルに関してもこの規約が適応される \ No newline at end of file + - あみたろの声の特徴が残っている場合(マージの割合が25%以上の場合)は、その利用は[小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)の範囲内に限定され、そのモデルに関してもこの規約が適応される From e5c189125f2beb8c31dfb4e9e7cbd0722b89d338 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 22:03:19 +0900 Subject: [PATCH 20/50] Feat: add kotoba-whisper, etc --- data_utils.py | 20 ++++++------ docs/CHANGELOG.md | 30 +++++++++++++++--- gradio_tabs/dataset.py | 16 ++++++++-- gradio_tabs/style_vectors.py | 8 +++-- gradio_tabs/train.py | 60 ++++++++++++++++++++++++++---------- requirements.txt | 2 ++ transcribe.py | 1 + 7 files changed, 101 insertions(+), 36 deletions(-) diff --git a/data_utils.py b/data_utils.py index 4121e350c..96eab3866 100644 --- a/data_utils.py +++ b/data_utils.py @@ -71,16 +71,16 @@ def _filter(self): self.audiopaths_sid_text, file=sys.stdout ): audiopath = f"{_id}" - if self.min_text_len <= len(phones) and len(phones) <= self.max_text_len: - phones = phones.split(" ") - tone = [int(i) for i in tone.split(" ")] - word2ph = [int(i) for i in word2ph.split(" ")] - audiopaths_sid_text_new.append( - [audiopath, spk, language, text, phones, tone, word2ph] - ) - lengths.append(os.path.getsize(audiopath) // (2 * self.hop_length)) - else: - skipped += 1 + # if self.min_text_len <= len(phones) and len(phones) <= self.max_text_len: + phones = phones.split(" ") + tone = [int(i) for i in tone.split(" ")] + word2ph = [int(i) for i in word2ph.split(" ")] + audiopaths_sid_text_new.append( + [audiopath, spk, language, text, phones, tone, word2ph] + ) + lengths.append(os.path.getsize(audiopath) // (2 * self.hop_length)) + # else: + # skipped += 1 logger.info( "skipped: " + str(skipped) diff --git a/docs/CHANGELOG.md b/docs/CHANGELOG.md index 3a2818f38..26c194cd6 100644 --- a/docs/CHANGELOG.md +++ b/docs/CHANGELOG.md @@ -2,15 +2,35 @@ ## v2.5.0 (2024-05-26) -WIP +このバージョンから[利用規約](/docs/TERMS_OF_USE.md)が追加されました。ご利用の際は必ずお読みください。 + +### 新機能等 + +- デフォルトモデルに [あみたろの声素材工房](https://amitaro.net/) のあみたろ様が公開しているコーパスを利用して学習した**小春音アミ**モデルを追加(あみたろ様には事前に連絡して許諾を得ています) + - アプデの場合は新たに`App.bat`や`Editor.bat`を起動した際に自動でダウンロードされます +- 英語の音声合成の速度向上([gordon0414](https://github.com/gordon0414)さんによる[PR](https://github.com/litagin02/Style-Bert-VITS2/pull/124)です、ありがとうございます!) +- Hugging Face 🤗 に投稿されているモデルをダウンロードして音声合成に利用できるタブをWebUIに追加 +- エディターの各種機能改善(多くが[kamexy](https://github.com/kamexy)様による[エディターリポジトリ](https://github.com/litagin02/Style-Bert-VITS2-Editor)へのプルリク群です、ありがとうございます!) + - 選択した行の下に新規の行を作成できるように + - 日本語変換のエンターで音声合成が走るバグの修正 + - ペースト時に改行を含まない場合は通常のペーストの振る舞いになるように修正 +- 学習時に音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように + - `inputs`からスライスして使う場合は`inputs`直下に作りたいスタイルだけサブフォルダを作りそこに音声ファイルを配置 + - `Data/モデル名/raw`から使う場合も`raw`直下に同様に配置 + - サブフォルダの個数が0または1の場合は、今まで通りのNeutralスタイルのみが作成されます -### 改善 -- 音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように -- 上の改善を既存モデルでも使えるようなスタイル作成の機能追加。具体的には、フォルダ分けされた音声ファイルのディレクトリを任意に指定し、そのフォルダ分けを使って既存のモデルのスタイルの作成が可能に -- Hugging Face 🤗 に公開されているSBV2のモデルを、URLを指定すると自動でダウンロードして音声合成に使えるようにする機能の追加 +### その他の改善 + +- 上のスタイル自動作成機能を既存モデルでも使えるような機能追加。具体的には、スタイル作成タブにて、フォルダ分けされた音声ファイルのディレクトリを任意に指定し、そのフォルダ分けを使って既存のモデルのスタイルの作成が可能に +- 音声書き起こしに[kotoba-whisper](https://huggingface.co/kotoba-tech/kotoba-whisper-v1.1)を追加 +- 音声書き起こし時にHugging FaceのWhisperモデルを使う際に、書き起こしを順次保存するように改善 - (**ライブラリとしてのみ**)依存関係の軽量化、音声合成時に読み上げテキストの読みを表す音素列を指定する機能を追加 + 様々な改善 ([tsukumijimaさん](https://github.com/tsukumijima)による[プルリク](https://github.com/litagin02/Style-Bert-VITS2/pull/118)です、ありがとうございます!) +### 内部変更 + +- これまでpath管理に`configs/paths.yml`を使っていたが、`configs/default_paths.yml`にリネームし、`configs/paths.yml`はgitの管理対象外に変更 + ### バグ修正 - Gradioのアップデートにより、モデル選択時等に`TypeError: Type is not JSON serializable: WindowsPath`のようなエラーが出る問題を修正 diff --git a/gradio_tabs/dataset.py b/gradio_tabs/dataset.py index f6ad278fe..5971f62b7 100644 --- a/gradio_tabs/dataset.py +++ b/gradio_tabs/dataset.py @@ -47,6 +47,7 @@ def do_transcribe( use_hf_whisper, batch_size, num_beams, + hf_repo_id, ): if model_name == "": return "Error: モデル名を入力してください。" @@ -71,9 +72,12 @@ def do_transcribe( if use_hf_whisper: cmd.append("--use_hf_whisper") cmd.extend(["--batch_size", str(batch_size)]) - success, message = run_script_with_log(cmd) + if hf_repo_id != "openai/whisper": + cmd.extend(["--hf_repo_id", hf_repo_id]) + success, message = run_script_with_log(cmd, ignore_warning=True) if not success: return f"Error: {message}. エラーメッセージが空の場合、何も問題がない可能性があるので、書き起こしファイルをチェックして問題なければ無視してください。" + return "音声の文字起こしが完了しました。" how_to_md = """ @@ -170,6 +174,12 @@ def create_dataset_app() -> gr.Blocks: use_hf_whisper = gr.Checkbox( label="HuggingFaceのWhisperを使う(速度が速いがVRAMを多く使う)", ) + hf_repo_id = gr.Dropdown( + ["openai/whisper", "kotoba-tech/kotoba-whisper-v1.1"], + label="HuggingFaceのWhisperモデル", + value="openai/whisper", + visible=False, + ) compute_type = gr.Dropdown( [ "int8", @@ -234,17 +244,19 @@ def create_dataset_app() -> gr.Blocks: use_hf_whisper, batch_size, num_beams, + hf_repo_id, ], outputs=[result2], ) use_hf_whisper.change( lambda x: ( + gr.update(visible=x), gr.update(visible=x), gr.update(visible=not x), gr.update(visible=not x), ), inputs=[use_hf_whisper], - outputs=[batch_size, compute_type, device], + outputs=[hf_repo_id, batch_size, compute_type, device], ) return app diff --git a/gradio_tabs/style_vectors.py b/gradio_tabs/style_vectors.py index ad5762689..4aa7bc285 100644 --- a/gradio_tabs/style_vectors.py +++ b/gradio_tabs/style_vectors.py @@ -278,7 +278,11 @@ def save_style_vectors_from_files( def save_style_vectors_by_dirs(model_name: str, audio_dir_str: str): - import sys + if model_name == "": + return "モデル名を入力してください。" + if audio_dir_str == "": + return "音声ファイルが入っているディレクトリを入力してください。" + from concurrent.futures import ThreadPoolExecutor from multiprocessing import cpu_count @@ -349,7 +353,7 @@ def process(file: Path): **注意** -- Ver 2.5.0以降では、raw/フォルダにサブディレクトリに分けて音声ファイルを入れるだけで、スタイルベクトルが自動で作成されるので、この手順は不要です。 +- Ver 2.5.0以降では、`inputs/`フォルダや`raw/`フォルダにサブディレクトリに分けて音声ファイルを入れるだけで、スタイルベクトルが自動で作成されるので、この手順は不要です。 - それ未満のバージョンで学習したモデルに新しくスタイルベクトルをつけたい場合や、学習に使ったのとは別の音声でスタイルベクトルを作成したい場合に使います。 - 学習との整合性のため、もし**現在学習中や、今後学習する予定がある場合は**、音声ファイルは、`Data/{モデル名}/wavs`フォルダではなく**新しい別のディレクトリに保存してください**。 diff --git a/gradio_tabs/train.py b/gradio_tabs/train.py index f83d30bed..410784520 100644 --- a/gradio_tabs/train.py +++ b/gradio_tabs/train.py @@ -405,6 +405,15 @@ def run_tensorboard(model_name: str): yield gr.Button("Tensorboardを開く") +change_log_md = """ +**Ver 2.5以降の変更点** + +- `raw/`フォルダの中で音声をサブディレクトリに分けて配置することで、自動的にスタイルが作成されるようになりました。詳細は下の「使い方/データの前準備」を参照してください。 +- これまでは1ファイルあたり14秒程度を超えた音声ファイルは学習には用いられていませんでしたが、Ver 2.5以降ではその制限がなくなりました。ただし: + - 音声ファイルが長い場合の学習効率は悪いかもしれず、挙動も確認していません + - この変更で要求VRAMが増えるので、学習に失敗したりVRAM不足になる場合は、バッチサイズを小さくするか、学習ボタンの横の「カスタムバッチサンプラーを使う」を試してみてください(この場合は以前と同じ挙動となります)。 +""" + how_to_md = """ ## 使い方 @@ -416,9 +425,6 @@ def run_tensorboard(model_name: str): - 途中から学習を再開する場合は、モデル名を入力してから「学習を開始する」を押せばよいです。 -注意: 標準スタイル以外のスタイルを音声合成で使うには、スタイルベクトルファイル`style_vectors.npy`を作る必要があります。これは、`Style.bat`を実行してそこで作成してください。 -動作は軽いはずなので、学習中でも実行でき、何度でも繰り返して試せます。 - ## JP-Extra版について 元とするモデル構造として [Bert-VITS2 Japanese-Extra](https://github.com/fishaudio/Bert-VITS2/releases/tag/JP-Exta) を使うことができます。 @@ -426,40 +432,60 @@ def run_tensorboard(model_name: str): """ prepare_md = """ -まず音声データ(wavファイルで1ファイルが2-12秒程度の、長すぎず短すぎない発話のものをいくつか)と、書き起こしテキストを用意してください。 +まず音声データと、書き起こしテキストを用意してください。 それを次のように配置します。 ``` -├── Data +├── Data/ │ ├── {モデルの名前} │ │ ├── esd.list -│ │ ├── raw -│ │ │ ├── ****.wav -│ │ │ ├── ****.wav -│ │ │ ├── ... +│ │ ├── raw/ +│ │ │ ├── foo.wav +│ │ │ ├── bar.mp3 +│ │ │ ├── style1/ +│ │ │ │ ├── baz.wav +│ │ │ │ ├── qux.wav +│ │ │ ├── style2/ +│ │ │ │ ├── corge.wav +│ │ │ │ ├── grault.wav +... ``` -wavファイル名やモデルの名前は空白を含まない半角で、wavファイルの拡張子は小文字`.wav`である必要があります。 -`raw` フォルダにはすべてのwavファイルを入れ、`esd.list` ファイルには、以下のフォーマットで各wavファイルの情報を記述してください。 +### 配置の仕方 +- 上のように配置すると、`style1/`と`style2/`フォルダの内部(直下以外も含む)に入っている音声ファイルたちから、自動的にデフォルトスタイルに加えて`style1`と`style2`というスタイルが作成されます +- 特にスタイルを作る必要がない場合や、スタイル分類機能等でスタイルを作る場合は、`raw/`フォルダ直下に全てを配置してください。このように`raw/`のサブディレクトリの個数が0または1の場合は、スタイルはデフォルトスタイルのみが作成されます。 +- 音声ファイルのフォーマットはwav形式以外にもmp3等の多くの音声ファイルに対応しています + +### 書き起こしファイル`esd.list` + +`Data/{モデルの名前}/esd.list` ファイルには、以下のフォーマットで各音声ファイルの情報を記述してください。 + + ``` -****.wav|{話者名}|{言語ID、ZHかJPかEN}|{書き起こしテキスト} +path/to/audio.wav(wavファイル以外でもこう書く)|{話者名}|{言語ID、ZHかJPかEN}|{書き起こしテキスト} ``` +- ここで、最初の`path/to/audio.wav`は、`raw/`からの相対パスです。つまり、`raw/foo.wav`の場合は`foo.wav`、`raw/style1/bar.wav`の場合は`style1/bar.wav`となります。 +- 拡張子がwavでない場合でも、`esd.list`には`wav`と書いてください、つまり、`raw/bar.mp3`の場合でも`bar.wav`と書いてください。 + + 例: ``` -wav_number1.wav|hanako|JP|こんにちは、聞こえて、いますか? -wav_next.wav|taro|JP|はい、聞こえています……。 +foo.wav|hanako|JP|こんにちは、元気ですか? +bar.wav|taro|JP|はい、聞こえています……。何か用ですか? +style1/baz.wav|hanako|JP|今日はいい天気ですね。 +style1/qux.wav|taro|JP|はい、そうですね。 +... english_teacher.wav|Mary|EN|How are you? I'm fine, thank you, and you? ... ``` -日本語話者の単一話者データセットでも構いません。 - -- 音声ファイルはrawフォルダの直下でなくてもサブフォルダに入れても構いません。その場合は、`esd.list`の最初には`raw`からの相対パスを記述してください。 +もちろん日本語話者の単一話者データセットでも構いません。 """ def create_train_app(): with gr.Blocks().queue() as app: + gr.Markdown(change_log_md) with gr.Accordion("使い方", open=False): gr.Markdown(how_to_md) with gr.Accordion(label="データの前準備", open=False): diff --git a/requirements.txt b/requirements.txt index 3ddff0b4e..1c702be76 100644 --- a/requirements.txt +++ b/requirements.txt @@ -11,11 +11,13 @@ loguru num2words protobuf==4.25 psutil +punctuators pyannote.audio>=3.1.0 pyloudnorm pyopenjtalk-dict pypinyin pyworld-prebuilt +stable_ts tensorboard transformers umap-learn diff --git a/transcribe.py b/transcribe.py index 6bbea6b2e..275212613 100644 --- a/transcribe.py +++ b/transcribe.py @@ -76,6 +76,7 @@ def transcribe_files_with_hf_whisper( batch_size=batch_size, torch_dtype=torch.float16, device="cuda", + trust_remote_code=True, # generate_kwargs=generate_kwargs, ) if initial_prompt is not None: From e8691289bb0cfdcbe755677e9790530793c4e9cd Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 26 May 2024 22:23:43 +0900 Subject: [PATCH 21/50] Fix --- initialize.py | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/initialize.py b/initialize.py index 62ce69065..7127d4c51 100644 --- a/initialize.py +++ b/initialize.py @@ -113,7 +113,7 @@ def main(): download_bert_models() - if not args.skip_jvnv: + if not args.skip_default_models: download_default_models() if not args.only_infer: download_slm_model() From ceb431192c2e779f9f557a82c64811aab4ecd13f Mon Sep 17 00:00:00 2001 From: litagin02 Date: Tue, 28 May 2024 18:37:44 +0900 Subject: [PATCH 22/50] colab --- colab.ipynb => colab_ipynb.ipynb | 190 +++++++++++++++++++++---------- default_style.py | 2 +- gradio_tabs/train.py | 12 +- requirements-colab.txt | 15 +++ requirements.txt | 1 - resample.py | 1 + vad_filter.py | 92 +++++++++++++++ 7 files changed, 245 insertions(+), 68 deletions(-) rename colab.ipynb => colab_ipynb.ipynb (66%) create mode 100644 requirements-colab.txt create mode 100644 vad_filter.py diff --git a/colab.ipynb b/colab_ipynb.ipynb similarity index 66% rename from colab.ipynb rename to colab_ipynb.ipynb index 41e200250..de467417b 100644 --- a/colab.ipynb +++ b/colab_ipynb.ipynb @@ -2,7 +2,9 @@ "cells": [ { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "id": "F7aJhsgLAWvO" + }, "source": [ "# Style-Bert-VITS2 (ver 2.5.0) のGoogle Colabでの学習\n", "\n", @@ -22,34 +24,52 @@ }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "id": "L-gAIubBAWvQ" + }, "source": [ "## 0. 環境構築\n", "\n", - "Style-Bert-VITS2の環境をcolab上に構築します。グラボモードが有効になっていることを確認し、以下のセルを順に実行してください。\n", - "\n", - "**最近のcolabのアップデートにより、エラーダイアログ「WARNING: The following packages were previously imported in this runtime: [pydevd_plugins]」が出るが、「キャンセル」を選択して続行してください。**" + "Style-Bert-VITS2の環境をcolab上に構築します。ランタイムがT4等のGPUバックエンドになっていることを確認し、実行してください。" ] }, { "cell_type": "code", "execution_count": null, - "metadata": {}, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "0GNj8JyDAlm2", + "outputId": "d8be4a1a-e52d-46f8-8675-3f1a24bc9a51" + }, "outputs": [], "source": [ - "# このセルを実行して環境構築してください。\n", - "# エラーダイアログ「WARNING: The following packages were previously imported in this runtime: [pydevd_plugins]」が出るが「キャンセル」を選択して続行してください。\n", + "import os\n", + "\n", "\n", + "os.environ[\"PATH\"] += \":/root/.cargo/bin\"\n", + "\n", + "!curl -LsSf https://astral.sh/uv/install.sh | sh\n", "!git clone https://github.com/litagin02/Style-Bert-VITS2.git\n", "%cd Style-Bert-VITS2/\n", - "!pip install -r requirements.txt\n", - "!python initialize.py --skip_jvnv" + "# 後で消す!!!\n", + "!git checkout dev\n", + "# 後で消す!!!\n", + "!uv pip install --system -r requirements-colab.txt\n", + "!python initialize.py --skip_default_models" ] }, { "cell_type": "code", "execution_count": null, - "metadata": {}, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "o5z1nzkvAWvR", + "outputId": "cd87f053-18e0-4dbb-f904-d5230d1fa7ef" + }, "outputs": [], "source": [ "# Google driveを使う方はこちらを実行してください。\n", @@ -61,7 +81,9 @@ }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "id": "WU9apXzcAWvR" + }, "source": [ "## 1. 初期設定\n", "\n", @@ -71,8 +93,10 @@ }, { "cell_type": "code", - "execution_count": 1, - "metadata": {}, + "execution_count": null, + "metadata": { + "id": "gO3OwZV1AWvR" + }, "outputs": [], "source": [ "# 学習に必要なファイルや途中経過が保存されるディレクトリ\n", @@ -90,7 +114,9 @@ }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "id": "dA_yLeezAWvS" + }, "source": [ "## 2. 学習に使うデータ準備\n", "\n", @@ -99,17 +125,27 @@ }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "id": "8s9gOnTCAWvS" + }, "source": [ "### 2.1 音声ファイルからのデータセットの作成(ある人はスキップ可)\n", "\n", - "音声ファイル(1ファイル2-12秒程度)とその書き起こしのデータセットを持っていない方は、(日本語の)音声ファイルのみから以下の手順でデータセットを作成することができます。Google drive上の`Style-Bert-VITS2/inputs/`フォルダに音声ファイル(wavファイル形式、1ファイルでも複数ファイルでも可)を置いて、下を実行すると、データセットが作られ、自動的に正しい場所へ配置されます。" + "音声ファイル(1ファイル2-12秒程度)とその書き起こしのデータセットを持っていない方は、(日本語の)音声ファイルのみから以下の手順でデータセットを作成することができます。Google drive上の`Style-Bert-VITS2/inputs/`フォルダに音声ファイル(wavやmp3等の通常の音声ファイル形式、1ファイルでも複数ファイルでも可)を置いて、下を実行すると、データセットが作られ、自動的に正しい場所へ配置されます。\n", + "\n", + "**2024-05-27のVer 2.5以降**、`inputs/`フォルダにサブフォルダを2個以上作ってそこへ音声ファイルをスタイルに応じて振り分けて置くと、学習の際にサブディレクトリに応じたスタイルが自動的に作成されます。デフォルトスタイルのみでよい場合や手動でスタイルを後で作成する場合は`inputs/`直下へ入れれば大丈夫です。" ] }, { "cell_type": "code", "execution_count": null, - "metadata": {}, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "_fXCTPuiAWvS", + "outputId": "47abd55b-efe5-48e2-f6fa-8e2016efe0ec" + }, "outputs": [], "source": [ "# 元となる音声ファイル(wav形式)を入れるディレクトリ\n", @@ -126,14 +162,18 @@ }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "id": "j7vEWewoAWvS" + }, "source": [ "成功したらそのまま3へ進んでください" ] }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "id": "Z3AC-3zpAWvS" + }, "source": [ "### 2.2 音声ファイルと書き起こしデータがすでにある場合\n", "\n", @@ -144,7 +184,7 @@ }, { "cell_type": "code", - "execution_count": 5, + "execution_count": null, "metadata": { "id": "esCNJl704h52" }, @@ -157,39 +197,58 @@ }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "id": "aaDgJCjCAWvT" + }, "source": [ - "次に、学習に必要なデータを、Google driveに作成された`Style-Bert-VITS2/Data`フォルダに配置します。\n", + "まず音声データと、書き起こしテキストを用意してください。\n", + "\n", + "それを次のように配置します。\n", + "```\n", + "├── Data/\n", + "│ ├── {モデルの名前}\n", + "│ │ ├── esd.list\n", + "│ │ ├── raw/\n", + "│ │ │ ├── foo.wav\n", + "│ │ │ ├── bar.mp3\n", + "│ │ │ ├── style1/\n", + "│ │ │ │ ├── baz.wav\n", + "│ │ │ │ ├── qux.wav\n", + "│ │ │ ├── style2/\n", + "│ │ │ │ ├── corge.wav\n", + "│ │ │ │ ├── grault.wav\n", + "...\n", + "```\n", + "\n", + "### 配置の仕方\n", + "- 上のように配置すると、`style1/`と`style2/`フォルダの内部(直下以外も含む)に入っている音声ファイルたちから、自動的にデフォルトスタイルに加えて`style1`と`style2`というスタイルが作成されます\n", + "- 特にスタイルを作る必要がない場合や、スタイル分類機能等でスタイルを作る場合は、`raw/`フォルダ直下に全てを配置してください。このように`raw/`のサブディレクトリの個数が0または1の場合は、スタイルはデフォルトスタイルのみが作成されます。\n", + "- 音声ファイルのフォーマットはwav形式以外にもmp3等の多くの音声ファイルに対応しています\n", + "\n", + "### 書き起こしファイル`esd.list`\n", + "\n", + "`Data/{モデルの名前}/esd.list` ファイルには、以下のフォーマットで各音声ファイルの情報を記述してください。\n", "\n", - "まず音声データ(wavファイルで1ファイルが2-12秒程度の、長すぎず短すぎない発話のものをいくつか)と、書き起こしテキストを用意してください。wavファイル名やモデルの名前は空白を含まない半角で、wavファイルの拡張子は小文字`.wav`である必要があります。\n", "\n", - "書き起こしテキストは、次の形式で記述してください。\n", "```\n", - "****.wav|{話者名}|{言語ID、ZHかJPかEN}|{書き起こしテキスト}\n", + "path/to/audio.wav(wavファイル以外でもこう書く)|{話者名}|{言語ID、ZHかJPかEN}|{書き起こしテキスト}\n", "```\n", "\n", + "- ここで、最初の`path/to/audio.wav`は、`raw/`からの相対パスです。つまり、`raw/foo.wav`の場合は`foo.wav`、`raw/style1/bar.wav`の場合は`style1/bar.wav`となります。\n", + "- 拡張子がwavでない場合でも、`esd.list`には`wav`と書いてください、つまり、`raw/bar.mp3`の場合でも`bar.wav`と書いてください。\n", + "\n", + "\n", "例:\n", "```\n", - "wav_number1.wav|hanako|JP|こんにちは、聞こえて、いますか?\n", - "wav_next.wav|taro|JP|はい、聞こえています……。\n", + "foo.wav|hanako|JP|こんにちは、元気ですか?\n", + "bar.wav|taro|JP|はい、聞こえています……。何か用ですか?\n", + "style1/baz.wav|hanako|JP|今日はいい天気ですね。\n", + "style1/qux.wav|taro|JP|はい、そうですね。\n", + "...\n", "english_teacher.wav|Mary|EN|How are you? I'm fine, thank you, and you?\n", "...\n", "```\n", - "日本語話者の単一話者データセットで構いません。\n", - "\n", - "### データセットの配置\n", - "\n", - "次にモデルの名前を適当に決めてください(空白を含まない半角英数字がよいです)。\n", - "そして、書き起こしファイルを`esd.list`という名前で保存し、またwavファイルも`raw`というフォルダを作成し、あなたのGoogle Driveの中の(上で自動的に作られるはずの)`Data`フォルダのなかに、次のように配置します。\n", - "```\n", - "├── Data\n", - "│ ├── {モデルの名前}\n", - "│ │ ├── esd.list\n", - "│ │ ├── raw\n", - "│ │ │ ├── ****.wav\n", - "│ │ │ ├── ****.wav\n", - "│ │ │ ├── ...\n", - "```" + "もちろん日本語話者の単一話者データセットでも構いません。" ] }, { @@ -205,7 +264,7 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": null, "metadata": { "id": "CXR7kjuF5GlE" }, @@ -240,7 +299,9 @@ }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "id": "BFZdLTtpAWvT" + }, "source": [ "上のセルが実行されたら、次のセルを実行して学習の前処理を行います。" ] @@ -253,7 +314,7 @@ "base_uri": "https://localhost:8080/" }, "id": "xMVaOIPLabV5", - "outputId": "15fac868-9132-45d9-9f5f-365b6aeb67b0" + "outputId": "36b1c2b2-6df0-4d00-d86a-519a0fc0af63" }, "outputs": [], "source": [ @@ -271,7 +332,7 @@ " freeze_JP_bert=False,\n", " freeze_ZH_bert=False,\n", " freeze_style=False,\n", - " freeze_decoder=False, # ここをTrueにするともしかしたら違う結果になるかもしれません。\n", + " freeze_decoder=False,\n", " use_jp_extra=use_jp_extra,\n", " val_per_lang=0,\n", " log_interval=200,\n", @@ -281,7 +342,9 @@ }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "id": "sVhwI5C-AWvT" + }, "source": [ "## 4. 学習\n", "\n", @@ -296,11 +359,7 @@ "cell_type": "code", "execution_count": null, "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "laieKrbEb6Ij", - "outputId": "72238c88-f294-4ed9-84f6-84c1c17999ca" + "id": "laieKrbEb6Ij" }, "outputs": [], "source": [ @@ -311,7 +370,9 @@ "import yaml\n", "from gradio_tabs.train import get_path\n", "\n", - "dataset_path, _, _, _, config_path = get_path(model_name)\n", + "paths = get_path(model_name)\n", + "dataset_path = str(paths.dataset_path)\n", + "config_path = str(paths.config_path)\n", "\n", "with open(\"default_config.yml\", \"r\", encoding=\"utf-8\") as f:\n", " yml_data = yaml.safe_load(f)\n", @@ -323,21 +384,30 @@ { "cell_type": "code", "execution_count": null, - "metadata": {}, + "metadata": { + "colab": { + "background_save": true, + "base_uri": "https://localhost:8080/" + }, + "id": "JqGeHNabAWvT", + "outputId": "c51b422c-728b-420b-fa92-b787fa058adf" + }, "outputs": [], "source": [ "# 日本語特化版を「使う」場合\n", - "!python train_ms_jp_extra.py --config {config_path} --model {dataset_path} --assets_root {assets_root}" + "!python train_ms_jp_extra.py --config {config_path} --model {dataset_path} --assets_root {assets_root} --use_custom_batch_sampler" ] }, { "cell_type": "code", "execution_count": null, - "metadata": {}, + "metadata": { + "id": "rVbjh-WPAWvU" + }, "outputs": [], "source": [ "# 日本語特化版を「使わない」場合\n", - "!python train_ms.py --config {config_path} --model {dataset_path} --assets_root {assets_root}" + "!python train_ms.py --config {config_path} --model {dataset_path} --assets_root {assets_root} --use_custom_batch_sampler" ] }, { @@ -348,12 +418,12 @@ "base_uri": "https://localhost:8080/" }, "id": "c7g0hrdeP1Tl", - "outputId": "94f9a6f6-027f-4554-ce0c-60ac56251c22" + "outputId": "4bb9d21e-50df-4ba5-a547-daa78a4b63dc" }, "outputs": [], "source": [ "# 学習結果を試す・マージ・スタイル分けはこちらから\n", - "!python app.py --share" + "!python app.py --share --skip_default_models" ] } ], diff --git a/default_style.py b/default_style.py index 9671db2cd..7a2076a64 100644 --- a/default_style.py +++ b/default_style.py @@ -15,7 +15,7 @@ def set_style_config(json_path: Path, output_path: Path): json_dict["data"]["style2id"] = {DEFAULT_STYLE: 0} with open(output_path, "w", encoding="utf-8") as f: json.dump(json_dict, f, indent=2, ensure_ascii=False) - logger.info(f"Save style config (only {DEFAULT_STYLE}) to {output_path}") + logger.info(f"Saving style config (only {DEFAULT_STYLE}) to {output_path}...") def save_neutral_vector(wav_dir: Union[Path, str], output_path: Union[Path, str]): diff --git a/gradio_tabs/train.py b/gradio_tabs/train.py index 410784520..d0411e8b5 100644 --- a/gradio_tabs/train.py +++ b/gradio_tabs/train.py @@ -329,7 +329,7 @@ def train( skip_style: bool = False, use_jp_extra: bool = True, speedup: bool = False, - use_custom_batch_sampler: bool = False, + not_use_custom_batch_sampler: bool = False, ): paths = get_path(model_name) # 学習再開の場合を考えて念のためconfig.ymlの名前等を更新 @@ -352,7 +352,7 @@ def train( cmd.append("--skip_default_style") if speedup: cmd.append("--speedup") - if use_custom_batch_sampler: + if not not_use_custom_batch_sampler: cmd.append("--use_custom_batch_sampler") success, message = run_script_with_log(cmd, ignore_warning=True) if not success: @@ -723,9 +723,9 @@ def create_train_app(): label="JP-Extra版を使う", value=True, ) - use_custom_batch_sampler = gr.Checkbox( - label="カスタムバッチサンプラーを使う", - info="Ver 2.5以降にうまく学習できなかったりVRAMが足りない場合に試してみてください", + not_use_custom_batch_sampler = gr.Checkbox( + label="カスタムバッチサンプラーを使わない", + info="VRAMに余裕がある場合にチェックすると、長い音声ファイルも学習に使われるようになります", value=False, ) speedup = gr.Checkbox( @@ -820,7 +820,7 @@ def create_train_app(): skip_style, use_jp_extra_train, speedup, - use_custom_batch_sampler, + not_use_custom_batch_sampler, ], outputs=[info_train], ) diff --git a/requirements-colab.txt b/requirements-colab.txt new file mode 100644 index 000000000..2f92ef182 --- /dev/null +++ b/requirements-colab.txt @@ -0,0 +1,15 @@ +cmudict +cn2an +g2p_en +gradio +jieba +librosa==0.9.2 +loguru +num2words +pyannote.audio>=3.1.0 +pyloudnorm +pyopenjtalk-dict +pypinyin +pyworld-prebuilt +transformers +umap-learn diff --git a/requirements.txt b/requirements.txt index 1c702be76..669515322 100644 --- a/requirements.txt +++ b/requirements.txt @@ -5,7 +5,6 @@ g2p_en GPUtil gradio jieba -langid librosa==0.9.2 loguru num2words diff --git a/resample.py b/resample.py index 050ce9a6e..285105c46 100644 --- a/resample.py +++ b/resample.py @@ -62,6 +62,7 @@ def resample( if trim: wav, _ = librosa.effects.trim(wav, top_db=30) relative_path = file.relative_to(input_dir) + # ここで拡張子が.wav以外でも.wavに置き換えられる output_path = output_dir / relative_path.with_suffix(".wav") output_path.parent.mkdir(parents=True, exist_ok=True) soundfile.write(output_path, wav, sr) diff --git a/vad_filter.py b/vad_filter.py new file mode 100644 index 000000000..1259051f5 --- /dev/null +++ b/vad_filter.py @@ -0,0 +1,92 @@ +import argparse +import os +import shutil +import sys +from pathlib import Path + +import pandas as pd +import torch +from tqdm import tqdm + +from style_bert_vits2.logging import logger + + +vad_model, utils = torch.hub.load( + repo_or_dir="litagin02/silero-vad", + model="silero_vad", + onnx=True, + trust_repo=True, +) + +(get_speech_timestamps, _, read_audio, *_) = utils + + +def get_speech_ratio(audio_file): + sampling_rate = 16000 + + wav = read_audio(audio_file, sampling_rate=sampling_rate) + speech_timestamps = get_speech_timestamps( + wav, vad_model, sampling_rate=sampling_rate + ) + + speech_dur_ms = 0 + + for ts in speech_timestamps: + start_ms = ts["start"] / 16 + end_ms = ts["end"] / 16 + speech_dur_ms += end_ms - start_ms + + total_dur_ms = len(wav) / sampling_rate * 1000 + return speech_dur_ms / total_dur_ms + + +def process(file: Path): + speech_ratio = get_speech_ratio(file) + return file, speech_ratio + + +def main(): + parser = argparse.ArgumentParser(description="Calculate speech ratio.") + parser.add_argument( + "-i", "--input", help="Directory containing audio files", required=True + ) + args = parser.parse_args() + + if os.path.exists(os.path.join(args.input, "low_speech_ratio")): + logger.info("Low speech ratio directory already exists, skipping...") + exit(0) + + data_dir = Path(args.input) + wav_files = list(data_dir.glob("*.wav")) + wav_files.sort() + + if len(wav_files) < 100: + logger.warning("Too few files, skipping...") + exit(0) + + logger.info(f"Start VAD filtering for {data_dir}...") + + results = [] + + for wav_file in tqdm(wav_files, file=sys.stdout): + speech_ratio = get_speech_ratio(wav_file) + results.append((wav_file, speech_ratio)) + + results_df = pd.DataFrame(results, columns=["file", "speech_ratio"]) + results_df.to_csv(os.path.join(data_dir, "speech_ratio.csv"), index=False) + + logger.info(f"Speech ratio stats:\n{results_df['speech_ratio'].describe()}") + threshold = 0.5 + + low_speech_ratio_dir = os.path.join(data_dir, "low_speech_ratio") + os.makedirs(low_speech_ratio_dir, exist_ok=True) + + low_speech_files = results_df[results_df["speech_ratio"] < threshold]["file"] + logger.info(f"Moving {len(low_speech_files)} files to {low_speech_ratio_dir}...") + for low_speech_file in low_speech_files: + shutil.move(low_speech_file, low_speech_ratio_dir) + logger.success("VAD filtering completed.") + + +if __name__ == "__main__": + main() From ec12381acfb5a7cca362206abe0de78745d6f98a Mon Sep 17 00:00:00 2001 From: litagin02 Date: Wed, 29 May 2024 05:38:04 +0900 Subject: [PATCH 23/50] Rename colab --- colab_ipynb.ipynb => colab.ipynb | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename colab_ipynb.ipynb => colab.ipynb (100%) diff --git a/colab_ipynb.ipynb b/colab.ipynb similarity index 100% rename from colab_ipynb.ipynb rename to colab.ipynb From f4f94d4c2056bee9a238116062c5995be8db4acd Mon Sep 17 00:00:00 2001 From: litagin02 Date: Wed, 29 May 2024 05:46:31 +0900 Subject: [PATCH 24/50] change custom sampler to default --- gradio_tabs/dataset.py | 2 +- gradio_tabs/train.py | 8 ++++---- train_ms.py | 7 ++++++- train_ms_jp_extra.py | 6 +++--- 4 files changed, 14 insertions(+), 9 deletions(-) diff --git a/gradio_tabs/dataset.py b/gradio_tabs/dataset.py index 5971f62b7..03fad89f2 100644 --- a/gradio_tabs/dataset.py +++ b/gradio_tabs/dataset.py @@ -106,7 +106,7 @@ def do_transcribe( ## 注意 -- ~~長すぎる秒数(12-15秒くらいより長い?)のwavファイルは学習に用いられないようです。また短すぎてもあまりよくない可能性もあります。~~ この制限はVer 2.5でなくなりましたが、長すぎる音声があるとVRAM消費量が増えたりするので、適度な長さにスライスすることをおすすめします。 +- ~~長すぎる秒数(12-15秒くらいより長い?)のwavファイルは学習に用いられないようです。また短すぎてもあまりよくない可能性もあります。~~ この制限はVer 2.5では学習時に「カスタムバッチサンプラーを使わない」を選択すればなくなりました。が、長すぎる音声があるとVRAM消費量が増えたり安定しなかったりするので、適度な長さにスライスすることをおすすめします。 - 書き起こしの結果をどれだけ修正すればいいかはデータセットに依存しそうです。 """ diff --git a/gradio_tabs/train.py b/gradio_tabs/train.py index d0411e8b5..bf5c2de57 100644 --- a/gradio_tabs/train.py +++ b/gradio_tabs/train.py @@ -352,8 +352,8 @@ def train( cmd.append("--skip_default_style") if speedup: cmd.append("--speedup") - if not not_use_custom_batch_sampler: - cmd.append("--use_custom_batch_sampler") + if not_use_custom_batch_sampler: + cmd.append("--not_use_custom_batch_sampler") success, message = run_script_with_log(cmd, ignore_warning=True) if not success: logger.error("Train failed.") @@ -409,9 +409,9 @@ def run_tensorboard(model_name: str): **Ver 2.5以降の変更点** - `raw/`フォルダの中で音声をサブディレクトリに分けて配置することで、自動的にスタイルが作成されるようになりました。詳細は下の「使い方/データの前準備」を参照してください。 -- これまでは1ファイルあたり14秒程度を超えた音声ファイルは学習には用いられていませんでしたが、Ver 2.5以降ではその制限がなくなりました。ただし: +- これまでは1ファイルあたり14秒程度を超えた音声ファイルは学習には用いられていませんでしたが、Ver 2.5以降では「カスタムバッチサンプラーを使わない」にチェックを入れることでその制限が無しに学習できるようになりました(デフォルトはオフ)。ただし: - 音声ファイルが長い場合の学習効率は悪いかもしれず、挙動も確認していません - - この変更で要求VRAMが増えるので、学習に失敗したりVRAM不足になる場合は、バッチサイズを小さくするか、学習ボタンの横の「カスタムバッチサンプラーを使う」を試してみてください(この場合は以前と同じ挙動となります)。 + - この変更で要求VRAMがかなり増えるので、学習に失敗したりVRAM不足になる場合は、バッチサイズを小さくするか、チェックを外してください """ how_to_md = """ diff --git a/train_ms.py b/train_ms.py index b699be275..1adee4e77 100644 --- a/train_ms.py +++ b/train_ms.py @@ -97,6 +97,11 @@ def run(): help="Huggingface model repo id to backup the model.", default=None, ) + parser.add_argument( + "--not_use_custom_batch_sampler", + help="Don't use custom batch sampler for training, which was used in the version < 2.5", + action="store_true", + ) args = parser.parse_args() # Set log file @@ -213,7 +218,7 @@ def run(): writer_eval = SummaryWriter(log_dir=os.path.join(model_dir, "eval")) train_dataset = TextAudioSpeakerLoader(hps.data.training_files, hps.data) collate_fn = TextAudioSpeakerCollate() - if args.use_custom_batch_sampler: + if not args.not_use_custom_batch_sampler: train_sampler = DistributedBucketSampler( train_dataset, hps.train.batch_size, diff --git a/train_ms_jp_extra.py b/train_ms_jp_extra.py index dd19f793d..e5c5bd198 100644 --- a/train_ms_jp_extra.py +++ b/train_ms_jp_extra.py @@ -99,8 +99,8 @@ def run(): default=None, ) parser.add_argument( - "--use_custom_batch_sampler", - help="Use custom batch sampler for training, which was used in the version < 2.5", + "--not_use_custom_batch_sampler", + help="Don't use custom batch sampler for training, which was used in the version < 2.5", action="store_true", ) args = parser.parse_args() @@ -219,7 +219,7 @@ def run(): writer_eval = SummaryWriter(log_dir=os.path.join(model_dir, "eval")) train_dataset = TextAudioSpeakerLoader(hps.data.training_files, hps.data) collate_fn = TextAudioSpeakerCollate(use_jp_extra=True) - if args.use_custom_batch_sampler: + if not args.not_use_custom_batch_sampler: train_sampler = DistributedBucketSampler( train_dataset, hps.train.batch_size, From 9625014184e2c77a9817601298d683fc1fed882d Mon Sep 17 00:00:00 2001 From: litagin02 Date: Wed, 29 May 2024 06:53:21 +0900 Subject: [PATCH 25/50] Feat: use uv for bat installer --- colab.ipynb | 4 ++-- requirements-infer.txt | 22 ++++++++++++++++++++++ scripts/Install-Style-Bert-VITS2-CPU.bat | 15 +++++++++++++-- scripts/Install-Style-Bert-VITS2.bat | 19 +++++++++++++++---- 4 files changed, 52 insertions(+), 8 deletions(-) create mode 100644 requirements-infer.txt diff --git a/colab.ipynb b/colab.ipynb index de467417b..3b32dd345 100644 --- a/colab.ipynb +++ b/colab.ipynb @@ -395,7 +395,7 @@ "outputs": [], "source": [ "# 日本語特化版を「使う」場合\n", - "!python train_ms_jp_extra.py --config {config_path} --model {dataset_path} --assets_root {assets_root} --use_custom_batch_sampler" + "!python train_ms_jp_extra.py --config {config_path} --model {dataset_path} --assets_root {assets_root}" ] }, { @@ -407,7 +407,7 @@ "outputs": [], "source": [ "# 日本語特化版を「使わない」場合\n", - "!python train_ms.py --config {config_path} --model {dataset_path} --assets_root {assets_root} --use_custom_batch_sampler" + "!python train_ms.py --config {config_path} --model {dataset_path} --assets_root {assets_root}" ] }, { diff --git a/requirements-infer.txt b/requirements-infer.txt new file mode 100644 index 000000000..dcae43fc3 --- /dev/null +++ b/requirements-infer.txt @@ -0,0 +1,22 @@ +cmudict +cn2an +# faster-whisper==0.10.1 +g2p_en +GPUtil +gradio +jieba +# librosa==0.9.2 +loguru +num2words +# protobuf==4.25 +psutil +# punctuators +# pyannote.audio>=3.1.0 +# pyloudnorm +pyopenjtalk-dict +pypinyin +pyworld-prebuilt +# stable_ts +# tensorboard +transformers +# umap-learn diff --git a/scripts/Install-Style-Bert-VITS2-CPU.bat b/scripts/Install-Style-Bert-VITS2-CPU.bat index b62655ac5..e9d7419d2 100644 --- a/scripts/Install-Style-Bert-VITS2-CPU.bat +++ b/scripts/Install-Style-Bert-VITS2-CPU.bat @@ -89,6 +89,10 @@ if !errorlevel! neq 0 ( popd & exit /b !errorlevel! ) @REM Style-Bert-VITS2フォルダに移動 pushd Style-Bert-VITS2 +@REM 後で消す!!!!!!!!!! +git checkout dev +@REM 後で消す!!!!!!!!!! + echo -------------------------------------------------- echo Activating the virtual environment... echo -------------------------------------------------- @@ -96,11 +100,18 @@ echo Executing: call ".\venv\Scripts\activate.bat" call ".\venv\Scripts\activate.bat" if !errorlevel! neq 0 ( popd & exit /b !errorlevel! ) +echo -------------------------------------------------- +echo Installing package manager uv... +echo -------------------------------------------------- +echo Executing: pip install uv +pip install uv +if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) + echo -------------------------------------------------- echo Installing dependencies... echo -------------------------------------------------- -echo Executing: pip install -r requirements.txt -pip install -r requirements.txt +echo Executing: uv pip install -r requirements-infer.txt +uv pip install -r requirements-infer.txt if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) echo ---------------------------------------- diff --git a/scripts/Install-Style-Bert-VITS2.bat b/scripts/Install-Style-Bert-VITS2.bat index 35ce45c0c..62eb2b2c6 100644 --- a/scripts/Install-Style-Bert-VITS2.bat +++ b/scripts/Install-Style-Bert-VITS2.bat @@ -89,6 +89,10 @@ if !errorlevel! neq 0 ( popd & exit /b !errorlevel! ) @REM Style-Bert-VITS2フォルダに移動 pushd Style-Bert-VITS2 +@REM 後で消す!!!!!!!!!! +git checkout dev +@REM 後で消す!!!!!!!!!! + echo -------------------------------------------------- echo Activating the virtual environment... echo -------------------------------------------------- @@ -96,18 +100,25 @@ echo Executing: call ".\venv\Scripts\activate.bat" call ".\venv\Scripts\activate.bat" if !errorlevel! neq 0 ( popd & exit /b !errorlevel! ) +echo -------------------------------------------------- +echo Installing package manager uv... +echo -------------------------------------------------- +echo Executing: pip install uv +pip install uv +if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) + echo -------------------------------------------------- echo Installing PyTorch... echo -------------------------------------------------- -echo Executing: pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 +echo Executing: uv pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118 +uv pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118 if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) echo -------------------------------------------------- echo Installing other dependencies... echo -------------------------------------------------- -echo Executing: pip install -r requirements.txt -pip install -r requirements.txt +echo Executing: uv pip install -r requirements.txt +uv pip install -r requirements.txt if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) echo ---------------------------------------- From e66074c243496d538e403686ab71b4944ec28e85 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Wed, 29 May 2024 07:06:00 +0900 Subject: [PATCH 26/50] Fix: add torch to req --- requirements-colab.txt | 2 ++ requirements-infer.txt | 1 + requirements.txt | 2 ++ 3 files changed, 5 insertions(+) diff --git a/requirements-colab.txt b/requirements-colab.txt index 2f92ef182..93c086c84 100644 --- a/requirements-colab.txt +++ b/requirements-colab.txt @@ -11,5 +11,7 @@ pyloudnorm pyopenjtalk-dict pypinyin pyworld-prebuilt +torch +torchaudio transformers umap-learn diff --git a/requirements-infer.txt b/requirements-infer.txt index dcae43fc3..e70e757ea 100644 --- a/requirements-infer.txt +++ b/requirements-infer.txt @@ -18,5 +18,6 @@ pypinyin pyworld-prebuilt # stable_ts # tensorboard +torch transformers # umap-learn diff --git a/requirements.txt b/requirements.txt index 669515322..3ae756766 100644 --- a/requirements.txt +++ b/requirements.txt @@ -18,5 +18,7 @@ pypinyin pyworld-prebuilt stable_ts tensorboard +torch +torchaudio transformers umap-learn From 393d59462118a0d90dceaf537d0c45b1f5853c7b Mon Sep 17 00:00:00 2001 From: litagin02 Date: Wed, 29 May 2024 08:56:05 +0900 Subject: [PATCH 27/50] Fix bat comment, delete updating pip since we'll use uv --- scripts/Setup-Python.bat | 9 +-------- 1 file changed, 1 insertion(+), 8 deletions(-) diff --git a/scripts/Setup-Python.bat b/scripts/Setup-Python.bat index 27ca69ec3..a2df0b104 100644 --- a/scripts/Setup-Python.bat +++ b/scripts/Setup-Python.bat @@ -66,7 +66,7 @@ if not exist "%PYTHON_DIR%"\ ( if !errorlevel! neq 0 ( pause & exit /b !errorlevel! ) echo -------------------------------------------------- - echo Installing pip and virtualenv... + echo Downloading get-pip.py... echo -------------------------------------------------- echo Executing: %CURL_CMD% -o "%PYTHON_DIR%\get-pip.py" https://bootstrap.pypa.io/get-pip.py %CURL_CMD% -o "%PYTHON_DIR%\get-pip.py" https://bootstrap.pypa.io/get-pip.py @@ -103,13 +103,6 @@ echo Executing: call "%VENV_DIR%\Scripts\activate.bat" call "%VENV_DIR%\Scripts\activate.bat" if !errorlevel! neq 0 ( pause & exit /b !errorlevel! ) -echo -------------------------------------------------- -echo Upgrading pip... -echo -------------------------------------------------- -echo Executing: python -m pip install --upgrade pip -python -m pip install --upgrade pip -if !errorlevel! neq 0 ( pause & exit /b !errorlevel! ) - echo -------------------------------------------------- echo Completed. echo -------------------------------------------------- From db3e28cd47a6b73d256727deb3316d08ad9d7298 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Thu, 30 May 2024 19:04:28 +0900 Subject: [PATCH 28/50] Fix gradio numpy.int serialization error --- gradio_tabs/style_vectors.py | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/gradio_tabs/style_vectors.py b/gradio_tabs/style_vectors.py index 4aa7bc285..4618efbf6 100644 --- a/gradio_tabs/style_vectors.py +++ b/gradio_tabs/style_vectors.py @@ -136,7 +136,7 @@ def do_dbscan_gradio(eps=2.5, min_samples=15): ) plt.legend() - n_clusters = max(y_pred) + 1 + n_clusters = int(max(y_pred) + 1) if n_clusters > MAX_CLUSTER_NUM: # raise ValueError(f"The number of clusters is too large: {n_clusters}") From ba7b03e359a8c306ec1823b97564cfe46da879e7 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Fri, 31 May 2024 19:09:47 +0900 Subject: [PATCH 29/50] Delete hf download tab --- app.py | 3 -- docs/CHANGELOG.md | 5 +- gradio_tabs/download_tab.py | 102 ------------------------------------ 3 files changed, 2 insertions(+), 108 deletions(-) delete mode 100644 gradio_tabs/download_tab.py diff --git a/app.py b/app.py index 86d4ad3d0..46684efad 100644 --- a/app.py +++ b/app.py @@ -6,7 +6,6 @@ from config import get_path_config from gradio_tabs.dataset import create_dataset_app -from gradio_tabs.download_tab import create_download_app from gradio_tabs.inference import create_inference_app from gradio_tabs.merge import create_merge_app from gradio_tabs.style_vectors import create_style_vectors_app @@ -57,8 +56,6 @@ create_style_vectors_app() with gr.Tab("マージ"): create_merge_app(model_holder=model_holder) - with gr.Tab("モデルダウンロード"): - create_download_app() app.launch( server_name=args.host, diff --git a/docs/CHANGELOG.md b/docs/CHANGELOG.md index 26c194cd6..0618709a5 100644 --- a/docs/CHANGELOG.md +++ b/docs/CHANGELOG.md @@ -1,6 +1,6 @@ # Changelog -## v2.5.0 (2024-05-26) +## v2.5.0 (2024-05-31) このバージョンから[利用規約](/docs/TERMS_OF_USE.md)が追加されました。ご利用の際は必ずお読みください。 @@ -9,7 +9,6 @@ - デフォルトモデルに [あみたろの声素材工房](https://amitaro.net/) のあみたろ様が公開しているコーパスを利用して学習した**小春音アミ**モデルを追加(あみたろ様には事前に連絡して許諾を得ています) - アプデの場合は新たに`App.bat`や`Editor.bat`を起動した際に自動でダウンロードされます - 英語の音声合成の速度向上([gordon0414](https://github.com/gordon0414)さんによる[PR](https://github.com/litagin02/Style-Bert-VITS2/pull/124)です、ありがとうございます!) -- Hugging Face 🤗 に投稿されているモデルをダウンロードして音声合成に利用できるタブをWebUIに追加 - エディターの各種機能改善(多くが[kamexy](https://github.com/kamexy)様による[エディターリポジトリ](https://github.com/litagin02/Style-Bert-VITS2-Editor)へのプルリク群です、ありがとうございます!) - 選択した行の下に新規の行を作成できるように - 日本語変換のエンターで音声合成が走るバグの修正 @@ -33,7 +32,7 @@ ### バグ修正 -- Gradioのアップデートにより、モデル選択時等に`TypeError: Type is not JSON serializable: WindowsPath`のようなエラーが出る問題を修正 +- Gradioのアップデートにより、モデル選択時やスタイルのDBSCAN作成時等に`TypeError: Type is not JSON serializable: WindowsPath`のようなエラーが出る問題を修正 - TensorboardをWebUIから立ち上げた際にエラーが出る問題の修正 ([#129](https://github.com/litagin02/Style-Bert-VITS2/issues/129)) diff --git a/gradio_tabs/download_tab.py b/gradio_tabs/download_tab.py deleted file mode 100644 index ae220e5da..000000000 --- a/gradio_tabs/download_tab.py +++ /dev/null @@ -1,102 +0,0 @@ -import shutil - -import gradio as gr -from huggingface_hub import snapshot_download - -from config import get_path_config -from style_bert_vits2.logging import logger - - -assets_root = get_path_config().assets_root - -how_to_md = """ -## 使い方 - -学習済みモデルの共有サイト Hugging Face 🤗 に公開されているモデルをダウンロードして音声合成で使えるようにします。 - -例: - -- `https://huggingface.co/username/my_sbv2_model`を指定すると、`model_assets/username-my_sbv2_model`に全体がダウンロードされます。 -- `https://huggingface.co/username/my_sbv2_models/tree/main/model1`を指定すると、`model_assets/username-my_sbv2_models-model1`に`model1`フォルダがダウンロードされます。 - -**注意** - -- **必ずモデルの利用には(掲載があれば)利用規約を確認してください。** ダウンロード後にREADMEファイルが下記に表示されます。 -- 音声合成で使うには、`model_assets/{model_name}`の**直下**に`*.safetensors`ファイルと`config.json`ファイルと`style_vectors.npy`ファイルが必要です。特にリポジトリの構成は確認しないので、ダウンロード後に確認し、必要ならば再配置を行ってください。 -- 内容はチェックしませんので、**ダウンロードする前にURLにアクセスして中身を必ず確認**してください。怪しいURLは入力しないでください。 -""" - - -def download_model(url: str): - # Parse url like: https://huggingface.co/username/myrepo/tree/main/jvnv-F1-jp - # or like: https://huggingface.co/username/myrepo - - # repo_id = "username/myrepo" - repo_id = url.split("https://huggingface.co/")[1].split("/tree/main")[0] - if len(repo_id.split("/")) != 2: - logger.error(f"Invalid URL: {url}") - return "Error: URLが不正です。" - # repo_folder = "jvnv-F1-jp" - repo_folder = url.split("/tree/main/")[-1] if "/tree/main/" in url else "" - # remove last / if exists - if repo_folder.endswith("/"): - repo_folder = repo_folder[:-1] - if repo_folder == "": - model_name = repo_id.replace("/", "-") - local_dir = assets_root / model_name - logger.info(f"Downloading {repo_id} to {local_dir}") - result = snapshot_download(repo_id, local_dir=local_dir) - else: - model_name = repo_id.replace("/", "-") + "-" + repo_folder.split("/")[-1] - local_dir = assets_root / model_name - logger.info(f"Downloading {repo_id}/{repo_folder} to {local_dir}") - result = snapshot_download( - repo_id, - local_dir=local_dir, - allow_patterns=[repo_folder + "/*"], - ) - # Move the downloaded folder to the correct path - shutil.copytree( - assets_root / model_name / repo_folder, local_dir, dirs_exist_ok=True - ) - shutil.rmtree(assets_root / model_name / repo_folder.split("/")[0]) - # try to download README.md - try: - snapshot_download( - repo_id, - local_dir=local_dir, - allow_patterns=["README.md"], - ) - # README.mdの中身を表示 - with open(local_dir / "README.md", encoding="utf-8") as f: - readme = f.read() - except Exception as e: - logger.warning(f"README.md not found: {e}") - readme = "README.mdが見つかりませんでした。" - - # Remove local_dir/.huggingface - hf_dir = local_dir / ".huggingface" - if hf_dir.exists(): - shutil.rmtree(local_dir / ".huggingface") - return f"保存完了。フォルダ:\n{result}", readme - - -def create_download_app() -> gr.Blocks: - with gr.Blocks() as app: - gr.Markdown(how_to_md) - url = gr.Textbox( - label="URL", placeholder="https://huggingface.co/username/myrepo" - ) - btn = gr.Button("ダウンロード") - info = gr.Markdown("ダウンロード結果") - md = gr.Markdown( - label="README.mdファイル", value="ここにREADME.mdがあれば表示されます。" - ) - btn.click(download_model, inputs=[url], outputs=[info, md]) - - return app - - -if __name__ == "__main__": - app = create_download_app() - app.launch() From 4b2ca0643c9f1cdcabb11c3666c4ba6132b4d632 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Fri, 31 May 2024 20:16:13 +0900 Subject: [PATCH 30/50] Use uv for update bat --- docs/CHANGELOG.md | 9 +++++---- scripts/Update-Style-Bert-VITS2.bat | 11 +++++++++-- 2 files changed, 14 insertions(+), 6 deletions(-) diff --git a/docs/CHANGELOG.md b/docs/CHANGELOG.md index 0618709a5..6db830d69 100644 --- a/docs/CHANGELOG.md +++ b/docs/CHANGELOG.md @@ -8,15 +8,16 @@ - デフォルトモデルに [あみたろの声素材工房](https://amitaro.net/) のあみたろ様が公開しているコーパスを利用して学習した**小春音アミ**モデルを追加(あみたろ様には事前に連絡して許諾を得ています) - アプデの場合は新たに`App.bat`や`Editor.bat`を起動した際に自動でダウンロードされます +- 学習時に音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように + - `inputs`からスライスして使う場合は`inputs`直下に作りたいスタイルだけサブフォルダを作りそこに音声ファイルを配置 + - `Data/モデル名/raw`から使う場合も`raw`直下に同様に配置 + - サブフォルダの個数が0または1の場合は、今まで通りのNeutralスタイルのみが作成されます +- batファイルでのインストールの高速化(Pythonのライブラリインストールに[uv](https://github.com/astral-sh/uv)を使用) - 英語の音声合成の速度向上([gordon0414](https://github.com/gordon0414)さんによる[PR](https://github.com/litagin02/Style-Bert-VITS2/pull/124)です、ありがとうございます!) - エディターの各種機能改善(多くが[kamexy](https://github.com/kamexy)様による[エディターリポジトリ](https://github.com/litagin02/Style-Bert-VITS2-Editor)へのプルリク群です、ありがとうございます!) - 選択した行の下に新規の行を作成できるように - 日本語変換のエンターで音声合成が走るバグの修正 - ペースト時に改行を含まない場合は通常のペーストの振る舞いになるように修正 -- 学習時に音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように - - `inputs`からスライスして使う場合は`inputs`直下に作りたいスタイルだけサブフォルダを作りそこに音声ファイルを配置 - - `Data/モデル名/raw`から使う場合も`raw`直下に同様に配置 - - サブフォルダの個数が0または1の場合は、今まで通りのNeutralスタイルのみが作成されます ### その他の改善 diff --git a/scripts/Update-Style-Bert-VITS2.bat b/scripts/Update-Style-Bert-VITS2.bat index 5fd50e4e1..f43952bfd 100644 --- a/scripts/Update-Style-Bert-VITS2.bat +++ b/scripts/Update-Style-Bert-VITS2.bat @@ -44,11 +44,18 @@ echo Executing: call ".\venv\Scripts\activate.bat" call ".\venv\Scripts\activate.bat" if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) +echo -------------------------------------------------- +echo Installing uv... +echo -------------------------------------------------- +echo Executing: pip install -U uv +pip install -U uv +if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) + echo -------------------------------------------------- echo Updating dependencies... echo -------------------------------------------------- -echo Executing: pip install -U -r requirements.txt -pip install -U -r requirements.txt +echo Executing: uv pip install -U -r requirements.txt +uv pip install -U -r requirements.txt if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) echo ---------------------------------------- From 638d4947b3e8ec99cd665c7a2e1c079b13dde017 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 08:29:45 +0900 Subject: [PATCH 31/50] Update term of use --- docs/TERM_OF_USE.md | 44 +++++++++++++++++++++++++--------------- gradio_tabs/inference.py | 41 ++++++++++++++++++++++++++----------- 2 files changed, 57 insertions(+), 28 deletions(-) diff --git a/docs/TERM_OF_USE.md b/docs/TERM_OF_USE.md index 4833fb794..4dddafb28 100644 --- a/docs/TERM_OF_USE.md +++ b/docs/TERM_OF_USE.md @@ -1,6 +1,6 @@ # 利用規約 -- 2024-05-26: 初版 +- 2024-06-01: 初版 Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してください。 @@ -11,12 +11,12 @@ Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してくだ - 法律に違反する目的 - 政治的な目的(本家Bert-VITS2で禁止されています) - 他者を傷つける目的 -- ディープフェイク作成目的 +- なりすまし・ディープフェイク作成目的 ## 遵守事項 - Style-Bert-VITS2を利用する際は、使用するモデルの利用規約・ライセンス必ず確認し、存在する場合はそれに従わなければなりません。 -- またソースコードを利用する際は、[リポジトリのライセンス](https://github.com/litagin02/Style-Bert-VITS2#license)に従ってください。 +- またソースコードを利用する際は、[リポジトリのライセンス](https://github.com/litagin02/Style-Bert-VITS2#license)に従わなければなりません。 以下はデフォルトで付随しているモデルのライセンスです。 @@ -24,16 +24,28 @@ Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してくだ - [JVNVコーパス](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus) のライセンスは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ja)ですので、これを継承します。 -### 小春音アミ (koharune-ami) - -- [小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)を全て継承します、特に、 - - エロ・グロ、政治・宗教・ヘイト・人をだます目的などには使えません、つまりセンシティブな作品や発言には使用できません - - 使用する際は(配信やXの動画等でも)必ず分かりやすい場所にクレジット表記を記載してください(クレジット表記例: `SBV2モデル:小春音アミ、あみたろの声素材工房(https://amitaro.net/)`) - - 規約を守れば商用非商用問わず利用できます -- 追加で、以下の事項を守ってください - - 年齢制限がかかりそうな発言・誰かを騙したり傷つけたりするような発言・政治や宗教やマルチ購などに関する発言・ディープフェイクやヘイト発言などのセリフは禁止です - - あみたろ様本人の発言と誤解されるような使い方はできません - - あみたろ様以外の人の声だと誤解されるような使い方はできません - - モデルマージに関しては、[あみたろの声素材工房のよくある質問への回答](https://amitaro.net/voice/faq/#index_id17)を遵守してください: - - 本モデルを別モデルとマージできるのは、その別モデル作成の際に学習に使われた声の権利者が許諾している場合に限る - - あみたろの声の特徴が残っている場合(マージの割合が25%以上の場合)は、その利用は[小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)の範囲内に限定され、そのモデルに関してもこの規約が適応される +### 小春音アミ (koharune-ami) / あみたろ (amitaro) + +[あみたろの声素材工房様の規約](https://amitaro.net/voice/voice_rule/) と [あみたろのライブ配信音声・利用規約](https://amitaro.net/voice/livevoice/#index_id6) を全て守らなければなりません。特に、以下の事項を遵守してください(規約を守れば商用非商用問わず利用できます): + +#### 禁止事項 + +- 年齢制限のある作品・用途への使用 +- 新興宗教・政治・マルチ購などに深く関係する作品・用途 +- 特定の団体や個人や国家を誹謗中傷する作品・用途 +- 生成された音声を、あみたろ本人の声として扱うこと +- 生成された音声を、あみたろ以外の人の声として扱うこと + +#### クレジット表記 + +生成音声を公開する際は(媒体は問わない)、必ず分かりやすい場所に `あみたろの声素材工房 (https://amitaro.net/)` を含むクレジット表記を記載してください。 + +クレジット表記例: +- `Style-BertVITS2モデル: 小春音アミ、あみたろの声素材工房 (https://amitaro.net/)` +- `Style-BertVITS2モデル: あみたろ、あみたろの声素材工房 (https://amitaro.net/)` + +#### モデルマージ + +モデルマージに関しては、[あみたろの声素材工房のよくある質問への回答](https://amitaro.net/voice/faq/#index_id17)を遵守してください: +- 本モデルを別モデルとマージできるのは、その別モデル作成の際に学習に使われた声の権利者が許諾している場合に限る +- あみたろの声の特徴が残っている場合(マージの割合が25%以上の場合)は、その利用は[あみたろの声素材工房様の規約](https://amitaro.net/voice/voice_rule/)の範囲内に限定され、そのモデルに関してもこの規約が適応される \ No newline at end of file diff --git a/gradio_tabs/inference.py b/gradio_tabs/inference.py index 939849a69..3519362c0 100644 --- a/gradio_tabs/inference.py +++ b/gradio_tabs/inference.py @@ -96,7 +96,7 @@ ] initial_md = """ -- Ver 2.5で追加されたデフォルトの[「`koharune-ami`(小春音アミ)」モデル](https://huggingface.co/litagin/sbv2_koharune_ami)は、[あみたろの声素材工房](https://amitaro.net/)で公開されているコーパス音源を利用して学習したモデルです。下記の**利用規約を必ず読んで**からご利用ください。特に**クレジット表記必須**で**エログロ等センシティブな発言に使用できません**。 +- Ver 2.5で追加されたデフォルトの [`koharune-ami`(小春音アミ)モデル](https://huggingface.co/litagin/sbv2_koharune_ami) と[`amitaro`(あみたろ)モデル](https://huggingface.co/litagin/sbv2_amitaro) は、[あみたろの声素材工房](https://amitaro.net/)で公開されているコーパス音源・ライブ配信音声を利用して事前に許可を得て学習したモデルです。下記の**利用規約を必ず読んで**からご利用ください。 - Ver 2.3で追加された**エディター版**のほうが実際に読み上げさせるには使いやすいかもしれません。`Editor.bat`か`python server_editor.py --inbrowser`で起動できます。 """ @@ -108,15 +108,17 @@ ### 禁止事項 +以下の目的での利用は禁止されています: + - 法律に違反する目的 - 政治的な目的(本家Bert-VITS2で禁止されています) - 他者を傷つける目的 -- ディープフェイク作成目的 +- なりすまし・ディープフェイク作成目的 ### 遵守事項 - Style-Bert-VITS2を利用する際は、使用するモデルの利用規約・ライセンスを必ず確認し、それに従わなければなりません。 -- またソースコードを利用する際は、[リポジトリのライセンス](https://github.com/litagin02/Style-Bert-VITS2#license)に従ってください。 +- またソースコードを利用する際は、[リポジトリのライセンス](https://github.com/litagin02/Style-Bert-VITS2#license)に従わなければなりません。 以下はデフォルトで付随しているモデルのライセンスです。 @@ -124,16 +126,31 @@ - [JVNVコーパス](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus) のライセンスは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ja)ですので、これを継承します。 -### 小春音アミ (koharune-ami) +### 小春音アミ (koharune-ami) / あみたろ (amitaro) + +[あみたろの声素材工房様の規約](https://amitaro.net/voice/voice_rule/) と [あみたろのライブ配信音声・利用規約](https://amitaro.net/voice/livevoice/#index_id6) を全て守らなければなりません。特に、以下の事項を遵守してください(規約を守れば商用非商用問わず利用できます): + +#### 禁止事項 + +- 年齢制限のある作品・用途への使用 +- 新興宗教・政治・マルチ購などに深く関係する作品・用途 +- 特定の団体や個人や国家を誹謗中傷する作品・用途 +- 生成された音声を、あみたろ本人の声として扱うこと +- 生成された音声を、あみたろ以外の人の声として扱うこと + +#### クレジット表記 + +生成音声を公開する際は(媒体は問わない)、必ず分かりやすい場所に `あみたろの声素材工房 (https://amitaro.net/)` を含むクレジット表記を記載してください。 + +クレジット表記例: +- `Style-BertVITS2モデル: 小春音アミ、あみたろの声素材工房 (https://amitaro.net/)` +- `Style-BertVITS2モデル: あみたろ、あみたろの声素材工房 (https://amitaro.net/)` + +#### モデルマージ -- [小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)を全て継承します、特に、 - - エロ・グロ、政治・宗教・ヘイト・人をだます目的などには使えません、つまりセンシティブな作品や発言には使用できません - - 使用する際は(配信やXの動画等でも)必ず分かりやすい場所にクレジット表記を記載してください(クレジット表記例: `SBV2モデル: 小春音アミ、あみたろの声素材工房 (https://amitaro.net/)`) - - 規約を守れば商用非商用問わず利用できます -- 追加で、以下の事項を守ってください - - モデルマージに関しては、[あみたろの声素材工房のよくある質問への回答](https://amitaro.net/voice/faq/#index_id17)を遵守してください: - - 本モデルを別モデルとマージできるのは、その別モデル作成の際に学習に使われた声の権利者が許諾している場合に限る - - あみたろの声の特徴が残っている場合(マージの割合が25%以上の場合)は、その利用は[小春音アミ(あみたろの声素材工房)の規約](https://amitaro.net/voice/voice_rule/)の範囲内に限定され、そのモデルに関してもこの規約が適応される +モデルマージに関しては、[あみたろの声素材工房のよくある質問への回答](https://amitaro.net/voice/faq/#index_id17)を遵守してください: +- 本モデルを別モデルとマージできるのは、その別モデル作成の際に学習に使われた声の権利者が許諾している場合に限る +- あみたろの声の特徴が残っている場合(マージの割合が25%以上の場合)は、その利用は[あみたろの声素材工房様の規約](https://amitaro.net/voice/voice_rule/)の範囲内に限定され、そのモデルに関してもこの規約が適応される """ how_to_md = """ From d18a30a9a4df5822c2f9fef7545faff7ea2421a3 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 11:22:19 +0900 Subject: [PATCH 32/50] Update term of use --- docs/TERM_OF_USE.md | 12 ++++++------ gradio_tabs/inference.py | 12 +++++++----- 2 files changed, 13 insertions(+), 11 deletions(-) diff --git a/docs/TERM_OF_USE.md b/docs/TERM_OF_USE.md index 4dddafb28..d51fa994c 100644 --- a/docs/TERM_OF_USE.md +++ b/docs/TERM_OF_USE.md @@ -20,15 +20,15 @@ Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してくだ 以下はデフォルトで付随しているモデルのライセンスです。 -### JVNVコーパス (jvnv-F1-jp, jvnv-F2-jp, jvnv-M1-jp, jvnv-M2-jp) +## JVNVコーパス (jvnv-F1-jp, jvnv-F2-jp, jvnv-M1-jp, jvnv-M2-jp) - [JVNVコーパス](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus) のライセンスは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ja)ですので、これを継承します。 -### 小春音アミ (koharune-ami) / あみたろ (amitaro) +## 小春音アミ (koharune-ami) / あみたろ (amitaro) [あみたろの声素材工房様の規約](https://amitaro.net/voice/voice_rule/) と [あみたろのライブ配信音声・利用規約](https://amitaro.net/voice/livevoice/#index_id6) を全て守らなければなりません。特に、以下の事項を遵守してください(規約を守れば商用非商用問わず利用できます): -#### 禁止事項 +### 禁止事項 - 年齢制限のある作品・用途への使用 - 新興宗教・政治・マルチ購などに深く関係する作品・用途 @@ -36,15 +36,15 @@ Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してくだ - 生成された音声を、あみたろ本人の声として扱うこと - 生成された音声を、あみたろ以外の人の声として扱うこと -#### クレジット表記 +### クレジット表記 -生成音声を公開する際は(媒体は問わない)、必ず分かりやすい場所に `あみたろの声素材工房 (https://amitaro.net/)` を含むクレジット表記を記載してください。 +生成音声を公開する際は(媒体は問わない)、必ず分かりやすい場所に `あみたろの声素材工房 (https://amitaro.net/)` の声を元にした音声モデルを使用していることが分かるようなクレジット表記を記載してください。 クレジット表記例: - `Style-BertVITS2モデル: 小春音アミ、あみたろの声素材工房 (https://amitaro.net/)` - `Style-BertVITS2モデル: あみたろ、あみたろの声素材工房 (https://amitaro.net/)` -#### モデルマージ +### モデルマージ モデルマージに関しては、[あみたろの声素材工房のよくある質問への回答](https://amitaro.net/voice/faq/#index_id17)を遵守してください: - 本モデルを別モデルとマージできるのは、その別モデル作成の際に学習に使われた声の権利者が許諾している場合に限る diff --git a/gradio_tabs/inference.py b/gradio_tabs/inference.py index 3519362c0..7a559e8dd 100644 --- a/gradio_tabs/inference.py +++ b/gradio_tabs/inference.py @@ -104,20 +104,22 @@ terms_of_use_md = """ ## 利用規約 +最新の利用規約は [こちら](https://github.com/litagin02/Style-Bert-VITS2/blob/master/docs/TERM_OF_USE.md) を参照してください。常に最新のものが適用されます。 + Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してください。 -### 禁止事項 +## 禁止事項 -以下の目的での利用は禁止されています: +以下の目的での利用は禁止されています。 - 法律に違反する目的 - 政治的な目的(本家Bert-VITS2で禁止されています) - 他者を傷つける目的 - なりすまし・ディープフェイク作成目的 -### 遵守事項 +## 遵守事項 -- Style-Bert-VITS2を利用する際は、使用するモデルの利用規約・ライセンスを必ず確認し、それに従わなければなりません。 +- Style-Bert-VITS2を利用する際は、使用するモデルの利用規約・ライセンス必ず確認し、存在する場合はそれに従わなければなりません。 - またソースコードを利用する際は、[リポジトリのライセンス](https://github.com/litagin02/Style-Bert-VITS2#license)に従わなければなりません。 以下はデフォルトで付随しているモデルのライセンスです。 @@ -140,7 +142,7 @@ #### クレジット表記 -生成音声を公開する際は(媒体は問わない)、必ず分かりやすい場所に `あみたろの声素材工房 (https://amitaro.net/)` を含むクレジット表記を記載してください。 +生成音声を公開する際は(媒体は問わない)、必ず分かりやすい場所に `あみたろの声素材工房 (https://amitaro.net/)` の声を元にした音声モデルを使用していることが分かるようなクレジット表記を記載してください。 クレジット表記例: - `Style-BertVITS2モデル: 小春音アミ、あみたろの声素材工房 (https://amitaro.net/)` From 5ec89e93d7405f4182503f2f2e5180c9317a2b41 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 11:26:58 +0900 Subject: [PATCH 33/50] Rename term to terms --- README.md | 4 ++-- docs/CHANGELOG.md | 4 ++-- docs/{TERM_OF_USE.md => TERMS_OF_USE.md} | 0 gradio_tabs/inference.py | 2 +- 4 files changed, 5 insertions(+), 5 deletions(-) rename docs/{TERM_OF_USE.md => TERMS_OF_USE.md} (100%) diff --git a/README.md b/README.md index 2beb4b5d4..0da9cba3e 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,6 @@ # Style-Bert-VITS2 -**利用の際は必ず[利用規約](/docs/TERM_OF_USE.md)をお読みください。** +**利用の際は必ず[利用規約](/docs/TERMS_OF_USE.md)をお読みください。** Bert-VITS2 with more controllable voice styles. @@ -16,7 +16,7 @@ You can install via `pip install style-bert-vits2` (inference only), see [librar - [**リリースページ**](https://github.com/litagin02/Style-Bert-VITS2/releases/)、[更新履歴](/docs/CHANGELOG.md) - - 2024-05-26: Ver 2.5.0 (**[利用規約](/docs/TERM_OF_USE.md)の追加**、フォルダ分けからのスタイル生成、小春音アミモデルの追加) + - 2024-05-26: Ver 2.5.0 (**[利用規約](/docs/TERMS_OF_USE.md)の追加**、フォルダ分けからのスタイル生成、小春音アミ・あみたろモデルの追加) - 2024-03-16: ver 2.4.1 (**batファイルによるインストール方法の変更**) - 2024-03-15: ver 2.4.0 (大規模リファクタリングや種々の改良、ライブラリ化) - 2024-02-26: ver 2.3 (辞書機能とエディター機能) diff --git a/docs/CHANGELOG.md b/docs/CHANGELOG.md index 6db830d69..11383aa4c 100644 --- a/docs/CHANGELOG.md +++ b/docs/CHANGELOG.md @@ -1,12 +1,12 @@ # Changelog -## v2.5.0 (2024-05-31) +## v2.5.0 (2024-06-01) このバージョンから[利用規約](/docs/TERMS_OF_USE.md)が追加されました。ご利用の際は必ずお読みください。 ### 新機能等 -- デフォルトモデルに [あみたろの声素材工房](https://amitaro.net/) のあみたろ様が公開しているコーパスを利用して学習した**小春音アミ**モデルを追加(あみたろ様には事前に連絡して許諾を得ています) +- デフォルトモデルに [あみたろの声素材工房](https://amitaro.net/) のあみたろ様が公開しているコーパスとライブ配信音声を利用して学習した**小春音アミ**と**あみたろ**モデルを追加(あみたろ様には事前に連絡して許諾を得ています) - アプデの場合は新たに`App.bat`や`Editor.bat`を起動した際に自動でダウンロードされます - 学習時に音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように - `inputs`からスライスして使う場合は`inputs`直下に作りたいスタイルだけサブフォルダを作りそこに音声ファイルを配置 diff --git a/docs/TERM_OF_USE.md b/docs/TERMS_OF_USE.md similarity index 100% rename from docs/TERM_OF_USE.md rename to docs/TERMS_OF_USE.md diff --git a/gradio_tabs/inference.py b/gradio_tabs/inference.py index 7a559e8dd..548f0e7e6 100644 --- a/gradio_tabs/inference.py +++ b/gradio_tabs/inference.py @@ -104,7 +104,7 @@ terms_of_use_md = """ ## 利用規約 -最新の利用規約は [こちら](https://github.com/litagin02/Style-Bert-VITS2/blob/master/docs/TERM_OF_USE.md) を参照してください。常に最新のものが適用されます。 +最新の利用規約は [こちら](https://github.com/litagin02/Style-Bert-VITS2/blob/master/docs/TERMS_OF_USE.md) を参照してください。常に最新のものが適用されます。 Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してください。 From 3994089e3ccc2f24a0a0064a85f76dba1520b130 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 11:39:50 +0900 Subject: [PATCH 34/50] Add FAQ --- docs/CHANGELOG.md | 1 + docs/FAQ.md | 19 +++++++++++++++++++ 2 files changed, 20 insertions(+) create mode 100644 docs/FAQ.md diff --git a/docs/CHANGELOG.md b/docs/CHANGELOG.md index 11383aa4c..5e6854480 100644 --- a/docs/CHANGELOG.md +++ b/docs/CHANGELOG.md @@ -6,6 +6,7 @@ ### 新機能等 +- [よくある質問](/docs/FAQ.md)を追加 - デフォルトモデルに [あみたろの声素材工房](https://amitaro.net/) のあみたろ様が公開しているコーパスとライブ配信音声を利用して学習した**小春音アミ**と**あみたろ**モデルを追加(あみたろ様には事前に連絡して許諾を得ています) - アプデの場合は新たに`App.bat`や`Editor.bat`を起動した際に自動でダウンロードされます - 学習時に音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように diff --git a/docs/FAQ.md b/docs/FAQ.md new file mode 100644 index 000000000..d2ab1d107 --- /dev/null +++ b/docs/FAQ.md @@ -0,0 +1,19 @@ +# よくある質問 + +## APIサーバーで長い文章が合成できない + +デフォルトで`server_fastapi.py`の入力文字上限は100文字に設定されています。 +`config.yml`の`server.limit`の100を好きな数字に変更してください。 + +## 学習を中断・再開するには + +- 学習を中断するには、学習の進捗が表示されている画面(bat使用ならコマンドプロンプト)を好きなタイミングで閉じてください。 +- 学習を再開するには、WebUIでモデル名を再開したいモデルと同じ名前に設定して、前処理等はせずに一番下の「学習を開始する」ボタンを押してください(「スタイルファイルの生成をスキップする」にチェックを入れるのをおすすめします)。 + +## 途中でバッチサイズやエポック数を変更したい + +`Data/{モデル名}/config.json`を手動で変更してから、学習を再開してください。 + +## その他 + +調べたりChatGPTに聞くか、それでも分からない場合・またはエラーが出る等明らかに不具合やバグと思われる挙動を見つけた場合は、GitHubの[Issue](https://github.com/litagin02/Style-Bert-VITS2/issues)に投稿してください。 From f80846b2239f2d9ed1587f0732d4eb9566e03537 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 14:08:56 +0900 Subject: [PATCH 35/50] Fix infer req and not to use virtualenv --- docs/CHANGELOG.md | 2 +- requirements-infer.txt | 4 ++-- scripts/Setup-Python.bat | 21 +++++++-------------- 3 files changed, 10 insertions(+), 17 deletions(-) diff --git a/docs/CHANGELOG.md b/docs/CHANGELOG.md index 5e6854480..23fc958de 100644 --- a/docs/CHANGELOG.md +++ b/docs/CHANGELOG.md @@ -17,7 +17,7 @@ - 英語の音声合成の速度向上([gordon0414](https://github.com/gordon0414)さんによる[PR](https://github.com/litagin02/Style-Bert-VITS2/pull/124)です、ありがとうございます!) - エディターの各種機能改善(多くが[kamexy](https://github.com/kamexy)様による[エディターリポジトリ](https://github.com/litagin02/Style-Bert-VITS2-Editor)へのプルリク群です、ありがとうございます!) - 選択した行の下に新規の行を作成できるように - - 日本語変換のエンターで音声合成が走るバグの修正 + - Mac使用時に日本語変換のエンターで音声合成が走るバグの修正 - ペースト時に改行を含まない場合は通常のペーストの振る舞いになるように修正 diff --git a/requirements-infer.txt b/requirements-infer.txt index e70e757ea..6dc1dd472 100644 --- a/requirements-infer.txt +++ b/requirements-infer.txt @@ -11,7 +11,7 @@ num2words # protobuf==4.25 psutil # punctuators -# pyannote.audio>=3.1.0 +pyannote.audio>=3.1.0 # pyloudnorm pyopenjtalk-dict pypinyin @@ -20,4 +20,4 @@ pyworld-prebuilt # tensorboard torch transformers -# umap-learn +umap-learn diff --git a/scripts/Setup-Python.bat b/scripts/Setup-Python.bat index a2df0b104..3a770d68a 100644 --- a/scripts/Setup-Python.bat +++ b/scripts/Setup-Python.bat @@ -78,31 +78,24 @@ if not exist "%PYTHON_DIR%"\ ( echo Executing: "%PYTHON_CMD%" "%PYTHON_DIR%\get-pip.py" --no-warn-script-location "%PYTHON_CMD%" "%PYTHON_DIR%\get-pip.py" --no-warn-script-location if !errorlevel! neq 0 ( pause & exit /b !errorlevel! ) +) +if not exist %VENV_DIR%\ ( echo -------------------------------------------------- - echo Installing virtualenv... + echo Installing uv... echo -------------------------------------------------- - echo Executing: "%PYTHON_CMD%" -m pip install virtualenv --no-warn-script-location - "%PYTHON_CMD%" -m pip install virtualenv --no-warn-script-location + echo Executing: "%PYTHON_CMD%" -m pip install uv + "%PYTHON_CMD%" -m pip install uv if !errorlevel! neq 0 ( pause & exit /b !errorlevel! ) -) -if not exist %VENV_DIR%\ ( echo -------------------------------------------------- echo Creating virtual environment... echo -------------------------------------------------- - echo Executing: "%PYTHON_CMD%" -m virtualenv --copies "%VENV_DIR%" - "%PYTHON_CMD%" -m virtualenv --copies "%VENV_DIR%" + echo Executing: "%PYTHON_CMD%" -m uv venv "%VENV_DIR%" + "%PYTHON_CMD%" -m uv venv "%VENV_DIR%" if !errorlevel! neq 0 ( pause & exit /b !errorlevel! ) ) -echo -------------------------------------------------- -echo Activating virtual environment... -echo -------------------------------------------------- -echo Executing: call "%VENV_DIR%\Scripts\activate.bat" -call "%VENV_DIR%\Scripts\activate.bat" -if !errorlevel! neq 0 ( pause & exit /b !errorlevel! ) - echo -------------------------------------------------- echo Completed. echo -------------------------------------------------- From 1b50d3d3e4ee896c07ac6b5ca095f5f6fc40fdbf Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 14:27:49 +0900 Subject: [PATCH 36/50] Remove clustering.ipynb --- README.md | 4 +- clustering.ipynb | 316 ----------------------------------------------- 2 files changed, 2 insertions(+), 318 deletions(-) delete mode 100644 clustering.ipynb diff --git a/README.md b/README.md index 0da9cba3e..c70efe4b1 100644 --- a/README.md +++ b/README.md @@ -129,10 +129,10 @@ model_assets ### スタイルの生成 -- デフォルトスタイル「Neutral」以外のスタイルを使いたい人向けです。 +- デフォルトでは、デフォルトスタイル「Neutral」の他、学習フォルダのフォルダ分けに応じたスタイルが生成されます。 +- それ以外の方法でスタイルを生成したい人向けです。 - `App.bat`をダブルクリックか`python app.py`して開くWebUIの「スタイル作成」タブから、音声ファイルを使ってスタイルを生成できます。 - 学習とは独立しているので、学習中でもできるし、学習が終わっても何度もやりなおせます(前処理は終わらせている必要があります)。 -- スタイルについての仕様の詳細は[clustering.ipynb](clustering.ipynb)を参照してください。 ### API Server diff --git a/clustering.ipynb b/clustering.ipynb deleted file mode 100644 index f6844d5ae..000000000 --- a/clustering.ipynb +++ /dev/null @@ -1,316 +0,0 @@ -{ - "cells": [ - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "# スタイルベクトルをもっと詳しく作りたい人向け\n", - "\n", - "JVNVコーパスの例を使いながらクラスタリングをいろいろいじったり、また正解ラベルからベクトルを作りたい人向けです。\n", - "もっといろいろ足したりいろんなスタイルベクトルを作って遊べると思います。\n", - "ある程度慣れている人向けです。\n", - "\n", - "JVNVコーパスのように**スタイルが既にファイル名等で分かれている場合は、最後の方のセルを使えばそれを利用してスタイルを作ることができます。**\n", - "\n", - "例では[JVNVコーパス](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus)のjvnv-M1を使います。\n", - "\n", - "## そもそもスタイルベクトルとは\n", - "[この話者識別モデル](https://huggingface.co/pyannote/wespeaker-voxceleb-resnet34-LM)を使って生成された、1つの音声ファイルにつき256次元のベクトルです。話者識別用のものですが、感情や声音の特徴も含まれているので、スタイルベクトルとして使えます。\n", - "\n", - "このStyle-Bert-VITS2では、この256次元のベクトルをエンコーダに注入して学習しているので、推論時にそのベクトルを入れてあげる必要があります。ある感情を強く表していると思われるベクトルを入れると、その感情を強く表現した音声が生成される、という仕組みです。\n", - "\n", - "もともとが話者識別用なので、「この感情はこのベクトル」のような普遍的なスタイルベクトルは使えません。なのでこのように、いちいちデータセットごとにベクトルを作る必要があります。\n", - "\n", - "## モデルを使うために必要なもの\n", - "- `model_assets/{model_name}/model_name.safetensors`: 学習の結果出力されるモデルファイル。これは自動的にこの場所に置かれ、スタイルベクトルとは全く独立。\n", - "- `model_assets/{model_name}/style_vectors.npy`: スタイルベクトルのnumpyファイル。ベクトルをいくつかいれる。\n", - "- `model_assets/{model_name}/config.json`: モデルの設定ファイル(学習前準備で自動的に生成されるはず)。これの以下の項目を設定。\n", - "```json\n", - "{\n", - " \"data\": {\n", - " \"num_styles\": 4, // スタイルベクトルの数\n", - " \"style2id\": { // スタイルベクトルの名前とidの対応\n", - " \"Neutral\": 0,\n", - " \"Angry\": 1,\n", - " \"Happy\": 2,\n", - " \"Sad\": 3\n", - " }\n", - " }\n", - "}\n", - "```\n", - "ここでidは0から始まる整数で、スタイルベクトルのnumpyファイルの何番目のベクトルかを指定します。最初のNeutralは含めたほうがよさそうで、WebUIや下では全スタイルベクトルの平均を入れています。" - ] - }, - { - "cell_type": "code", - "execution_count": 1, - "metadata": {}, - "outputs": [], - "source": [ - "import os\n", - "import numpy as np\n", - "\n", - "wav_dir = \"Data/jvnv-M1/wavs\"\n", - "\n", - "embs = []\n", - "names = []\n", - "for file in os.listdir(wav_dir):\n", - " if file.endswith(\".npy\"):\n", - " xvec = np.load(os.path.join(wav_dir, file))\n", - " embs.append(np.expand_dims(xvec, axis=0))\n", - " names.append(file)\n", - "\n", - "x = np.concatenate(embs, axis=0)" - ] - }, - { - "cell_type": "code", - "execution_count": 2, - "metadata": {}, - "outputs": [ - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "# TSNEで可視化\n", - "from sklearn.manifold import TSNE\n", - "import matplotlib.pyplot as plt\n", - "\n", - "\n", - "# 特徴量の関係か、コサイン距離が良さげ\n", - "tsne = TSNE(n_components=2, random_state=42, metric=\"cosine\")\n", - "\n", - "x_tsne = tsne.fit_transform(x)\n", - "\n", - "plt.figure(figsize=(7, 7))\n", - "plt.scatter(x_tsne[:, 0], x_tsne[:, 1])\n", - "\n", - "plt.show()" - ] - }, - { - "cell_type": "code", - "execution_count": 3, - "metadata": {}, - "outputs": [], - "source": [ - "from sklearn.cluster import KMeans, AgglomerativeClustering\n", - "\n", - "method = \"k\"\n", - "n_clusters = 5\n", - "\n", - "if method == \"k\":\n", - " model = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)\n", - "elif method == \"a\":\n", - " model = AgglomerativeClustering(n_clusters=n_clusters)\n", - "\n", - "y_predict = model.fit_predict(x)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "上は直接生のベクトルでクラスタリングしてますが、次のようにt-SNEで図のように2次元に削減したものをクラスタリングしたほうが、識別がきれいに分かれる、ことが多いような気がします、が詳しくは分かりません:" - ] - }, - { - "cell_type": "code", - "execution_count": 4, - "metadata": {}, - "outputs": [], - "source": [ - "y_predict = model.fit_predict(x_tsne)" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "metadata": {}, - "outputs": [], - "source": [ - "centroids = []\n", - "for i in range(n_clusters):\n", - " centroids.append(x[y_predict == i].mean(axis=0))" - ] - }, - { - "cell_type": "code", - "execution_count": 6, - "metadata": {}, - "outputs": [ - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "# TSNEで可視化\n", - "import matplotlib.pyplot as plt\n", - "\n", - "plt.figure(figsize=(7, 7))\n", - "plt.scatter(x_tsne[:, 0], x_tsne[:, 1], c=y_predict)\n", - "\n", - "plt.show()" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "from scipy.spatial.distance import cdist\n", - "from IPython.display import Audio, display\n", - "\n", - "# 各クラスターのセントロイドに最も近い点に対応するファイル名を取得\n", - "closest_files = []\n", - "for center_idx in range(len(centroids)):\n", - " closest_idx = np.argmin(\n", - " cdist(centroids[center_idx : center_idx + 1], x, metric=\"cosine\")\n", - " )\n", - " closest_files.append(names[closest_idx])\n", - "\n", - "# 対応する音声ファイルをJupyterノートブック上で再生\n", - "for file_name in closest_files:\n", - " wav_path = os.path.join(wav_dir, file_name.replace(\".npy\", \"\"))\n", - " if os.path.exists(wav_path):\n", - " print(wav_path)\n", - " display(Audio(wav_path))" - ] - }, - { - "cell_type": "code", - "execution_count": 37, - "metadata": {}, - "outputs": [], - "source": [ - "# meanとcentroidを保存\n", - "mean = x.mean(axis=0)\n", - "save_vectors = np.vstack([mean, centroids])\n", - "os.makedirs(\"model_assets/jvnv-M1\", exist_ok=True)\n", - "np.save(\"model_assets/jvnv-M1/style_vectors.npy\", save_vectors)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "## 正解ラベルがファイル名から分かる場合の作り方\n", - "JVNVコーパス等でファイル名によってスタイルラベルが分かる場合、以下のようにしてスタイルベクトルを作ることができます(デフォルトのJVNVモデルのスタイルはこれで作成しています)。" - ] - }, - { - "cell_type": "code", - "execution_count": 8, - "metadata": {}, - "outputs": [], - "source": [ - "# JVNVコーパスの場合は正解はファイル名の最初の方から分かる。それを使って正解ラベルを作成\n", - "label_dict = {\"ang\": 0, \"dis\": 1, \"fea\": 2, \"hap\": 3, \"sad\": 4, \"sur\": 5}\n", - "\n", - "y_true = [label_dict[name[3:6]] for name in names]" - ] - }, - { - "cell_type": "code", - "execution_count": 10, - "metadata": {}, - "outputs": [], - "source": [ - "# 正解のセントロイドを計算\n", - "y_true = np.array(y_true)\n", - "true_centroids = []\n", - "for i in range(6):\n", - " true_centroids.append(np.mean(x[y_true == i], axis=0))\n", - "\n", - "true_centroids = np.array(true_centroids)\n", - "\n", - "# すべてのベクトルの平均を計算\n", - "mean = np.mean(x, axis=0)\n", - "\n", - "# 保存\n", - "os.makedirs(\"model_assets/jvnv-M1\", exist_ok=True)\n", - "np.save(\"model_assets/jvnv-M1/style_vectors.npy\", np.vstack([mean, true_centroids]))" - ] - }, - { - "cell_type": "code", - "execution_count": 11, - "metadata": {}, - "outputs": [ - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "# TSNEで正解ラベルを可視化\n", - "import matplotlib.pyplot as plt\n", - "\n", - "cmap = plt.get_cmap(\"tab10\")\n", - "\n", - "true_label_dict = {0: \"ang\", 1: \"dis\", 2: \"fea\", 3: \"hap\", 4: \"sad\", 5: \"sur\"}\n", - "\n", - "plt.figure(figsize=(7, 7))\n", - "for i in true_label_dict:\n", - " plt.scatter(\n", - " x_tsne[y_true == i, 0],\n", - " x_tsne[y_true == i, 1],\n", - " color=cmap(i),\n", - " label=f\"{true_label_dict[i]}\",\n", - " )\n", - "plt.legend()\n", - "plt.show()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "手動でconfig.jsonのstyle2idとnum_stylesを設定するのを忘れずに。" - ] - } - ], - "metadata": { - "kernelspec": { - "display_name": "venv", - "language": "python", - "name": "python3" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.10.11" - } - }, - "nbformat": 4, - "nbformat_minor": 2 -} From f778a41f93b785c4ecd7f84d9941013181384c03 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 14:29:49 +0900 Subject: [PATCH 37/50] Update --- docs/CHANGELOG.md | 2 +- initialize.py | 2 -- 2 files changed, 1 insertion(+), 3 deletions(-) diff --git a/docs/CHANGELOG.md b/docs/CHANGELOG.md index 23fc958de..939ea0132 100644 --- a/docs/CHANGELOG.md +++ b/docs/CHANGELOG.md @@ -13,7 +13,7 @@ - `inputs`からスライスして使う場合は`inputs`直下に作りたいスタイルだけサブフォルダを作りそこに音声ファイルを配置 - `Data/モデル名/raw`から使う場合も`raw`直下に同様に配置 - サブフォルダの個数が0または1の場合は、今まで通りのNeutralスタイルのみが作成されます -- batファイルでのインストールの高速化(Pythonのライブラリインストールに[uv](https://github.com/astral-sh/uv)を使用) +- batファイルでのインストールの大幅な高速化(Pythonのライブラリインストールに[uv](https://github.com/astral-sh/uv)を使用) - 英語の音声合成の速度向上([gordon0414](https://github.com/gordon0414)さんによる[PR](https://github.com/litagin02/Style-Bert-VITS2/pull/124)です、ありがとうございます!) - エディターの各種機能改善(多くが[kamexy](https://github.com/kamexy)様による[エディターリポジトリ](https://github.com/litagin02/Style-Bert-VITS2-Editor)へのプルリク群です、ありがとうございます!) - 選択した行の下に新規の行を作成できるように diff --git a/initialize.py b/initialize.py index 7127d4c51..cb3cf99a7 100644 --- a/initialize.py +++ b/initialize.py @@ -72,7 +72,6 @@ def download_default_models(): "litagin/style_bert_vits2_jvnv", file, local_dir="model_assets", - local_dir_use_symlinks=False, ) additional_files = { "litagin/sbv2_koharune_ami": [ @@ -89,7 +88,6 @@ def download_default_models(): repo_id, file, local_dir="model_assets", - local_dir_use_symlinks=False, ) From 287db8cf28c3cf18316abf39b580712c3f734f5e Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 15:18:50 +0900 Subject: [PATCH 38/50] Fix: add onnxruntime to colab req --- colab.ipynb | 2 +- docs/CHANGELOG.md | 2 +- requirements-colab.txt | 1 + 3 files changed, 3 insertions(+), 2 deletions(-) diff --git a/colab.ipynb b/colab.ipynb index 3b32dd345..6322f0e8b 100644 --- a/colab.ipynb +++ b/colab.ipynb @@ -133,7 +133,7 @@ "\n", "音声ファイル(1ファイル2-12秒程度)とその書き起こしのデータセットを持っていない方は、(日本語の)音声ファイルのみから以下の手順でデータセットを作成することができます。Google drive上の`Style-Bert-VITS2/inputs/`フォルダに音声ファイル(wavやmp3等の通常の音声ファイル形式、1ファイルでも複数ファイルでも可)を置いて、下を実行すると、データセットが作られ、自動的に正しい場所へ配置されます。\n", "\n", - "**2024-05-27のVer 2.5以降**、`inputs/`フォルダにサブフォルダを2個以上作ってそこへ音声ファイルをスタイルに応じて振り分けて置くと、学習の際にサブディレクトリに応じたスタイルが自動的に作成されます。デフォルトスタイルのみでよい場合や手動でスタイルを後で作成する場合は`inputs/`直下へ入れれば大丈夫です。" + "**2024-06-02のVer 2.5以降**、`inputs/`フォルダにサブフォルダを2個以上作ってそこへ音声ファイルをスタイルに応じて振り分けて置くと、学習の際にサブディレクトリに応じたスタイルが自動的に作成されます。デフォルトスタイルのみでよい場合や手動でスタイルを後で作成する場合は`inputs/`直下へ入れれば大丈夫です。" ] }, { diff --git a/docs/CHANGELOG.md b/docs/CHANGELOG.md index 939ea0132..6ccf5032f 100644 --- a/docs/CHANGELOG.md +++ b/docs/CHANGELOG.md @@ -1,6 +1,6 @@ # Changelog -## v2.5.0 (2024-06-01) +## v2.5.0 (2024-06-02) このバージョンから[利用規約](/docs/TERMS_OF_USE.md)が追加されました。ご利用の際は必ずお読みください。 diff --git a/requirements-colab.txt b/requirements-colab.txt index 93c086c84..160c9e59f 100644 --- a/requirements-colab.txt +++ b/requirements-colab.txt @@ -6,6 +6,7 @@ jieba librosa==0.9.2 loguru num2words +onnxruntime pyannote.audio>=3.1.0 pyloudnorm pyopenjtalk-dict From 496894e4dcc1c78627f6e632a86528a5880a060d Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 15:25:39 +0900 Subject: [PATCH 39/50] Use pip to install uv instead of shell and PATH --- colab.ipynb | 7 +------ 1 file changed, 1 insertion(+), 6 deletions(-) diff --git a/colab.ipynb b/colab.ipynb index 6322f0e8b..617321e86 100644 --- a/colab.ipynb +++ b/colab.ipynb @@ -45,17 +45,12 @@ }, "outputs": [], "source": [ - "import os\n", - "\n", - "\n", - "os.environ[\"PATH\"] += \":/root/.cargo/bin\"\n", - "\n", - "!curl -LsSf https://astral.sh/uv/install.sh | sh\n", "!git clone https://github.com/litagin02/Style-Bert-VITS2.git\n", "%cd Style-Bert-VITS2/\n", "# 後で消す!!!\n", "!git checkout dev\n", "# 後で消す!!!\n", + "!pip install uv\n", "!uv pip install --system -r requirements-colab.txt\n", "!python initialize.py --skip_default_models" ] From 385181465f7e286a6a0e3e40d60d798b3e696330 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 15:41:04 +0900 Subject: [PATCH 40/50] Try to fix pyopenjtalk worker connection error in colab --- colab.ipynb | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/colab.ipynb b/colab.ipynb index 617321e86..6f08a1ddd 100644 --- a/colab.ipynb +++ b/colab.ipynb @@ -314,6 +314,10 @@ "outputs": [], "source": [ "from gradio_tabs.train import preprocess_all\n", + "from style_bert_vits2.nlp.japanese import pyopenjtalk_worker\n", + "\n", + "\n", + "pyopenjtalk_worker.initialize_worker()\n", "\n", "preprocess_all(\n", " model_name=model_name,\n", From 376ca08db819fc477f4789dde752faac48e4d5cc Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 15:51:27 +0900 Subject: [PATCH 41/50] Fix only-Neutral-style saving logic --- default_style.py | 34 ++++++++++++++-------------------- 1 file changed, 14 insertions(+), 20 deletions(-) diff --git a/default_style.py b/default_style.py index 7a2076a64..b17b6c03b 100644 --- a/default_style.py +++ b/default_style.py @@ -8,20 +8,14 @@ from style_bert_vits2.logging import logger -def set_style_config(json_path: Path, output_path: Path): - with open(json_path, encoding="utf-8") as f: - json_dict = json.load(f) - json_dict["data"]["num_styles"] = 1 - json_dict["data"]["style2id"] = {DEFAULT_STYLE: 0} - with open(output_path, "w", encoding="utf-8") as f: - json.dump(json_dict, f, indent=2, ensure_ascii=False) - logger.info(f"Saving style config (only {DEFAULT_STYLE}) to {output_path}...") - - -def save_neutral_vector(wav_dir: Union[Path, str], output_path: Union[Path, str]): +def save_neutral_vector( + wav_dir: Union[Path, str], + output_dir: Union[Path, str], + config_path: Union[Path, str], + config_output_path: Union[Path, str], +): wav_dir = Path(wav_dir) - output_path = Path(output_path) - json_path = output_path / "config.json" + output_dir = Path(output_dir) embs = [] for file in wav_dir.rglob("*.npy"): xvec = np.load(file) @@ -30,16 +24,16 @@ def save_neutral_vector(wav_dir: Union[Path, str], output_path: Union[Path, str] x = np.concatenate(embs, axis=0) # (N, 256) mean = np.mean(x, axis=0) # (256,) only_mean = np.stack([mean]) # (1, 256) - np.save(output_path, only_mean) - logger.info(f"Saved mean style vector to {output_path}") + np.save(output_dir / "style_vectors.npy", only_mean) + logger.info(f"Saved mean style vector to {output_dir}") - with open(json_path, encoding="utf-8") as f: + with open(config_path, encoding="utf-8") as f: json_dict = json.load(f) json_dict["data"]["num_styles"] = 1 json_dict["data"]["style2id"] = {DEFAULT_STYLE: 0} - with open(json_path, "w", encoding="utf-8") as f: + with open(config_output_path, "w", encoding="utf-8") as f: json.dump(json_dict, f, indent=2, ensure_ascii=False) - logger.info(f"Saved style config to {json_path}") + logger.info(f"Saved style config to {config_output_path}") def save_styles_by_dirs( @@ -61,8 +55,8 @@ def save_styles_by_dirs( f"At least 2 subdirectories are required for generating style vectors with respect to them, found {len(subdirs)}." ) logger.info("Generating only neutral style vector instead.") - set_style_config(config_path, config_output_path) - save_neutral_vector(wav_dir, output_dir) + save_neutral_vector(wav_dir, output_dir, config_path, config_output_path) + return # First get mean of all for Neutral embs = [] From d3c01ce195a7be6f0cf04386b9ae807ac23edc41 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 16:15:57 +0900 Subject: [PATCH 42/50] Set quiet for uv until uv fixes jupyter progressbar bug --- colab.ipynb | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/colab.ipynb b/colab.ipynb index 6f08a1ddd..0d1f4c6fa 100644 --- a/colab.ipynb +++ b/colab.ipynb @@ -51,7 +51,7 @@ "!git checkout dev\n", "# 後で消す!!!\n", "!pip install uv\n", - "!uv pip install --system -r requirements-colab.txt\n", + "!uv pip install --system -q -r requirements-colab.txt\n", "!python initialize.py --skip_default_models" ] }, From 2652d5011ea7896f0407ba81c80a85cc0b3ae3e6 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 16:38:57 +0900 Subject: [PATCH 43/50] HF whisper to default, docs in webui --- gradio_tabs/dataset.py | 15 ++++++--------- gradio_tabs/train.py | 2 +- 2 files changed, 7 insertions(+), 10 deletions(-) diff --git a/gradio_tabs/dataset.py b/gradio_tabs/dataset.py index 03fad89f2..a905cafb5 100644 --- a/gradio_tabs/dataset.py +++ b/gradio_tabs/dataset.py @@ -43,7 +43,6 @@ def do_transcribe( compute_type, language, initial_prompt, - device, use_hf_whisper, batch_size, num_beams, @@ -60,8 +59,6 @@ def do_transcribe( whisper_model, "--compute_type", compute_type, - "--device", - device, "--language", language, "--initial_prompt", @@ -113,6 +110,9 @@ def do_transcribe( def create_dataset_app() -> gr.Blocks: with gr.Blocks() as app: + gr.Markdown( + "**既に1ファイル2-12秒程度の音声ファイル集とその書き起こしデータがある場合は、このタブは使用せずに学習できます。**" + ) with gr.Accordion("使い方", open=False): gr.Markdown(how_to_md) model_name = gr.Textbox( @@ -173,12 +173,12 @@ def create_dataset_app() -> gr.Blocks: ) use_hf_whisper = gr.Checkbox( label="HuggingFaceのWhisperを使う(速度が速いがVRAMを多く使う)", + value=True, ) hf_repo_id = gr.Dropdown( ["openai/whisper", "kotoba-tech/kotoba-whisper-v1.1"], label="HuggingFaceのWhisperモデル", value="openai/whisper", - visible=False, ) compute_type = gr.Dropdown( [ @@ -193,6 +193,7 @@ def create_dataset_app() -> gr.Blocks: ], label="計算精度", value="bfloat16", + visible=False, ) batch_size = gr.Slider( minimum=1, @@ -201,9 +202,7 @@ def create_dataset_app() -> gr.Blocks: step=1, label="バッチサイズ", info="大きくすると速度が速くなるがVRAMを多く使う", - visible=False, ) - device = gr.Radio(["cuda", "cpu"], label="デバイス", value="cuda") language = gr.Dropdown(["ja", "en", "zh"], value="ja", label="言語") initial_prompt = gr.Textbox( label="初期プロンプト", @@ -240,7 +239,6 @@ def create_dataset_app() -> gr.Blocks: compute_type, language, initial_prompt, - device, use_hf_whisper, batch_size, num_beams, @@ -253,10 +251,9 @@ def create_dataset_app() -> gr.Blocks: gr.update(visible=x), gr.update(visible=x), gr.update(visible=not x), - gr.update(visible=not x), ), inputs=[use_hf_whisper], - outputs=[hf_repo_id, batch_size, compute_type, device], + outputs=[hf_repo_id, batch_size, compute_type], ) return app diff --git a/gradio_tabs/train.py b/gradio_tabs/train.py index bf5c2de57..9285637f1 100644 --- a/gradio_tabs/train.py +++ b/gradio_tabs/train.py @@ -411,7 +411,7 @@ def run_tensorboard(model_name: str): - `raw/`フォルダの中で音声をサブディレクトリに分けて配置することで、自動的にスタイルが作成されるようになりました。詳細は下の「使い方/データの前準備」を参照してください。 - これまでは1ファイルあたり14秒程度を超えた音声ファイルは学習には用いられていませんでしたが、Ver 2.5以降では「カスタムバッチサンプラーを使わない」にチェックを入れることでその制限が無しに学習できるようになりました(デフォルトはオフ)。ただし: - 音声ファイルが長い場合の学習効率は悪いかもしれず、挙動も確認していません - - この変更で要求VRAMがかなり増えるので、学習に失敗したりVRAM不足になる場合は、バッチサイズを小さくするか、チェックを外してください + - チェックを入れると要求VRAMがかなり増えるようので、学習に失敗したりVRAM不足になる場合は、バッチサイズを小さくするか、チェックを外してください """ how_to_md = """ From ea532716d117dcff7deb29214f8cbb4ff210ea4f Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 19:24:43 +0900 Subject: [PATCH 44/50] Change default yomi_error to skip --- gradio_tabs/train.py | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/gradio_tabs/train.py b/gradio_tabs/train.py index 9285637f1..ebee2a6fa 100644 --- a/gradio_tabs/train.py +++ b/gradio_tabs/train.py @@ -537,7 +537,7 @@ def create_train_app(): ("読めないファイルは使わず続行", "skip"), ("読めないファイルも無理やり読んで学習に使う", "use"), ], - value="raise", + value="skip", ) with gr.Accordion("詳細設定", open=False): num_processes = gr.Slider( From a271b8a41c35350295a0972909ba87816ad95384 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 19:37:50 +0900 Subject: [PATCH 45/50] Support limit=-1 for no limit in API, and update FAQ --- docs/FAQ.md | 22 +++++++++++++++++++++- server_fastapi.py | 9 ++++++--- 2 files changed, 27 insertions(+), 4 deletions(-) diff --git a/docs/FAQ.md b/docs/FAQ.md index d2ab1d107..024184be0 100644 --- a/docs/FAQ.md +++ b/docs/FAQ.md @@ -1,9 +1,28 @@ # よくある質問 +## 学習に時間がかかりすぎる + +デフォルトの100エポックは音声データ量によっては過剰な場合があります。デフォルトでは1000ステップごとにモデルが保存されるはずなので、途中で学習を中断してみて途中のもので試してみてもいいでしょう。 + +またバッチサイズが多き過ぎてメモリがVRAMから溢れると非常に遅くなることがあります。VRAM使用量がギリギリだったり物理メモリに溢れている場合はバッチサイズを小さくしてみてください。 + +## どのくらいの音声データが必要なの? + +分かりません。試行錯誤してください。 + +参考として、数分程度でも学習はできるらしく、またRVCでよく言われているのは多くても45分くらいで十分説があります。ただ多ければ多いほど精度が上がる可能性もありますが、分かりません。 + +## どのくらいのステップ・エポックがいいの? + +分かりません。試行錯誤してください。 + +参考として、最初の2k-3kで声音はかなり似始めて、5k-10k-15kステップほどで感情含めてよい感じになりやすく、そこからどんどん回して20kなり30kなり50kなり100kなりでどんどん微妙に変わっていきます。が微妙に変わるので、どこがいいとかは分かりません。 + ## APIサーバーで長い文章が合成できない デフォルトで`server_fastapi.py`の入力文字上限は100文字に設定されています。 `config.yml`の`server.limit`の100を好きな数字に変更してください。 +上限をなくしたい方は`server.limit`を-1に設定してください。 ## 学習を中断・再開するには @@ -16,4 +35,5 @@ ## その他 -調べたりChatGPTに聞くか、それでも分からない場合・またはエラーが出る等明らかに不具合やバグと思われる挙動を見つけた場合は、GitHubの[Issue](https://github.com/litagin02/Style-Bert-VITS2/issues)に投稿してください。 +ググったり調べたりChatGPTに聞くか、それでも分からない場合・または手順通りやってもエラーが出る等明らかに不具合やバグと思われる場合は、GitHubの[Issue](https://github.com/litagin02/Style-Bert-VITS2/issues)に投稿してください。 + diff --git a/server_fastapi.py b/server_fastapi.py index efc880e24..98ec79858 100644 --- a/server_fastapi.py +++ b/server_fastapi.py @@ -114,9 +114,12 @@ def load_models(model_holder: TTSModelHolder): load_models(model_holder) limit = config.server_config.limit - logger.info( - f"The maximum length of the text is {limit}. If you want to change it, modify config.yml" - ) + if limit < 1: + limit = None + else: + logger.info( + f"The maximum length of the text is {limit}. If you want to change it, modify config.yml. Set limit to -1 to remove the limit." + ) app = FastAPI() allow_origins = config.server_config.origins if allow_origins: From 31b709eef6227fc30455802b97a91609ad9892f4 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 20:08:31 +0900 Subject: [PATCH 46/50] Update --- README.md | 27 +++++----- colab.ipynb | 6 ++- docs/CLI.md | 10 ++-- docs/README_en.md | 127 ---------------------------------------------- library.ipynb | 3 +- 5 files changed, 26 insertions(+), 147 deletions(-) delete mode 100644 docs/README_en.md diff --git a/README.md b/README.md index c70efe4b1..b326a581c 100644 --- a/README.md +++ b/README.md @@ -9,14 +9,13 @@ https://github.com/litagin02/Style-Bert-VITS2/assets/139731664/e853f9a2-db4a-420 You can install via `pip install style-bert-vits2` (inference only), see [library.ipynb](/library.ipynb) for example usage. - **解説チュートリアル動画** [YouTube](https://youtu.be/aTUSzgDl1iY) [ニコニコ動画](https://www.nicovideo.jp/watch/sm43391524) -- [English README](docs/README_en.md) - [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/litagin02/Style-Bert-VITS2/blob/master/colab.ipynb) +- [FAQ](/docs/FAQ.md) - [🤗 オンラインデモはこちらから](https://huggingface.co/spaces/litagin/Style-Bert-VITS2-Editor-Demo) - [Zennの解説記事](https://zenn.dev/litagin/articles/034819a5256ff4) - [**リリースページ**](https://github.com/litagin02/Style-Bert-VITS2/releases/)、[更新履歴](/docs/CHANGELOG.md) - - - 2024-05-26: Ver 2.5.0 (**[利用規約](/docs/TERMS_OF_USE.md)の追加**、フォルダ分けからのスタイル生成、小春音アミ・あみたろモデルの追加) + - 2024-06-01: Ver 2.5.0 (**[利用規約](/docs/TERMS_OF_USE.md)の追加**、フォルダ分けからのスタイル生成、小春音アミ・あみたろモデルの追加、インストールの高速化等) - 2024-03-16: ver 2.4.1 (**batファイルによるインストール方法の変更**) - 2024-03-15: ver 2.4.0 (大規模リファクタリングや種々の改良、ライブラリ化) - 2024-02-26: ver 2.3 (辞書機能とエディター機能) @@ -35,13 +34,15 @@ This repository is based on [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2 - 入力されたテキストの内容をもとに感情豊かな音声を生成する[Bert-VITS2](https://github.com/fishaudio/Bert-VITS2)のv2.1とJapanese-Extraを元に、感情や発話スタイルを強弱込みで自由に制御できるようにしたものです。 - GitやPythonがない人でも(Windowsユーザーなら)簡単にインストールでき、学習もできます (多くを[EasyBertVits2](https://github.com/Zuntan03/EasyBertVits2/)からお借りしました)。またGoogle Colabでの学習もサポートしています: [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/litagin02/Style-Bert-VITS2/blob/master/colab.ipynb) - 音声合成のみに使う場合は、グラボがなくてもCPUで動作します。 +- 音声合成のみに使う場合、Pythonライブラリとして`pip install style-bert-vits2`でインストールできます。例は[library.ipynb](/library.ipynb)を参照してください。 - 他との連携に使えるAPIサーバーも同梱しています ([@darai0512](https://github.com/darai0512) 様によるPRです、ありがとうございます)。 - 元々「楽しそうな文章は楽しそうに、悲しそうな文章は悲しそうに」読むのがBert-VITS2の強みですので、スタイル指定がデフォルトでも感情豊かな音声を生成することができます。 ## 使い方 -CLIでの使い方は[こちら](/docs/CLI.md)を参照してください。 +- CLIでの使い方は[こちら](/docs/CLI.md)を参照してください。 +- [よくある質問](/docs/FAQ.md)も参照してください。 ### 動作環境 @@ -55,7 +56,7 @@ Pythonライブラリとしてのpipでのインストールや使用例は[libr Windowsを前提としています。 -1. [このzipファイル](https://github.com/litagin02/Style-Bert-VITS2/releases/download/2.4.1/sbv2.zip)を**パスに日本語や空白が含まれない場所に**ダウンロードして展開します。 +1. [このzipファイル](https://github.com/litagin02/Style-Bert-VITS2/releases/download/2.5.0/sbv2.zip)を**パスに日本語や空白が含まれない場所に**ダウンロードして展開します。 - グラボがある方は、`Install-Style-Bert-VITS2.bat`をダブルクリックします。 - グラボがない方は、`Install-Style-Bert-VITS2-CPU.bat`をダブルクリックします。CPU版では学習はできませんが、音声合成とマージは可能です。 2. 待つと自動で必要な環境がインストールされます。 @@ -67,13 +68,17 @@ Windowsを前提としています。 #### GitやPython使える人 +Pythonの仮想環境・パッケージ管理ツールである[uv](https://github.com/astral-sh/uv)がpipより高速なので、それを使ってインストールすることをお勧めします。 +(使いたくない場合は通常のpipでも大丈夫です。) + ```bash +powershell -c "irm https://astral.sh/uv/install.ps1 | iex" git clone https://github.com/litagin02/Style-Bert-VITS2.git cd Style-Bert-VITS2 -python -m venv venv +uv venv venv +uv pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118 +uv pip install -r requirements.txt venv\Scripts\activate -pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -pip install -r requirements.txt python initialize.py # 必要なモデルとデフォルトTTSモデルをダウンロード ``` 最後を忘れずに。 @@ -119,10 +124,6 @@ model_assets - `App.bat`をダブルクリックか`python app.py`したところの「データセット作成」タブから、音声ファイルを適切な長さにスライスし、その後に文字の書き起こしを自動で行えます。 - 指示に従った後、下の「学習」タブでそのまま学習を行うことができます。 -注意: データセットの手動修正やノイズ除去等、細かい修正を行いたい場合は[Aivis](https://github.com/tsukumijima/Aivis)や、そのデータセット部分のWindows対応版 [Aivis Dataset](https://github.com/litagin02/Aivis-Dataset) を使うといいかもしれません。ですがファイル数が多い場合などは、このツールで簡易的に切り出してデータセットを作るだけでも十分という気もしています。 - -データセットがどのようなものがいいかは各自試行錯誤中してください。 - #### 学習WebUI - `App.bat`をダブルクリックか`python app.py`して開くWebUIの「学習」タブから指示に従ってください。 @@ -130,7 +131,7 @@ model_assets ### スタイルの生成 - デフォルトでは、デフォルトスタイル「Neutral」の他、学習フォルダのフォルダ分けに応じたスタイルが生成されます。 -- それ以外の方法でスタイルを生成したい人向けです。 +- それ以外の方法で手動でスタイルを作成したい人向けです。 - `App.bat`をダブルクリックか`python app.py`して開くWebUIの「スタイル作成」タブから、音声ファイルを使ってスタイルを生成できます。 - 学習とは独立しているので、学習中でもできるし、学習が終わっても何度もやりなおせます(前処理は終わらせている必要があります)。 diff --git a/colab.ipynb b/colab.ipynb index 0d1f4c6fa..e0ce3aea7 100644 --- a/colab.ipynb +++ b/colab.ipynb @@ -45,12 +45,16 @@ }, "outputs": [], "source": [ + "import os\n", + "\n", + "os.environ[\"PATH\"] += \":/root/.cargo/bin\"\n", + "\n", + "!curl -LsSf https://astral.sh/uv/install.sh | sh\n", "!git clone https://github.com/litagin02/Style-Bert-VITS2.git\n", "%cd Style-Bert-VITS2/\n", "# 後で消す!!!\n", "!git checkout dev\n", "# 後で消す!!!\n", - "!pip install uv\n", "!uv pip install --system -q -r requirements-colab.txt\n", "!python initialize.py --skip_default_models" ] diff --git a/docs/CLI.md b/docs/CLI.md index 97d296aa0..726c42d16 100644 --- a/docs/CLI.md +++ b/docs/CLI.md @@ -7,17 +7,17 @@ git clone https://github.com/litagin02/Style-Bert-VITS2.git cd Style-Bert-VITS2 python -m venv venv venv\Scripts\activate -pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 +pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt ``` Then download the necessary models and the default TTS model, and set the global paths. ```bash -python initialize.py [--skip_jvnv] [--dataset_root ] [--assets_root ] +python initialize.py [--skip_default_models] [--dataset_root ] [--assets_root ] ``` Optional: -- `--skip_jvnv`: Skip downloading the default JVNV voice models (use this if you only have to train your own models). +- `--skip_default_models`: Skip downloading the default voice models (use this if you only have to train your own models). - `--dataset_root`: Default: `Data`. Root directory of the training dataset. The training dataset of `{model_name}` should be placed in `{dataset_root}/{model_name}`. - `--assets_root`: Default: `model_assets`. Root directory of the model assets (for inference). In training, the model assets will be saved to `{assets_root}/{model_name}`, and in inference, we load all the models from `{assets_root}`. @@ -26,7 +26,7 @@ Optional: ### 1.1. Slice audio files -The following audio formats are supported: ".wav", ".flac", ".mp3", ".ogg", ".opus". +The following audio formats are supported: ".wav", ".flac", ".mp3", ".ogg", ".opus", ".m4a". ```bash python slice.py --model_name [-i ] [-m ] [-M ] [--time_suffix] ``` @@ -101,4 +101,4 @@ python train_ms_jp_extra.py [--repo_id /] [--skip_default_s Optional: - `--repo_id`: Hugging Face repository ID to upload the trained model to. You should have logged in using `huggingface-cli login` before running this command. -- `--skip_default_style`: Skip making the default style vector. Use this if you want to resume training (since the default style vector is already made). +- `--skip_default_style`: Skip making the default style vector. Use this if you want to resume training (since the default style vector has been already made). diff --git a/docs/README_en.md b/docs/README_en.md deleted file mode 100644 index 0b4104764..000000000 --- a/docs/README_en.md +++ /dev/null @@ -1,127 +0,0 @@ -# This English README is for 1.x versions. WIP for 2.x versions. - -# Style-Bert-VITS2 - -Bert-VITS2 with more controllable voice styles. - -https://github.com/litagin02/Style-Bert-VITS2/assets/139731664/b907c1b8-43aa-46e6-b03f-f6362f5a5a1e - -[Zenn Commentary Article (translated)](Style-Bert-VITS2_en.md) ([original](https://zenn.dev/litagin/articles/034819a5256ff4)) - -[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/litagin02/Style-Bert-VITS2/blob/master/colab.ipynb) - -Online demo: https://huggingface.co/spaces/litagin/Style-Bert-VITS2-JVNV - -This repository is based on [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2) v2.1, so many thanks to the original author! - -- [Update History](docs/CHANGELOG.md) - -**Overview** - -- Based on Bert-VITS2 v2.1, which generates emotionally rich voices from entered text, this version allows free control of emotions and speaking styles, including intensity. -- Easy to install and train for people without Git or Python (for Windows users), much is borrowed from [EasyBertVits2](https://github.com/Zuntan03/EasyBertVits2/). Training on Google Colab is also supported: [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/litagin02/Style-Bert-VITS2/blob/master/colab.ipynb) -- If used only for voice synthesis, it can operate on CPU without a graphics card. -- Also includes an API server for integration with others (PR by [@darai0512](https://github.com/darai0512), thank you). -- Originally, Bert-VITS2's strength was to read "happy text happily, sad text sadly", so even without using the added style specification in this fork, you can generate emotionally rich voices. - - -## How to Use - - - -### Operating Environment - -We have confirmed the operation in Windows Command Prompt, WSL2, and Linux (Ubuntu Desktop) for each UI and API Server (please be creative with path specifications in WSL). - -### Installation - -#### For Those Unfamiliar with Git or Python - -Assuming Windows: - -1. Download and unzip [this zip file](https://github.com/litagin02/Style-Bert-VITS2/releases/download/1.3/Style-Bert-VITS2.zip). - - If you have a graphics card, double-click `Install-Style-Bert-VITS2.bat`. - - If you don't have a graphics card, double-click `Install-Style-Bert-VITS2-CPU.bat`. -2. Wait for the necessary environment to install automatically. -3. After that, if the WebUI for voice synthesis launches automatically, the installation is successful. The default model will be downloaded, so you can play with it immediately. - -For updates, please double-click `Update-Style-Bert-VITS2.bat`. - -#### For Those Familiar with Git and Python - -```bash -git clone https://github.com/litagin02/Style-Bert-VITS2.git -cd Style-Bert-VITS2 -python -m venv venv -venv\Scripts\activate -pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -pip install -r requirements.txt -python initialize.py # Download necessary models and default TTS model -``` -Don't forget the last step. - -### Voice Synthesis -Double-click `App.bat` or run `python app.py` to launch the WebUI. The default model is downloaded during installation, so you can use it even if you haven't trained it. - -The structure of the model files required for voice synthesis is as follows (you don't need to place them manually): - -``` -model_assets -├── your_model -│ ├── config.json -│ ├── your_model_file1.safetensors -│ ├── your_model_file2.safetensors -│ ├── ... -│ └── style_vectors.npy -└── another_model - ├── ... -``` - -For inference, `config.json`, `*.safetensors`, and `style_vectors.npy` are necessary. If you want to share a model, please share these three files. - -Among them, `style_vectors.npy` is a file necessary to control the style. By default, the average style "Neutral" is generated during training. -If you want to use multiple styles for more detailed control, please refer to "Generating Styles" below (even with only the average style, if the training data is emotionally rich, sufficiently emotionally rich voices can be generated). - -### Training - -Double-click Train.bat or run `python webui_train.py` to launch the WebUI. - -### Generating Styles -For those who want to use styles other than the default "Neutral". - -- Double-click `Style.bat` or run `python webui_style_vectors.py` to launch the WebUI. -- It is independent of training, so you can do it even during training, and you can redo it any number of times after training is complete (preprocessing must be finished). -- For more details on the specifications of the style, please refer to [clustering.ipynb](../clustering.ipynb). - -### Dataset Creation - -- Double-click `Dataset.bat` or run `python webui_dataset.py` to launch the WebUI for creating datasets from audio files. You can use this tool to learn from audio files only. - -Note: If you want to manually correct the dataset, remove noise, etc., you may find [Aivis](https://github.com/tsukumijima/Aivis) or its Windows-compatible dataset part [Aivis Dataset](https://github.com/litagin02/Aivis-Dataset) useful. However, if there are many files, etc., it may be sufficient to simply cut out and create a dataset with this tool. - -Please experiment to see what kind of dataset is best. - -### API Server -Run `python server_fastapi.py` in the constructed environment to launch the API server. -Please check the API specification after launching at `/docs`. - -By default, CORS settings are allowed for all domains. -As much as possible, change the value of server.origins in `config.yml` and limit it to trusted domains (if you delete the key, you can disable the CORS settings). - -### Merging -You can create a new model by mixing two models in terms of "voice", "emotional expression", and "tempo". -Double-click `Merge.bat` or run `python webui_merge.py` to launch the WebUI. - -## Relation to Bert-VITS2 v2.1 -Basically, it's just a slight modification of the Bert-VITS2 v2.1 model structure. The [pre-trained model](https://huggingface.co/litagin/Style-Bert-VITS2-1.0-base) is also essentially the same as Bert-VITS2 v2.1 (unnecessary weights have been removed and converted to safetensors). - -The differences are as follows: - -- Like [EasyBertVits2](https://github.com/Zuntan03/EasyBertVits2), it is easy to use even for people who do not know Python or Git. -- Changed the model for emotional embedding (from 1024-dimensional [wav2vec2-large-robust-12-ft-emotion-msp-dim](https://huggingface.co/audeering/wav2vec2-large-robust-12-ft-emotion-msp-dim) to 256-dimensional [wespeaker-voxceleb-resnet34-LM](https://huggingface.co/pyannote/wespeaker-voxceleb-resnet34-LM), which is more for speaker identification than emotional embedding) -- Removed vector quantization from embeddings and replaced it with just a fully connected layer. -- By creating a style vector file `style_vectors.npy`, you can generate voices using that style and continuously specify the strength of the effect. -- Various WebUIs created -- Support for bf16 training -- Support for safetensors format, defaulting to using safetensors -- Other minor bug fixes and refactoring \ No newline at end of file diff --git a/library.ipynb b/library.ipynb index abc0afc75..8f158eaa7 100644 --- a/library.ipynb +++ b/library.ipynb @@ -126,7 +126,8 @@ "name": "python3" }, "language_info": { - "name": "python" + "name": "python", + "version": "3.10.11" } }, "nbformat": 4, From f10dade139c8caaf24528a6f6bb652d4ee811f10 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 21:22:59 +0900 Subject: [PATCH 47/50] Add uv pip install pip --- .dockerignore | 3 ++- Dockerfile.deploy | 2 +- scripts/Install-Style-Bert-VITS2-CPU.bat | 7 +++++++ scripts/Install-Style-Bert-VITS2.bat | 7 +++++++ server_editor.py | 5 ++++- 5 files changed, 21 insertions(+), 3 deletions(-) diff --git a/.dockerignore b/.dockerignore index da10b929b..bf1b3a037 100644 --- a/.dockerignore +++ b/.dockerignore @@ -6,12 +6,13 @@ !/style_bert_vits2/ !/bert/deberta-v2-large-japanese-char-wwm/ -!/common/ !/configs/ !/dict_data/default.csv !/model_assets/ +!/static/ !/config.py !/default_config.yml +!/initialize.py !/requirements.txt !/server_editor.py diff --git a/Dockerfile.deploy b/Dockerfile.deploy index dd351d107..48c22d0b8 100644 --- a/Dockerfile.deploy +++ b/Dockerfile.deploy @@ -20,4 +20,4 @@ COPY --chown=user . $HOME/app RUN pip install --no-cache-dir -r $HOME/app/requirements.txt # 必要に応じて制限を変更してください -CMD ["python", "server_editor.py", "--line_length", "50", "--line_count", "3"] +CMD ["python", "server_editor.py", "--line_length", "50", "--line_count", "3", "--skip_static_files"] diff --git a/scripts/Install-Style-Bert-VITS2-CPU.bat b/scripts/Install-Style-Bert-VITS2-CPU.bat index e9d7419d2..9cdb5ef47 100644 --- a/scripts/Install-Style-Bert-VITS2-CPU.bat +++ b/scripts/Install-Style-Bert-VITS2-CPU.bat @@ -107,6 +107,13 @@ echo Executing: pip install uv pip install uv if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) +echo -------------------------------------------------- +echo Installing pip for compatibility... +echo -------------------------------------------------- +echo Executing: uv pip install pip +uv pip install pip +if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) + echo -------------------------------------------------- echo Installing dependencies... echo -------------------------------------------------- diff --git a/scripts/Install-Style-Bert-VITS2.bat b/scripts/Install-Style-Bert-VITS2.bat index 62eb2b2c6..6538988f7 100644 --- a/scripts/Install-Style-Bert-VITS2.bat +++ b/scripts/Install-Style-Bert-VITS2.bat @@ -107,6 +107,13 @@ echo Executing: pip install uv pip install uv if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) +echo -------------------------------------------------- +echo Installing pip for compatibility... +echo -------------------------------------------------- +echo Executing: uv pip install pip +uv pip install pip +if !errorlevel! neq 0 ( pause & popd & exit /b !errorlevel! ) + echo -------------------------------------------------- echo Installing PyTorch... echo -------------------------------------------------- diff --git a/server_editor.py b/server_editor.py index 2a5dabc40..8caea47e5 100644 --- a/server_editor.py +++ b/server_editor.py @@ -184,6 +184,7 @@ class AudioResponse(Response): parser.add_argument("--line_length", type=int, default=None) parser.add_argument("--line_count", type=int, default=None) parser.add_argument("--skip_default_models", action="store_true") +parser.add_argument("--skip_static_files", action="store_true") args = parser.parse_args() device = args.device if device == "cuda" and not torch.cuda.is_available(): @@ -192,6 +193,7 @@ class AudioResponse(Response): port = int(args.port) if not args.skip_default_models: download_default_models() +skip_static_files = bool(args.skip_static_files) model_holder = TTSModelHolder(model_dir, device) if len(model_holder.model_names) == 0: @@ -440,7 +442,8 @@ def delete_user_dict_word(uuid: str): app.include_router(router, prefix="/api") if __name__ == "__main__": - download_static_files("litagin02", "Style-Bert-VITS2-Editor", "out.zip") + if not skip_static_files: + download_static_files("litagin02", "Style-Bert-VITS2-Editor", "out.zip") app.mount("/", StaticFiles(directory=STATIC_DIR, html=True), name="static") if args.inbrowser: webbrowser.open(f"http://localhost:{port}") From d31cd0da3862378994f3b2032ad26d2b2cdb0edc Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 21:36:45 +0900 Subject: [PATCH 48/50] Remove installing pip in Setup-Python --- scripts/Setup-Python.bat | 14 +++++++------- 1 file changed, 7 insertions(+), 7 deletions(-) diff --git a/scripts/Setup-Python.bat b/scripts/Setup-Python.bat index 3a770d68a..c5c99e7bc 100644 --- a/scripts/Setup-Python.bat +++ b/scripts/Setup-Python.bat @@ -78,21 +78,21 @@ if not exist "%PYTHON_DIR%"\ ( echo Executing: "%PYTHON_CMD%" "%PYTHON_DIR%\get-pip.py" --no-warn-script-location "%PYTHON_CMD%" "%PYTHON_DIR%\get-pip.py" --no-warn-script-location if !errorlevel! neq 0 ( pause & exit /b !errorlevel! ) -) -if not exist %VENV_DIR%\ ( echo -------------------------------------------------- - echo Installing uv... + echo Installing virtualenv... echo -------------------------------------------------- - echo Executing: "%PYTHON_CMD%" -m pip install uv - "%PYTHON_CMD%" -m pip install uv + echo Executing: "%PYTHON_CMD%" -m pip install virtualenv --no-warn-script-location + "%PYTHON_CMD%" -m pip install virtualenv --no-warn-script-location if !errorlevel! neq 0 ( pause & exit /b !errorlevel! ) +) +if not exist %VENV_DIR%\ ( echo -------------------------------------------------- echo Creating virtual environment... echo -------------------------------------------------- - echo Executing: "%PYTHON_CMD%" -m uv venv "%VENV_DIR%" - "%PYTHON_CMD%" -m uv venv "%VENV_DIR%" + echo Executing: "%PYTHON_CMD%" -m virtualenv --copies "%VENV_DIR%" + "%PYTHON_CMD%" -m virtualenv --copies "%VENV_DIR%" if !errorlevel! neq 0 ( pause & exit /b !errorlevel! ) ) From bbd89794c68e2ffb351d2ba98c33ca5342aef852 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sat, 1 Jun 2024 23:54:58 +0900 Subject: [PATCH 49/50] Add amitaro live model --- docs/TERMS_OF_USE.md | 2 +- initialize.py | 7 ++++++- 2 files changed, 7 insertions(+), 2 deletions(-) diff --git a/docs/TERMS_OF_USE.md b/docs/TERMS_OF_USE.md index d51fa994c..e34144f68 100644 --- a/docs/TERMS_OF_USE.md +++ b/docs/TERMS_OF_USE.md @@ -26,7 +26,7 @@ Style-Bert-VITS2を用いる際は、以下の利用規約を遵守してくだ ## 小春音アミ (koharune-ami) / あみたろ (amitaro) -[あみたろの声素材工房様の規約](https://amitaro.net/voice/voice_rule/) と [あみたろのライブ配信音声・利用規約](https://amitaro.net/voice/livevoice/#index_id6) を全て守らなければなりません。特に、以下の事項を遵守してください(規約を守れば商用非商用問わず利用できます): +[あみたろの声素材工房様の規約](https://amitaro.net/voice/voice_rule/) と [あみたろのライブ配信音声・利用規約](https://amitaro.net/voice/livevoice/#index_id6) を全て守らなければなりません。特に、以下の事項を遵守してください(規約を守れば商用非商用問わず利用できます)。 ### 禁止事項 diff --git a/initialize.py b/initialize.py index cb3cf99a7..267465e38 100644 --- a/initialize.py +++ b/initialize.py @@ -78,7 +78,12 @@ def download_default_models(): "koharune-ami/config.json", "koharune-ami/style_vectors.npy", "koharune-ami/koharune-ami.safetensors", - ] + ], + "litagin/sbv2_amitaro": [ + "amitaro/config.json", + "amitaro/style_vectors.npy", + "amitaro/amitaro.safetensors", + ], } for repo_id, files in additional_files.items(): for file in files: From aa663416b7ec26fb1b71630ef95b3d4f6a0f2789 Mon Sep 17 00:00:00 2001 From: litagin02 Date: Sun, 2 Jun 2024 00:05:24 +0900 Subject: [PATCH 50/50] v2.5.0 --- colab.ipynb | 3 --- docs/CHANGELOG.md | 2 +- scripts/Install-Style-Bert-VITS2-CPU.bat | 2 +- scripts/Install-Style-Bert-VITS2.bat | 2 +- 4 files changed, 3 insertions(+), 6 deletions(-) diff --git a/colab.ipynb b/colab.ipynb index e0ce3aea7..0234e8614 100644 --- a/colab.ipynb +++ b/colab.ipynb @@ -52,9 +52,6 @@ "!curl -LsSf https://astral.sh/uv/install.sh | sh\n", "!git clone https://github.com/litagin02/Style-Bert-VITS2.git\n", "%cd Style-Bert-VITS2/\n", - "# 後で消す!!!\n", - "!git checkout dev\n", - "# 後で消す!!!\n", "!uv pip install --system -q -r requirements-colab.txt\n", "!python initialize.py --skip_default_models" ] diff --git a/docs/CHANGELOG.md b/docs/CHANGELOG.md index 6ccf5032f..3252386b2 100644 --- a/docs/CHANGELOG.md +++ b/docs/CHANGELOG.md @@ -6,7 +6,6 @@ ### 新機能等 -- [よくある質問](/docs/FAQ.md)を追加 - デフォルトモデルに [あみたろの声素材工房](https://amitaro.net/) のあみたろ様が公開しているコーパスとライブ配信音声を利用して学習した**小春音アミ**と**あみたろ**モデルを追加(あみたろ様には事前に連絡して許諾を得ています) - アプデの場合は新たに`App.bat`や`Editor.bat`を起動した際に自動でダウンロードされます - 学習時に音声データをスタイルごとにフォルダ分けしておくことで、そのフォルダごとのスタイルを学習時に自動的に作成するように @@ -14,6 +13,7 @@ - `Data/モデル名/raw`から使う場合も`raw`直下に同様に配置 - サブフォルダの個数が0または1の場合は、今まで通りのNeutralスタイルのみが作成されます - batファイルでのインストールの大幅な高速化(Pythonのライブラリインストールに[uv](https://github.com/astral-sh/uv)を使用) +- [よくある質問](/docs/FAQ.md)を追加 - 英語の音声合成の速度向上([gordon0414](https://github.com/gordon0414)さんによる[PR](https://github.com/litagin02/Style-Bert-VITS2/pull/124)です、ありがとうございます!) - エディターの各種機能改善(多くが[kamexy](https://github.com/kamexy)様による[エディターリポジトリ](https://github.com/litagin02/Style-Bert-VITS2-Editor)へのプルリク群です、ありがとうございます!) - 選択した行の下に新規の行を作成できるように diff --git a/scripts/Install-Style-Bert-VITS2-CPU.bat b/scripts/Install-Style-Bert-VITS2-CPU.bat index 9cdb5ef47..cad168b01 100644 --- a/scripts/Install-Style-Bert-VITS2-CPU.bat +++ b/scripts/Install-Style-Bert-VITS2-CPU.bat @@ -90,7 +90,7 @@ if !errorlevel! neq 0 ( popd & exit /b !errorlevel! ) pushd Style-Bert-VITS2 @REM 後で消す!!!!!!!!!! -git checkout dev +@REM git checkout dev @REM 後で消す!!!!!!!!!! echo -------------------------------------------------- diff --git a/scripts/Install-Style-Bert-VITS2.bat b/scripts/Install-Style-Bert-VITS2.bat index 6538988f7..fb58d655e 100644 --- a/scripts/Install-Style-Bert-VITS2.bat +++ b/scripts/Install-Style-Bert-VITS2.bat @@ -90,7 +90,7 @@ if !errorlevel! neq 0 ( popd & exit /b !errorlevel! ) pushd Style-Bert-VITS2 @REM 後で消す!!!!!!!!!! -git checkout dev +@REM git checkout dev @REM 後で消す!!!!!!!!!! echo --------------------------------------------------