Open
Description
不具合の内容
https://twitter.com/ekidenp/status/1514210801459945478
リップシンク用のラベルファイルを書きだしたとき、全体の長さが少しずれる
現象・ログ
上記ツイートから引用:
wav lab
3.029秒 2.931秒(0.9675倍)
7.114秒 7.027秒(0.9877倍)
9.056秒 8.766秒(0.9679倍)
1.408秒 1.308秒(0.9291倍)
再現手順
「スーパーキラキラカラフルクッキリディスプレイ」を四国めたん(ノーマル)で書き出し
音声ファイル:2.613sec
ラベルファイル末尾:2.6492364 sec
期待動作
長さが一致する
VOICEVOXのバージョン
commit: 15763fc
OSの種類/ディストリ/バージョン
- Windows
- macOS
- Linux
その他
たぶん
https://github.com/VOICEVOX/voicevox_engine/blob/master/voicevox_engine/synthesis_engine/synthesis_engine.py#L448
で音声側の長さがずれている。
長さをroundして256倍しているので、最大で 128frames ずれるため、おそらく1音素当たり 128/24k(Hz) = 5ミリ秒 の誤差が生じる
Activity