Skip to content

ラベルファイルと音声ファイルの長さが一致しない #785

Open
@Yosshi999

Description

@Yosshi999

不具合の内容

https://twitter.com/ekidenp/status/1514210801459945478

リップシンク用のラベルファイルを書きだしたとき、全体の長さが少しずれる

現象・ログ

上記ツイートから引用:

wav  lab
3.029秒 2.931秒(0.9675倍)
7.114秒 7.027秒(0.9877倍)
9.056秒 8.766秒(0.9679倍)
1.408秒 1.308秒(0.9291倍)

再現手順

「スーパーキラキラカラフルクッキリディスプレイ」を四国めたん(ノーマル)で書き出し

音声ファイル:2.613sec
ラベルファイル末尾:2.6492364 sec

期待動作

長さが一致する

VOICEVOXのバージョン

commit: 15763fc

OSの種類/ディストリ/バージョン

  • Windows
  • macOS
  • Linux

その他

たぶん
https://github.com/VOICEVOX/voicevox_engine/blob/master/voicevox_engine/synthesis_engine/synthesis_engine.py#L448
で音声側の長さがずれている。
長さをroundして256倍しているので、最大で 128frames ずれるため、おそらく1音素当たり 128/24k(Hz) = 5ミリ秒 の誤差が生じる

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions