Skip to content

ラベルファイルと音声ファイルの長さが一致しない #785

Open
@Yosshi999

Description

@Yosshi999

不具合の内容

https://twitter.com/ekidenp/status/1514210801459945478

リップシンク用のラベルファイルを書きだしたとき、全体の長さが少しずれる

現象・ログ

上記ツイートから引用:

wav  lab
3.029秒 2.931秒(0.9675倍)
7.114秒 7.027秒(0.9877倍)
9.056秒 8.766秒(0.9679倍)
1.408秒 1.308秒(0.9291倍)

再現手順

「スーパーキラキラカラフルクッキリディスプレイ」を四国めたん(ノーマル)で書き出し

音声ファイル:2.613sec
ラベルファイル末尾:2.6492364 sec

期待動作

長さが一致する

VOICEVOXのバージョン

commit: 15763fc

OSの種類/ディストリ/バージョン

  • Windows
  • macOS
  • Linux

その他

たぶん
https://github.com/VOICEVOX/voicevox_engine/blob/master/voicevox_engine/synthesis_engine/synthesis_engine.py#L448
で音声側の長さがずれている。
長さをroundして256倍しているので、最大で 128frames ずれるため、おそらく1音素当たり 128/24k(Hz) = 5ミリ秒 の誤差が生じる

Activity

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions