Tags: H1DDENADM1N/CapsWriter-Offline
Tags
Fix 无法识别韩文 改用 `sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="utf-8")` 和 `subprocess.Popen(..., encoding="utf-8",) 指定utf-8编码,而不在使用原来的 `.encode("gbk", errors="ignore").decode("gbk", errors="ignore")` 转码gbk并忽略错误。 补充:在处理multiprocessing时指定utf-8编码会报错但不显示报错,所以需要: ``` original_stdout = sys.stdout try: # 为 core_server 指定utf-8编码 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="utf-8") except AttributeError: # 为 mulitprocessing init_recognizer 指定默认编码 sys.stdout = original_stdout ```
Fix SenseVoice转录字幕丢字 原因为SenseVoice生成的逐字json包含标点,而原版转录只去除了txt中的标点,导致时间戳对不上,出现字幕匹配出现出现严重错误,越界导致无法探察。 现在改为不去除标点,生成的字幕会包含标点,我不认为这是坏事。
PreviousNext