GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

中英混合bug 有点多

Open selfboot opened this issue 1 year ago • 11 comments

  1. 英文发音不对

ChatGPT 告诉我,您的理解是正确的。当您使用指针对象时,您应该通过 uniqueptr 实例

分语音看起来没问题,但是 ChatGPT 发音好奇怪:

[]
['挡风玻璃大呢,意味着我们需要更多的关注眼前的道路,和即将到来的事物。']
['zh']
[]
['ChatGPT ', '告诉我,您的理解是正确的。当您使用指针对象时,您应该通过', ' uniqueptr ', '实例。']
['en', 'zh', 'en', 'zh']
  1. 带下划线就直接转失败了。
image
Traceback (most recent call last):
  File "/data/home/daemonzhao/miniconda3/envs/GPTSoVits11/lib/python3.9/site-packages/gradio/routes.py", line 442, in run_predict
    output = await app.get_blocks().process_api(
  File "/data/home/daemonzhao/miniconda3/envs/GPTSoVits11/lib/python3.9/site-packages/gradio/blocks.py", line 1389, in process_api
    result = await self.call_function(
  File "/data/home/daemonzhao/miniconda3/envs/GPTSoVits11/lib/python3.9/site-packages/gradio/blocks.py", line 1108, in call_function
    prediction = await utils.async_iteration(iterator)
  File "/data/home/daemonzhao/miniconda3/envs/GPTSoVits11/lib/python3.9/site-packages/gradio/utils.py", line 346, in async_iteration
    return await iterator.__anext__()
  File "/data/home/daemonzhao/miniconda3/envs/GPTSoVits11/lib/python3.9/site-packages/gradio/utils.py", line 339, in __anext__
    return await anyio.to_thread.run_sync(
  File "/data/home/daemonzhao/miniconda3/envs/GPTSoVits11/lib/python3.9/site-packages/anyio/to_thread.py", line 56, in run_sync
    return await get_async_backend().run_sync_in_worker_thread(
  File "/data/home/daemonzhao/miniconda3/envs/GPTSoVits11/lib/python3.9/site-packages/anyio/_backends/_asyncio.py", line 2134, in run_sync_in_worker_thread
    return await future
  File "/data/home/daemonzhao/miniconda3/envs/GPTSoVits11/lib/python3.9/site-packages/anyio/_backends/_asyncio.py", line 851, in run
    result = context.run(func, *args)
  File "/data/home/daemonzhao/miniconda3/envs/GPTSoVits11/lib/python3.9/site-packages/gradio/utils.py", line 322, in run_sync_iterator_async
    return next(iterator)
  File "/data/home/daemonzhao/miniconda3/envs/GPTSoVits11/lib/python3.9/site-packages/gradio/utils.py", line 691, in gen_wrapper
    yield from f(*args, **kwargs)
  File "/data/home/daemonzhao/GPT-SoVITS/GPT_SoVITS/inference_webui.py", line 334, in get_tts_wav
    bert2 = nonen_get_bert_inf(text, text_language)
  File "/data/home/daemonzhao/GPT-SoVITS/GPT_SoVITS/inference_webui.py", line 259, in nonen_get_bert_inf
    bert = get_bert_inf(phones, word2ph, norm_text, lang)
  File "/data/home/daemonzhao/GPT-SoVITS/GPT_SoVITS/inference_webui.py", line 218, in get_bert_inf
    bert = get_bert_feature(norm_text, word2ph).to(device)
  File "/data/home/daemonzhao/GPT-SoVITS/GPT_SoVITS/inference_webui.py", line 89, in get_bert_feature
    phone_level_feature = torch.cat(phone_level_feature, dim=0)
RuntimeError: torch.cat(): expected a non-empty list of Tensors

selfboot avatar Jan 29 '24 02:01 selfboot

下划线我们研究一下

RVC-Boss avatar Jan 29 '24 02:01 RVC-Boss

英文发音也是很奇怪,有的音根本就不对。英语多一点,发音就更离谱

selfboot avatar Jan 29 '24 03:01 selfboot

像只给单词 ChatGPT ,然后选择用英文合成,发音也是错的。

selfboot avatar Jan 29 '24 03:01 selfboot

英文发音也是很奇怪,有的音根本就不对。英语多一点,发音就更离谱

你提供几个发音有问题的case,我们针对case优化一下?

RVC-Boss avatar Jan 29 '24 03:01 RVC-Boss

好啊,只提供文本就行了的吧?

selfboot avatar Jan 29 '24 03:01 selfboot

英文发音也是很奇怪,有的音根本就不对。英语多一点,发音就更离谱

你提供几个发音有问题的case,我们针对case优化一下?

我遇到的问题是,类似于英文缩略的词都没法读对,比如: CEO told CTO that we should use GPT to serve ABC company to predict MBTI.

包含CEO、CTO、GPT、ABC、MBTI这些专有名词,英文都尝试直接按照单词读法读。中英混的情况下,很多都是读这种缩略词。

andylin12 avatar Jan 29 '24 04:01 andylin12

上面那位朋友的示例: ChatGPT 告诉我,您的理解是正确的。当您使用指针对象时,您应该通过 uniqueptr 实例

chatGPT读了chat部分,GPT部分和缩略词一样的问题。uniqueptr读了unique的部分,ptr读不出来。

andylin12 avatar Jan 29 '24 04:01 andylin12

识别成全大写的情况, 大多数是要一个音节一个音节的读。

puck1006 avatar Jan 29 '24 09:01 puck1006

edge_tts是把_replace为“下划线”,然后读出来

v3ucn avatar Jan 29 '24 10:01 v3ucn

识别成全大写的情况, 大多数是要一个音节一个音节的读。

有办法让模型一个音节一个音节的读吗?我尝试把字母分开,A B C D 这样读的都有问题,读的很怪。

andylin12 avatar Jan 30 '24 03:01 andylin12

识别成全大写的情况, 大多数是要一个音节一个音节的读。

有办法让模型一个音节一个音节的读吗?我尝试把字母分开,A B C D 这样读的都有问题,读的很怪。

A-B-C-D-, 这样就可以一个字母一个字母的读了,我测试ktv是这样的(把ktv改成 k-t-v-)

Misaka-Mikoto-Tech avatar Jan 30 '24 08:01 Misaka-Mikoto-Tech

今天更新到latest,这个问题还是存在的。

  1. 中英混合推理 即使用了“A-I-”,还是有问题,我随时复制了一份其他地方的文字, 然后把字母后面加了“-” “国内A-I-大模型相比海外具有代际差异已经形成共识,但A-I-大模型作为下一代科技创新的核心、以及国内必须要有独立自主知识产权的大模型的共识依然是主流。10月底至今,板块同时受到海内外产业进展及A-股市场波动的共同影响” 在这里,"AI", "A股",的情况下,发音非常奇怪。

  2. 纯英文推理 这句文字中 “CEO told CTO that we should use AI service like GPT to serve ABC company to predict MBTI.”, 其中CEO,CTO以及GPT是没问题但是AI和ABC还是按照单词来读,比如AI直接发音为“哎”。

akechend avatar Feb 19 '24 13:02 akechend

补充一下, 推理可以用engdict-hot, 然后在文字里面使用小写绕过去,比如

AI EY1 AY1

在这里AI里面的A的发音(EY1)总是会跟前面的辅音产生连读,每次还必须使用标点符号做隔离, 所以其实还是比较别扭。 不知道有无有更好的方法。

此外还有个问题,比如A股单独一个字母,默认发音是AH0, 但是实际上我们的习惯性发音是EY1,所以希望中文后面也出个热词,方便配置。

akechend avatar Feb 19 '24 15:02 akechend