fish-speech icon indicating copy to clipboard operation
fish-speech copied to clipboard

[BUG] 1.0版本仍有非常严重的缺字问题

Open aixiaodewugege opened this issue 9 months ago • 11 comments

input text 作者使用了LPIPS等指标来评估渲染图像的质量。其中,PSNR用于量化像素颜色误差,SSIM用于衡量渲染图像与真实图像的感知相似性,而LPIPS则用于衡量更高层次的感知相似性。 image

aixiaodewugege avatar May 04 '24 09:05 aixiaodewugege

吞字母是么, 目前得在英文字母旁边手动加入空格, 不然有概率吞. 未来会在数据上优化.

leng-yue avatar May 05 '24 08:05 leng-yue

好的,请问fishspeech demo网站用的哪个模型?感觉效果更好一些

aixiaodewugege avatar May 05 '24 12:05 aixiaodewugege

用的 medium sft

leng-yue avatar May 06 '24 00:05 leng-yue

@leng-yue 感谢,还想请教一下,如果我要用1小时的数据微调的话,是在pretrain还是sft基础上?

此外,我发现在没有英文的情况下也存在比较严重的吞字问题。。 text:目前,英特尔已经与 150 多家产业伙伴,推出以数据为中心的软、硬一体解决方案,为零售、工业、交通、金融、医疗、能源、教育等众多垂直领域,基于行业需求,从云到端布局算力产品组合。因此完整产业链的建立,对英特尔和其合作伙伴业务的开展至关重要。在设计生产产品的时候,英特尔不光要向这些产业伙伴提供处理器和芯片组,往往还要提供许多其他外设,比如机械转轴、电源管理、摄像头模组、音频解决方案等。“英特尔除了核心的处理器技术需要对他们沟通支持之外,我们还要在这些方面对他们进行一些全方位的技术支持。我们把这些客户称为 CTE(生态链合作伙伴)客户”宗晔说到。

aixiaodewugege avatar May 06 '24 08:05 aixiaodewugege

微调是在 sft 基础上. 我测了几次这个文本, 只有 150 这里漏了. 能否提供下详细的推理参数?

leng-yue avatar May 07 '24 01:05 leng-yue

我使用的是默认参数,在 huggingface demo page 上推理的

结果如下: https://github.com/aixiaodewugege/temp/blob/main/audio1.wav

aixiaodewugege avatar May 07 '24 03:05 aixiaodewugege

感觉是概率问题, 我重新生成没有丢失 英特尔除了核心的处理器技术需要对他们沟通支持之外. 看看后面 dpo 能否改善.

leng-yue avatar May 07 '24 08:05 leng-yue

ok,还想请教下,finetune的时候 gan和llama有先后顺序吗?

aixiaodewugege avatar May 08 '24 08:05 aixiaodewugege

没有

leng-yue avatar May 08 '24 10:05 leng-yue

微调的llama微调时候,不是要用 用gan提取语义 token吗?如果这俩都想微调的话,是不是要用微调之后的gan来提取?

aixiaodewugege avatar May 10 '24 06:05 aixiaodewugege

不用, 微调会锁定 encoder 部分

leng-yue avatar May 10 '24 06:05 leng-yue