wangdabee

Results 6 issues of wangdabee

1.源码只支持对句子中第一次出现的混淆集或者专有名词进行改变,因为sentence.find() 只会返回句子中第一次出现的下标,希望可以修改为对出现的所有的的混淆集或者专有名词进行改变。 2.源码只支持长度相等字符的替换,将不对等字数替换后后面的替换会出现错位现象。原因为将长度不对等字符替换后句子已变为替换后的句子,此时之前detect到的候选错误下标已发生改变,后续若还按照之前的下标进行纠错,会发生错位现象。希望可以支持长度不相等字符的混淆集或者专有名词的替换。 3.目前对于混淆集的替换为简单的直接检索替换,希望可以支持模糊匹配替换。

enhancement

自己做数据集,重新训练conformer,并实现音频和识别出的文本对齐功能。 问题描述:asr中,实现音频和文本对齐功能的alignment.py 源码是对整个测试集(batch_size强制为1)进行识别对齐(集成到了Tester中),这一过程需要加载测试集的数据(即align dataloader)和vocab.txt ,vocab.txt (数据集中字符的集合)和dataload (测试集是manifest.test)需要测试数据的wav音频文件和label(标注的txt文本) ,有两个疑问: 1.是不是实现音频和识别出的文本对齐功能,需要标注好测试音频 然后按照data.sh 处理数据,生成manifest文件和vocab文件,之后利用alignment.py实现功能? 2.想要实现像测试单个音频的test_wave.py一样,实现单个音频的识别与对齐功能,除了1说的方法之外,还有没有较为简便的方法(即就像test_wave.py一样,只需要vocab.txt,输入一个音频,就可以识别成文本)? 谢谢!

S2T

asr1项目中 想在自己的数据集上进行训练 想加载提供的conformer预训练模型进行参数初始化并冻结一些层,请问如何修改源码?

S2T

the svd_xt_1_1 weights and svd_xt_1_1.yaml has released ,but in simple_video_sample.py not have version==" svd_xt_1_1" , anyone can support the svd_xt_1_1 inference code? thanks.

### Self Checks - [x] This template is only for bug reports. For questions, please visit [Discussions](https://github.com/fishaudio/fish-speech/discussions). - [x] I have thoroughly reviewed the project documentation (installation, training, inference) but...

bug

The readme and config of scrfd only introduce the 640*640 training method, I want to train 160*160 resolution, how can I modify the config and other steps