wangdabee issues

Results 6 issues of


                                            wangdabee

使用kenlm规则纠错的三个小建议

1.源码只支持对句子中第一次出现的混淆集或者专有名词进行改变，因为sentence.find() 只会返回句子中第一次出现的下标，希望可以修改为对出现的所有的的混淆集或者专有名词进行改变。 2.源码只支持长度相等字符的替换，将不对等字数替换后后面的替换会出现错位现象。原因为将长度不对等字符替换后句子已变为替换后的句子，此时之前detect到的候选错误下标已发生改变，后续若还按照之前的下标进行纠错，会发生错位现象。希望可以支持长度不相等字符的混淆集或者专有名词的替换。 3.目前对于混淆集的替换为简单的直接检索替换，希望可以支持模糊匹配替换。

enhancement

asr 对于ctc alignment.py 的一些疑问和问题

自己做数据集，重新训练conformer，并实现音频和识别出的文本对齐功能。问题描述：asr中，实现音频和文本对齐功能的alignment.py 源码是对整个测试集（batch_size强制为1）进行识别对齐（集成到了Tester中），这一过程需要加载测试集的数据（即align dataloader）和vocab.txt ，vocab.txt （数据集中字符的集合）和dataload （测试集是manifest.test）需要测试数据的wav音频文件和label（标注的txt文本），有两个疑问： 1.是不是实现音频和识别出的文本对齐功能，需要标注好测试音频然后按照data.sh 处理数据，生成manifest文件和vocab文件，之后利用alignment.py实现功能？ 2.想要实现像测试单个音频的test_wave.py一样，实现单个音频的识别与对齐功能，除了1说的方法之外，还有没有较为简便的方法（即就像test_wave.py一样，只需要vocab.txt，输入一个音频，就可以识别成文本）？谢谢！

S2T

s2t项目中asr1 如何在训练时预加载提供的conformer预训练模型？

asr1项目中想在自己的数据集上进行训练想加载提供的conformer预训练模型进行参数初始化并冻结一些层，请问如何修改源码？

S2T

svd_xt_1_1

the svd_xt_1_1 weights and svd_xt_1_1.yaml has released ,but in simple_video_sample.py not have version==" svd_xt_1_1" , anyone can support the svd_xt_1_1 inference code? thanks.

how to change the return audio length in streaming mode

### Self Checks - [x] This template is only for bug reports. For questions, please visit [Discussions](https://github.com/fishaudio/fish-speech/discussions). - [x] I have thoroughly reviewed the project documentation (installation, training, inference) but...

bug

How to modify the config of scrfd to train 160*160

The readme and config of scrfd only introduce the 640*640 training method, I want to train 160*160 resolution, how can I modify the config and other steps