FireRedASR icon indicating copy to clipboard operation
FireRedASR copied to clipboard

Open-source industrial-grade ASR models supporting Mandarin, Chinese dialects and English, achieving a new SOTA on public Mandarin ASR benchmarks, while also offering outstanding singing lyrics recogn...

Results 65 FireRedASR issues
Sort by recently updated
recently updated
newest added

transformer_decoder.py里面可以替换torch原生的scaled_dot_product_attention函数 第247行:output = self.attention(q, k, v, mask=mask) 改成:output = F.scaled_dot_product_attention(q, k, v, attn_mask=mask.bool()) 整体性能大概可以提升10% conformer_encoder.py里面应该也可以,但逻辑稍微有点不一样,我还不知道怎么改,麻烦作者可以看看

package = torch.load(model_path, map_location=lambda storage, loc: storage, weights_only=False) 然后: File "/root/FireRedASR/fireredasr/models/fireredasr.py", line 111, in load_fireredasr_aed_model package = torch.load(model_path, map_location=lambda storage, loc: storage, weights_only=False) File "/root/miniconda3/envs/fireredasr/lib/python3.10/site-packages/torch/serialization.py", line 1554, in load return...

RT,感谢这么赞的开源项目,如果能在支持下时间戳、标点等常用功能,必定大火!

目前项目使用 Qwen-7B-Instruct 作为解码模型。我希望能够使用一个更小的语言模型来替代现有的 Qwen-7B-Instruct,以便在资源受限的环境中更高效地运行。 具体需求 请发布项目的训练代码,特别是与模型训练和微调相关的部分 希望能够了解如何将当前的 Qwen-7B-Instruct 模型替换为更小的大型语言模型 想要了解微调过程中的关键参数和配置 预期效果 通过使用更小的模型进行微调,我期望能够: 降低模型推理所需的计算资源 保持可接受的性能表现 在边缘设备或资源受限环境中更容易部署 感谢您的帮助!如有任何问题或需要更多信息,请随时告知。

![Image](https://github.com/user-attachments/assets/ed6e46dc-60f4-4758-8f4b-5ca71404e05b) 关闭了滑动注意力, 没有使用flash_atten, 大佬们这是什么情况?

使用AED模型,长音频按照每1分钟切分进行识别,会概率出现重复的情况, 例如: “但是你是我一看以后,它应该是需要呃一个时间段也是这样考虑。但是考核。对他这个整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的。” 包括大量的“嗯嗯嗯嗯”,“啊啊啊啊啊”,“哈哈哈哈哈哈哈”重复的情况。 模型推理参数: "use_gpu": 1, "beam_size": 1, "nbest": 1, "decode_max_len": 0, "softmax_smoothing": 1.25, "aed_length_penalty": 0.6, "eos_penalty": 1.0

我测试发现,每个句子基本没有标点符号,是哪个参数设置有问题吗

@ FireRedTeam ,请问识别方言,需要设置相关参数么,比如language,或者dialect?