FireRedASR
FireRedASR copied to clipboard
Open-source industrial-grade ASR models supporting Mandarin, Chinese dialects and English, achieving a new SOTA on public Mandarin ASR benchmarks, while also offering outstanding singing lyrics recogn...
https://www.xiangongyun.com/image/detail/33ebdcb0-c002-4649-8ecf-b13c2fdf9dba?r=WZFDHU
我的GPU卡是32GB显存,运行LLM的推理脚本报内存不足,开启fp16后,识别结果出现了异常: + CUDA_VISIBLE_DEVICES=0 + speech2text.py --asr_type llm --model_dir /asr/kell/FireRedASR/examples/pretrained_models/FireRedASR-LLM-L --use_fp16 1 --batch_size 1 --beam_size 3 --decode_max_len 0 --decode_min_len 0 --repetition_penalty 3.0 --llm_length_penalty 1.0 --temperature 1.0 --wav_scp wav/wav.scp --output out/llm-l-asr.txt Namespace(asr_type='llm',...
./inference_fireredasr_aed.sh + CUDA_VISIBLE_DEVICES=0 + speech2text.py --asr_type aed --model_dir /webapps/FireRedASR/examples/pretrained_models/FireRedASR-AED-L --batch_size 2 --beam_size 3 --nbest 1 --decode_max_len 0 --softmax_smoothing 1.25 --aed_length_penalty 0.6 --eos_penalty 1.0 --wav_scp wav/wav.scp --output out/aed-l-asr.txt Namespace(asr_type='aed', model_dir='/webapps/FireRedASR/examples/pretrained_models/FireRedASR-AED-L', wav_path=None,...
支持热词吗
如题
pcm文件处理
pcm文件做transcribe,是不是只能先转成wav文件。请问有其他方法吗
支持实时转写吗?
FireRedASR模型在语音识别的准确率方面已经冠军群雄了,但当前并不支持流式响应,而现在的模型 也不支持时间戳输出,导致在生产和日常场景难有很好的实际应用。 感谢开发团队,也希望请问下,未来是否有打算开发支持流式传输的版本,以及对于非流式传输模型的时间戳支持呢?
Hello How are you? Thanks for contributing to this project. Could you share your training code?
发现转写30s音频的过程中,如果中间部分存在静音(几秒),静音后的部分就不进行转录了