Yaodada12
Yaodada12
> @Yaodada12 , hello. From my test, large-v3 gave poor quality and no punctuation. But large-v2 gave quite good quality. Then I tried to add option `condition_on_previous_text=False` with large-v3 model...
@bk111 @ILG2021 @r4nd0mwOrK933 @yijinsheng 大佬们用这个识别中文的时候有标点符号吗?为啥我生成的结果里没有标点符号。。
> > @bk111 @ILG2021 @r4nd0mwOrK933 @yijinsheng 大佬们用这个识别中文的时候有标点符号吗?为啥我生成的结果里没有标点符号。。 > > 我记得应该是有的吧,如果没有的话可以看下阿里的标点符号能力,直接根据文本添加标点 [CT-Transformer标点-中文-通用-实时 ](https://modelscope.cn/models/iic/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727/summary) 我跑的时候没有句号,就很奇怪。用的代码是这个: ``` from faster_whisper import WhisperModel model = WhisperModel("large-v3") segments, info = model.transcribe("audio.mp3") for segment in segments: print("[%.2fs...
> @Yaodada12 > > Try this: > > ``` > prmopt = 'add punctuation after end of each line. 就比如说,我要先去吃饭。segment at end of each sentence.' > segments, info = model.transcribe(audio_file,...
> v3只有英文吗 怎么可能,很多语种都支持
这个算法效果怎么样?
> 1. 删 > 2. 我要是知道就好了 大佬你好,我用你的在线demo测试,发现稍微长一点的文本效果就很差。前半段语音还行,后面就说的乱七八糟了,吐字都不清晰、直接错误。我用的文本如下:“”该视频中的图像都是真实的,由美国宇航局的火星探测器直接从星球表面捕获。这是首次以令人惊叹的 4K 分辨率渲染火星镜头。所以坐下来,放松,享受这段穿越另一个世界表面的旅程。美国宇航局的团队给火星起了非正式的地名,您将在屏幕左下角看到这些名称。“”
> > > 1. 删 > > > 2. 我要是知道就好了 > > > > > > 大佬你好,我用你的在线demo测试,发现稍微长一点的文本效果就很差。前半段语音还行,后面就说的乱七八糟了,吐字都不清晰、直接错误。我用的文本如下:“”该视频中的图像都是真实的,由美国宇航局的火星探测器直接从星球表面捕获。这是首次以令人惊叹的 4K 分辨率渲染火星镜头。所以坐下来,放松,享受这段穿越另一个世界表面的旅程。美国宇航局的团队给火星起了非正式的地名,您将在屏幕左下角看到这些名称。“” > > 可以试一下分句再推理,一般不会一次性输入这么长的文本。 ok