SenseVoice icon indicating copy to clipboard operation
SenseVoice copied to clipboard

Multilingual Voice Understanding Model

Results 140 SenseVoice issues
Sort by recently updated
recently updated
newest added

use_itn=True, 输出结果为:如果是110加二等于12,2减三等于99 use_itn=False,输出结果为:如果是十十加二等于十二十二减三等于九九 数字110、12,2 的 itn结果是错误的。 是否可以实现,文本正则化结果+保留标点的输出呢?

question

Notice: In order to resolve issues more efficiently, please raise issue following the template. (注意:为了更加高效率解决您遇到的问题,请按照模板提问,补充细节) ## ❓ Questions and Help 首先感谢开源的senseVoice,识别正确率很高,并且解析效率也很高! 这里希望提一个需求:多人对话是一个非常重要的业务场景。 希望能够支持多人对话的识别,考虑能够基于对话中每个人的声纹特征将语言识别的内容按人进行区分形成多人对话。 这样应用识别完成后,用户可以为每个人标准身份,实现多人对话识别。 ### Before asking: 1. search the...

question

Hi,目前默认的模式经常会将中文识别成日语,有啥办法只输出中文,或者说限定语言吗

我想要使用sensevoice用于生成字幕,按照示例代码得到模型输出中没有看到包含时间戳信息

question

Notice: In order to resolve issues more efficiently, please raise issue following the template. (注意:为了更加高效率解决您遇到的问题,请按照模板提问,补充细节) ## ❓ Questions and Help 计划标注部分数据,但不是很明白各个字段的含义,特请教。 - #### 已基本搞明白的有: "key"、"source"、"target"、"target_len"、“text_language”、“emo_target” - #### 不太明白的有: "source_len",issue里有解释是“帧”,对应“10ms”,但个别已有数据集中也对不上,所以对“有效音频信息”的理解也许有偏差,求解释。 -...

question

How to set parameters similar to `skip_special_tokens` when generating ASR results? Additionally, does it support ASR results at the timestamp level?

Is there a way to return the word timestamp of a sentence? example: input sentence: "Hello readers,welcome!" output: [{ "word": "Hello", "start_time": 0.02, "end_time": 0.36, }, { "word": "readers", "start_time":...

question

是ModelScope的老问题了,明明模型已经下载回本地,可是每次都必须联网下,才能运行,如何离线运行呢?谢谢

question

效果真的又快又好,打算日常使用,所以增加一个提供 OpenAI 兼容的推理服务接口。