N46Whisper
N46Whisper copied to clipboard
请问考虑在项目中加入声纹识别的功能吗?
(github怎么按了回车键直接就发出去了……我还没编辑完)
跑了个联动回,语音转文字后还需要逐行去标注说话人
然后翻到了一个声纹识别的包:
https://github.com/pyannote/pyannote-audio
应用项目:
https://github.com/yinruiqing/pyannote-whisper
https://github.com/lablab-ai/Whisper-transcription_and_diarization-speaker-identification-
https://github.com/JimLiu/whisper-podcast-subtitles
想问问考不考虑把这个集成进去OTZ 在多人联动的活动中应该能起到大作用……
确实,我也是刚碰到到这种问题
从实用角度讲,这个功能最后实际输出希望以什么形式呢?ass/srt每一句都标注“speaker01”,“speaker02”这样?
翻了一下AEG,里面有个地方是这样的:
对应的代码是这么一句:
Dialogue: 0,0:03:08.99,0:03:09.91,VTB样式,難燃か(?)おめえ,0,0,0,,你还好吧
在“样式名”和“0,0,0”(不知道ASS里这个是什么含义OTZ)之间这个部分标注上speaker的话,后续就可以按照这个批量替换掉前面的样式了吧?(想了一下在语音转文字之前就设定好【声音-样式】的映射感觉不好实现,所以只要能识别出N个声音并标注在这个地方,然后手动把前面的样式替换成想要的样式,这个流程大概比较简单……)
所以如果能加在这个部分里的话,应该比较好处理一些? (srt文件格式更不熟了……我再去翻一下OTZ)
从实用角度讲,这个功能最后实际输出希望以什么形式呢?ass/srt每一句都标注“speaker01”,“speaker02”这样?
看了一下srt文件的格式,好像srt文件没有能标注的部分? 所以可能还是只能写入ASS文件……
(另外想问一下本地化还会做吗OTZ在线跑AI翻译对Colab pro的消耗忒大了……试着下载这个项目然后本地运行Jupyter Notebook,但是被各种依赖问题卡死了)
从实用角度讲,这个功能最后实际输出希望以什么形式呢?ass/srt每一句都标注“speaker01”,“speaker02”这样?
看了一下srt文件的格式,好像srt文件没有能标注的部分? 所以可能还是只能写入ASS文件……
(另外想问一下本地化还会做吗OTZ在线跑AI翻译对Colab pro的消耗忒大了……试着下载这个项目然后本地运行Jupyter Notebook,但是被各种依赖问题卡死了)
開 docker 直接跑 colab 本地端啊