N46Whisper 请问考虑在项目中加入声纹识别的功能吗？

~~（github怎么按了回车键直接就发出去了……我还没编辑完）~~ 跑了个联动回，语音转文字后还需要逐行去标注说话人然后翻到了一个声纹识别的包： https://github.com/pyannote/pyannote-audio 应用项目： https://github.com/yinruiqing/pyannote-whisper https://github.com/lablab-ai/Whisper-transcription_and_diarization-speaker-identification- https://github.com/JimLiu/whisper-podcast-subtitles

想问问考不考虑把这个集成进去OTZ 在多人联动的活动中应该能起到大作用……

Mar 28 '23 02:03 yy35959199

确实，我也是刚碰到到这种问题

Mar 28 '23 11:03 WebelyTwilight

从实用角度讲，这个功能最后实际输出希望以什么形式呢？ass/srt每一句都标注“speaker01”，“speaker02”这样？

Apr 15 '23 12:04 Ayanaminn

翻了一下AEG，里面有个地方是这样的：对应的代码是这么一句： Dialogue: 0,0:03:08.99,0:03:09.91,VTB样式,難燃か（？）おめえ,0,0,0,,你还好吧在“样式名”和“0,0,0”（不知道ASS里这个是什么含义OTZ）之间这个部分标注上speaker的话，后续就可以按照这个批量替换掉前面的样式了吧？（想了一下在语音转文字之前就设定好【声音-样式】的映射感觉不好实现，所以只要能识别出N个声音并标注在这个地方，然后手动把前面的样式替换成想要的样式，这个流程大概比较简单……）

所以如果能加在这个部分里的话，应该比较好处理一些？（srt文件格式更不熟了……我再去翻一下OTZ）

Apr 15 '23 14:04 yy35959199

从实用角度讲，这个功能最后实际输出希望以什么形式呢？ass/srt每一句都标注“speaker01”，“speaker02”这样？

看了一下srt文件的格式，好像srt文件没有能标注的部分？所以可能还是只能写入ASS文件……

（另外想问一下本地化还会做吗OTZ在线跑AI翻译对Colab pro的消耗忒大了……试着下载这个项目然后本地运行Jupyter Notebook，但是被各种依赖问题卡死了）

Apr 18 '23 10:04 yy35959199

从实用角度讲，这个功能最后实际输出希望以什么形式呢？ass/srt每一句都标注“speaker01”，“speaker02”这样？

看了一下srt文件的格式，好像srt文件没有能标注的部分？所以可能还是只能写入ASS文件……

（另外想问一下本地化还会做吗OTZ在线跑AI翻译对Colab pro的消耗忒大了……试着下载这个项目然后本地运行Jupyter Notebook，但是被各种依赖问题卡死了）

開 docker 直接跑 colab 本地端啊

Dec 25 '23 06:12 Nekofoxmiu

N46Whisper N46Whisper copied to clipboard

请问考虑在项目中加入声纹识别的功能吗？

N46Whisper
N46Whisper copied to clipboard