autosub
autosub copied to clipboard
语音分割的部分是否能考虑其他的方法?感觉目前语音分割的并不是很准确
例如使用基于python的AI模型来进行人声分割?或者利用http://www.zhiqubz.com/ 中的开源https://github.com/deezer/spleeter 人声提取技术将人声分割后再进行分割?
可以考虑