video-subtitle-extractor 合并重复行

合并重复行

Open urna opened this issue 2 years ago • 8 comments

用“精确”模式提取字幕时，出现了这样的结果 `8 00:02:05,200 --> 00:02:06,200 胜下臣等奉旨观听 Your Majesty,w

9 00:02:06,160 --> 00:02:07,160 陛下臣等奉旨观听 Your Majesty,we observed`

前一个是后一个的一部分，是不是考虑，相邻的这样的两行内容，合并下？

Jan 14 '22 05:01 urna

vsf一般不会出现这个问题

Jan 14 '22 05:01 eritpchy

vsf一般不会出现这个问题

可是vsf会丢字幕啊

Screenshot 2022-01-14 13:30:57

Jan 14 '22 05:01 urna

鱼和熊掌

Jan 14 '22 05:01 eritpchy

可以config中降低下置信度，这样可以减少丢字幕，就是ocr出来的字幕可能不太准确，要手工改下不过我使用中vsf这情况其实也不少 😅

Jan 14 '22 06:01 cxfksword

可以config中降低下置信度，这样可以减少丢字幕，就是ocr出来的字幕可能不太准确，要手工改下

请教下：怎么查看是因为“置信度”原因丢字幕呢？

Jan 14 '22 07:01 urna

可以config中降低下置信度，这样可以减少丢字幕，就是ocr出来的字幕可能不太准确，要手工改下

请教下：怎么查看是因为“置信度”原因丢字幕呢？

可以看下vsf生成的图片文件夹resources\output\RGBImages，假如文件夹中存在丢失字幕的图片，那就是ocr时因置信度太低被丢弃了

Jan 14 '22 11:01 cxfksword

可以config中降低下置信度，这样可以减少丢字幕，就是ocr出来的字幕可能不太准确，要手工改下

请教下：怎么查看是因为“置信度”原因丢字幕呢？

可以看下vsf生成的图片文件夹resources\output\RGBImages，假如文件夹中存在丢失字幕的图片，那就是ocr时因置信度太低被丢弃了

i see...

如果能有log就好了

Jan 15 '22 11:01 urna

修改config.py文件里面的THRESHOLD_TEXT_SIMILARITY

# 文本相似度阈值
# 用于去重时判断两行字幕是不是统一行
# 采用动态算法实现相似度阈值判断: 对于短文本要求较低的阈值，对于长文本要求较高的阈值
THRESHOLD_TEXT_SIMILARITY = 0.8

Jan 17 '22 09:01 YaoFANGUK

video-subtitle-extractor video-subtitle-extractor copied to clipboard

合并重复行

video-subtitle-extractor
video-subtitle-extractor copied to clipboard