Classical-Modern
Classical-Modern copied to clipboard
能否共享断句脚本
我们有200m左右没有断句的数据, 想并入此数据集, 请求大佬能否提供断句脚本
你好,感谢对我们工作的关注,脚本实际上不复杂,我们主要是按照标点符号(句号分号感叹号问号)来分别对篇章级的文言文和现代文进行切分形成句子级,之后利用编辑距离来对两者对应行附近范围内的行(因为一行文言文可能对应多行现代文)进行匹配对齐,然后对匹配不上的位置进行人工对齐,最后可以再通过长度比、编辑距离、抽样人工校对的方式对对齐内容进行检查。