分词的时候去掉了换行符连在一起了
词语原文 : エルシェアンタ
参考文本原文 : ※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※ エルシェアンタっ……ちょっと、まっ……んぁあんっ!なんか、お尻、あつっ……ふぅううぅっ! エルシェアンタのやってること、ただのガキと一緒よ!?この街の金持ちって皆そんななの!? エルシェアンタ、マジでどうしようもないわね……!んっ……!てか、息当たってキモい……!
实际文本: { "message": "エルシェ\nアンタっ……ちょっと、まっ……んぁあんっ!\nなんか、お尻、あつっ……ふぅううぅっ!" },
词语原文 : エルシェアンタ
参考文本原文 : ※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※ エルシェアンタっ……ちょっと、まっ……んぁあんっ!なんか、お尻、あつっ……ふぅううぅっ! エルシェアンタのやってること、ただのガキと一緒よ!?この街の金持ちって皆そんななの!? エルシェアンタ、マジでどうしようもないわね……!んっ……!てか、息当たってキモい……!
实际文本: { "message": "エルシェ\nアンタっ……ちょっと、まっ……んぁあんっ!\nなんか、お尻、あつっ……ふぅううぅっ!" },
是这么处理的,因为保留行内符号的话效果会很差,所以预处理中移除了行内控制符
除了你上面举例的这种两个名字夹一个换行符的极端情况外,一般是没问题的,而且也会识别两个名字单独存在的形式
可以手动筛选一下结果来排除误差