WeTextProcessing
WeTextProcessing copied to clipboard
有没有考虑过中英混合的ITN
这个其实在实际项目中,需求量会比较大
意思是中文和英文同时做ITN吗?这个暂时没考虑,可以增加下,谢谢提议,欢迎PR~
意思是中文和英文同时做ITN吗?这个暂时没考虑,可以增加下,谢谢提议,欢迎PR~
嗯嗯是的,现在实际上线的项目,都是需要中英混输。我先做做看看效果,如果不错的话,再PR
中英混里面比较常见的英文类别都是啥样的,日期还是电话号码还是什么?
中英文混合还是比较常见的,比如航班号码的播报,再比如单词的拼读如,A P P,再比如中文里夹杂一些专有的英语名词, 比如:“你定的酒店是在georgia吗”,那这里的“georgia”是该itn为“Georgia”还是缩写呢,等等。我目前也在做asr后处理这块,有问题可以相互讨论下,嘿嘿。
这些case(加空格,大小写)实现起来比较简单,甚至不需要怎么改代码就能支持,我比较关心的是“我有 one thoundsand dollars” 这种涉及数字变化的“我有$1000”,这种case似乎不是很常见
如果考虑地区的话,像港澳地区这种可能会夹杂这种中英的,比如:这个可以有ten percent的收益吗。
如果考虑地区的话,像港澳地区这种可能会夹杂这种中英的,比如:这个可以有ten percent的收益吗。
有中英文数据的话可以总结下~ 不在那个语境容易闭门造“句”
如果考虑地区的话,像港澳地区这种可能会夹杂这种中英的,比如:这个可以有ten percent的收益吗。
有中英文数据的话可以总结下~ 不在那个语境容易闭门造“句”
我后续看看我这边能不能总结一些例子 有空的话我发你邮箱 你看成不 你主页的邮箱用的吧
发邮箱或者直接发这里也行发自我的 iPhone在 2022年12月29日,17:51,Bo Ling @.***> 写道:
如果考虑地区的话,像港澳地区这种可能会夹杂这种中英的,比如:这个可以有ten percent的收益吗。
有中英文数据的话可以总结下~ 不在那个语境容易闭门造“句”
我后续看看我这边能不能总结一些例子 有空的话我发你邮箱 你看成不 你主页的邮箱用的吧
—Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you commented.Message ID: @.***>
英文的ITN后面会做吗
@xingchensong 你好,wfst的规则转换, 可以像支持tts前端ssml那种功能吗? 就是可以指定某个子串按照某种固定读法读. toy example: <number>1234</number>
中1234 会转换成成:一二三四. 而不是:一千二百三十四.
@xingchensong 你好,wfst的规则转换, 可以像支持tts前端ssml那种功能吗? 就是可以指定某个子串按照某种固定读法读. toy example:
<number>1234</number>
中1234 会转换成成:一二三四. 而不是:一千二百三十四.
可以,需要单独写一个规则
这些case(加空格,大小写)实现起来比较简单,甚至不需要怎么改代码就能支持,我比较关心的是“我有 one thoundsand dollars” 这种涉及数字变化的“我有$1000”,这种case似乎不是很常见
想问个关于空格切分英文的问题:在用pip源下载导入包的LN normalizer.normalize()时会合并英文词空格,如输入“We Text Processing"会输出成‘WeTextProcessing’; 而使用clone 下来的WeTextProcessing代码仓里的normalize就可以保留空格。两者在tag输出都是一样的,应该是verbalize()的问题。请问这个具体是哪里规则导致的呢?是否保留英文空格是在源文件里哪部处理的