WeTextProcessing icon indicating copy to clipboard operation
WeTextProcessing copied to clipboard

Text Normalization & Inverse Text Normalization

Results 9 WeTextProcessing issues
Sort by recently updated
recently updated
newest added

大佬们好: 想要处理日常中的数字缩写,或者电话号码,比如:“电话号码是幺三八五七四九四个八”,转化成:“电话号码是13857498888”;这样的怎么处理不会出现歧义呢? 感谢!!!!

他会输出:建议涂擦八减十二防晒 理想输出:建议涂擦SPF八到十二的防晒 注:SPF也有2-6 6-8 12-20..

文本输入是“下午三点三十分”会被转为3:30.pm. 当想输出为“下午3:30分”时修改如下: time.tsv里面pm改为下午,同时将time.py的 verbalizer = (hour + addcolon + minute + (addcolon + second).ques + noon.ques) 改为 verbalizer = (noon.ques + hour + addcolon + minute + insert('分') + (addcolon...

您好,我们新增一个规则,实现把高铁的 高->G、动->D 的转换,在rules中新增规则如下: ``` from tn.processor import Processor from pynini import string_file from pynini.lib.pynutil import delete, insert class FlightTrainCode(Processor): def __init__(self): super().__init__(name='flighttraincode') self.build_tagger() self.build_verbalizer() def build_tagger(self): digit = string_file('itn/chinese/data/number/digit.tsv') #...

需求是添加一些数字的ITN,比如两>2,洞>0,拐>7,该如何修改呢

”点“后没有数字的 建议解析成时间 xx:00 python -m itn --enable_0_to_9 true --enable_standalone_number false --text "十二点提醒我做饭" char { value: "十" } char { value: "二" } char { value: "点" } char { value:...

运行如下命令: ```shell cmake -DCMAKE_BUILD_TYPE=Release .. -G "Visual Studio 17 2022" -DBUILD_SHARED_LIBS=0 -DCMAKE_CXX_FLAGS="/utf-8" cmake --build . --config Release ``` 出现错误: ``` error MSB6006: “CL.exe”已退出,代码为 -1073740791。 [F:\Works\WeTextProcessing\runtime\build\processor\processor.vcxproj] ``` 如果 build 时候使用DEBUG: ```shell...

这个其实在实际项目中,需求量会比较大

good first issue

背景:当前math.py 能处理的场景有限,必须是 `数字 + 运算符 + 数字` 期望提升的case: case1: `四乘x加y` 期望输出 `4x+y` case2: `一加阿尔法` 期望输出 `1+a`