cn2an
cn2an copied to clipboard
识别不要转化的数字
1、 输入:原价都是全国统一零售价它是幺三八 输出:原价都是全国统10售价它是138 统一零售价不用转吧 2、 输入:卖到几十块钱 输出:卖到几10块钱 我理解几十块钱也不需要转吧
Originally posted by @mengxifeng in https://github.com/Ailln/cn2an/issues/26#issuecomment-693155113
目前我想到的方法有:
- 分词。这是一种比较简单的方法,但经过测试,分词有时很难把数字分对。
- NER。这种方法比较复杂,有可能要引入类似于 Torch 这样的 600 MB 左右的框架(太大可能会对用户安装造成困难),而且这种方法我还没找到合适的公开数据集...
建议直接用正则处理约数和包含数字的词语