ToolGood.TextFilter icon indicating copy to clipboard operation
ToolGood.TextFilter copied to clipboard

常见问题解答

Open toolgood opened this issue 2 years ago • 0 comments

问:能不能提供一个完整版的敏感词库用于测试? 答:不会提供,因为代码已开源,所以不能免费提供,但可以在https://toolgood.com/ 网站上试用。

问:怎么卖?价格?网址? 答:敏感词库赞助费200元 https://mbd.pub/o/bread/mbd-YpaXmZdv ,商业授权费1000元 https://mbd.pub/o/bread/YpaXmZdw

问:面包多上购买安全吗? 答:请放心购买,购买后可以请下载附件。issues是开放的。如果有人说无法下载敏感词库,早就开贴骂人了。

问:敏感词库可开发票吗? 答:可开发票,但金额需超1000元。

问:词库会更新吗? 答:会,更新频率不高。因为我的项目算是小打小闹,政府部门不会给我相关违规词,而政府会给大公司(如微信、微博、抖音社交相关公司)一些的违规词。

问:词库如果下载? 答:在面包多上购买后,词库在附件中。

问:技术合作,付费做技术外援? 答:我的重心不在敏感词的方向了。如有问题可以提交到Issues。

问:无法通过API实时添加敏感词? 答:因为代码开源,已删除相关功能,可以编辑敏感词库,再使用dataBuilder内代码编译的工具打包成数据包。

问:试用一下敏感词过滤方案: 答:可以在https://toolgood.com/ 网站上试用。

问:内存占用多少? 答:最高260M,本人自己网站运行一年多,内存使用186M。

问:敏感词库怎么编辑? 答:敏感词库是sqlite数据库,使用sqlite管理工具可以编辑。

问:请问sqlite数据库的密码是多少? 答:没有密码。

问:敏感词库可以换mysql? 答:可以,源码已公开,可以改成mysql,推荐使用navicat工具转化。

问:敏感词可以提取出来吗?我们需要做到我们的系统里面去 。 答:可以,词库以sqlite数据库,推荐使用navicat工具。

问:敏感词库怎么打包? 答:源码内包含打包工具。不想下载visual studio 的人,可以从 https://mbd.pub/o/bread/YpiWlZ9r 网站购买下载。

问:可以部署到docker里面吗? 答:可以。进入https://pan.baidu.com/s/1FLH7U3Nw2zE0Q3Vb-GtWZg?pwd=bqgn 后选择下载TextFilter-Linux-20210927-ListenAnyIP.zip

问:为什么我申请加QQ一直未通过? 答:QQ自动屏蔽了一部分用户,你可能短时间加了很QQ号。

问:如何查找异常敏感词? 答:异常敏感词是由于拼音相近造成的,如“期”与“琪”。如果是两个词组合成的敏感词,可以在TxtCommon内找。

SELECT * from TxtCustom where Text like '%||查%'  
SELECT * from TxtCustom where Text like '%||{查}%'  

SELECT * from TxtCommonType where id in (SELECT TxtCommonTypeId from TxtCommon where text ='查')

SELECT * from TxtCustom where Text LIKE '%||{姓氏}%'
SELECT * from TxtCustom where Text LIKE '%||{调查关押倒台}%'
SELECT * from TxtCustom where Text LIKE '%||{侦探}%'

SELECT * from TxtCommon where TxtCommonTypeId in (SELECT id from TxtCommonType where name ='公务员')

-- 查找 敏感字 扩展
SELECT * from TxtExtend where srctxt like '%周%'

问:无法查找异常敏感词,怎么调试? 答:(1)先用TextClassify.sav生成数据包,复制temp文件内的acRegexSearch.txtmultiwordSrearch.txttempKeyword_012.txt, (2)断点 TextFilterHelper.FindAll方法,查看 TempWordsResultItem 类下SingleIndex。 (3)在acRegexSearch.txtmultiwordSrearch.txttempKeyword_012.txt对比SingleIndex值

        public unsafe static IllegalWordsFindAllResult FindAll(in ReadStreamBase stream)
        {
            var illegalWords1 = FindIllegalWords(in stream.TestingText); //断点此处

问:无法查找异常敏感词,怎么办? 答:加入白名单,如出现 “B C” 两字,可以在 TxtCustom 表中插入数据

Text:B||C
TxtCustomTypeId:1
RiskLevel:0
MatchType:0
IsRepeatWords:0
IntervalWrods:0
IsDelete:0

toolgood avatar Apr 28 '23 23:04 toolgood