Skip to content

常见问题解答 #4

Open
Open
@toolgood

Description

@toolgood

问:能不能提供一个完整版的敏感词库用于测试?
答:不会提供,因为代码已开源,所以不能免费提供,但可以在https://toolgood.com/ 网站上试用。

问:怎么卖?价格?网址?
答:敏感词库赞助费200元 https://mbd.pub/o/bread/mbd-YpaXmZdv ,商业授权费1000元 https://mbd.pub/o/bread/YpaXmZdw

问:面包多上购买安全吗?
答:请放心购买,购买后可以请下载附件。issues是开放的。如果有人说无法下载敏感词库,早就开贴骂人了。

问:敏感词库可开发票吗?
答:可开发票,但金额需超1000元。

问:词库会更新吗?
答:会,更新频率不高。因为我的项目算是小打小闹,政府部门不会给我相关违规词,而政府会给大公司(如微信、微博、抖音社交相关公司)一些的违规词。

问:词库如果下载?
答:在面包多上购买后,词库在附件中。

问:技术合作,付费做技术外援?
答:我的重心不在敏感词的方向了。如有问题可以提交到Issues。

问:无法通过API实时添加敏感词?
答:因为代码开源,已删除相关功能,可以编辑敏感词库,再使用dataBuilder内代码编译的工具打包成数据包。

问:试用一下敏感词过滤方案:
答:可以在https://toolgood.com/ 网站上试用。

问:内存占用多少?
答:最高260M,本人自己网站运行一年多,内存使用186M。

问:敏感词库怎么编辑?
答:敏感词库是sqlite数据库,使用sqlite管理工具可以编辑。

问:请问sqlite数据库的密码是多少?
答:没有密码。

问:敏感词库可以换mysql?
答:可以,源码已公开,可以改成mysql,推荐使用navicat工具转化。

问:敏感词可以提取出来吗?我们需要做到我们的系统里面去 。
答:可以,词库以sqlite数据库,推荐使用navicat工具。

问:敏感词库怎么打包?
答:源码内包含打包工具。不想下载visual studio 的人,可以从 https://mbd.pub/o/bread/YpiWlZ9r 网站购买下载。

问:可以部署到docker里面吗?
答:可以。进入https://pan.baidu.com/s/1FLH7U3Nw2zE0Q3Vb-GtWZg?pwd=bqgn 后选择下载TextFilter-Linux-20210927-ListenAnyIP.zip

问:为什么我申请加QQ一直未通过?
答:QQ自动屏蔽了一部分用户,你可能短时间加了很QQ号。

问:如何查找异常敏感词?
答:异常敏感词是由于拼音相近造成的,如“期”与“琪”。如果是两个词组合成的敏感词,可以在TxtCommon内找。

SELECT * from TxtCustom where Text like '%||查%'  
SELECT * from TxtCustom where Text like '%||{查}%'  

SELECT * from TxtCommonType where id in (SELECT TxtCommonTypeId from TxtCommon where text ='')

SELECT * from TxtCustom where Text LIKE '%||{姓氏}%'
SELECT * from TxtCustom where Text LIKE '%||{调查关押倒台}%'
SELECT * from TxtCustom where Text LIKE '%||{侦探}%'

SELECT * from TxtCommon where TxtCommonTypeId in (SELECT id from TxtCommonType where name ='公务员')

-- 查找 敏感字 扩展
SELECT * from TxtExtend where srctxt like '%周%'

问:无法查找异常敏感词,怎么调试?
答:(1)先用TextClassify.sav生成数据包,复制temp文件内的acRegexSearch.txtmultiwordSrearch.txttempKeyword_012.txt,
(2)断点 TextFilterHelper.FindAll方法,查看 TempWordsResultItem 类下SingleIndex
(3)在acRegexSearch.txtmultiwordSrearch.txttempKeyword_012.txt对比SingleIndex值

        public unsafe static IllegalWordsFindAllResult FindAll(in ReadStreamBase stream)
        {
            var illegalWords1 = FindIllegalWords(in stream.TestingText); //断点此处

问:无法查找异常敏感词,怎么办?
答:加入白名单,如出现 “B C” 两字,可以在 TxtCustom 表中插入数据

Text:B||C
TxtCustomTypeId:1
RiskLevel:0
MatchType:0
IsRepeatWords:0
IntervalWrods:0
IsDelete:0

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions