Description
问:能不能提供一个完整版的敏感词库用于测试?
答:不会提供,因为代码已开源,所以不能免费提供,但可以在https://toolgood.com/ 网站上试用。
问:怎么卖?价格?网址?
答:敏感词库赞助费200元 https://mbd.pub/o/bread/mbd-YpaXmZdv ,商业授权费1000元 https://mbd.pub/o/bread/YpaXmZdw
问:面包多上购买安全吗?
答:请放心购买,购买后可以请下载附件。issues是开放的。如果有人说无法下载敏感词库,早就开贴骂人了。
问:敏感词库可开发票吗?
答:可开发票,但金额需超1000元。
问:词库会更新吗?
答:会,更新频率不高。因为我的项目算是小打小闹,政府部门不会给我相关违规词,而政府会给大公司(如微信、微博、抖音社交相关公司)一些的违规词。
问:词库如果下载?
答:在面包多上购买后,词库在附件中。
问:技术合作,付费做技术外援?
答:我的重心不在敏感词的方向了。如有问题可以提交到Issues。
问:无法通过API实时添加敏感词?
答:因为代码开源,已删除相关功能,可以编辑敏感词库,再使用dataBuilder
内代码编译的工具打包成数据包。
问:试用一下敏感词过滤方案:
答:可以在https://toolgood.com/ 网站上试用。
问:内存占用多少?
答:最高260M,本人自己网站运行一年多,内存使用186M。
问:敏感词库怎么编辑?
答:敏感词库是sqlite数据库,使用sqlite管理工具可以编辑。
问:请问sqlite数据库的密码是多少?
答:没有密码。
问:敏感词库可以换mysql?
答:可以,源码已公开,可以改成mysql,推荐使用navicat工具转化。
问:敏感词可以提取出来吗?我们需要做到我们的系统里面去 。
答:可以,词库以sqlite数据库,推荐使用navicat工具。
问:敏感词库怎么打包?
答:源码内包含打包工具。不想下载visual studio 的人,可以从 https://mbd.pub/o/bread/YpiWlZ9r 网站购买下载。
问:可以部署到docker里面吗?
答:可以。进入https://pan.baidu.com/s/1FLH7U3Nw2zE0Q3Vb-GtWZg?pwd=bqgn 后选择下载TextFilter-Linux-20210927-ListenAnyIP.zip
问:为什么我申请加QQ一直未通过?
答:QQ自动屏蔽了一部分用户,你可能短时间加了很QQ号。
问:如何查找异常敏感词?
答:异常敏感词是由于拼音相近造成的,如“期”与“琪”。如果是两个词组合成的敏感词,可以在TxtCommon内找。
SELECT * from TxtCustom where Text like '%||查%'
SELECT * from TxtCustom where Text like '%||{查}%'
SELECT * from TxtCommonType where id in (SELECT TxtCommonTypeId from TxtCommon where text ='查')
SELECT * from TxtCustom where Text LIKE '%||{姓氏}%'
SELECT * from TxtCustom where Text LIKE '%||{调查关押倒台}%'
SELECT * from TxtCustom where Text LIKE '%||{侦探}%'
SELECT * from TxtCommon where TxtCommonTypeId in (SELECT id from TxtCommonType where name ='公务员')
-- 查找 敏感字 扩展
SELECT * from TxtExtend where srctxt like '%周%'
问:无法查找异常敏感词,怎么调试?
答:(1)先用TextClassify.sav
生成数据包,复制temp
文件内的acRegexSearch.txt
、multiwordSrearch.txt
、tempKeyword_012.txt
,
(2)断点 TextFilterHelper.FindAll
方法,查看 TempWordsResultItem 类下SingleIndex
。
(3)在acRegexSearch.txt
、multiwordSrearch.txt
、tempKeyword_012.txt
对比SingleIndex值
public unsafe static IllegalWordsFindAllResult FindAll(in ReadStreamBase stream)
{
var illegalWords1 = FindIllegalWords(in stream.TestingText); //断点此处
问:无法查找异常敏感词,怎么办?
答:加入白名单,如出现 “B C” 两字,可以在 TxtCustom 表中插入数据
Text:B||C
TxtCustomTypeId:1
RiskLevel:0
MatchType:0
IsRepeatWords:0
IntervalWrods:0
IsDelete:0