图片看不清楚?请点击这里查看原图(大图)。
这个经过改进的方案兼顾了性能与灵活性:只进行一次全文扫描;使用正则表达式进行语段匹配。预计稍加优化,并加入缓存机制的话,常规文章的审核耗时不会超过半秒。
存在并期待改进的缺点:由于采用了首尾字符匹配形式触发正则验证,正则中的断言似乎就无用武之地了,这使得正则发挥的功能有所缩减,鱼与熊掌真不可兼得吗?
最后,再重申一下我对人机协作审核机制的处理建议:
不要尝试将危险文字自动替换后直接发布,省去人工审核,那样只会招致无限的道魔战。
无危险的内容应直接发布;
有一定危险的内容也会发布,但在发布的同时会在后台提请管理员进行人工审查;
高危险度的内容延迟发布并通知管理员。
我的想法就说到这里了,欢迎大家回复交流。
声明:此方案参考并借鉴了Sumtec的字符串多模式精确匹配(脏字/敏感词汇搜索算法)TTMP算法 之理论如此一文中的部分算法思路,在此深表感谢。
出处:http://skyd.cnblogs.com/
本文示例代码或素材下载