Này người xa lạ!

Còn chờ gì nữa mà không mau đăng nhập hoặc đăng ký để cùng tham gia thảo luận với cộng đồng!

讨论一下,怎样合理去掉敏感词中的"|" "/" "-" "~" "." "·"等防和谐符号?

About: My Novel Reader
为了防止字词被和谐,小说的敏感词往往用"|" "/" "-" "~" "." "·" 等符号把字隔开,让我们看着很不舒服。不过,这些符号很难直接屏蔽掉。
"|" 这个符号如果直接转换,例如 "毒|药": "毒药",显示出来的是“毒药|毒药”。我的想法是先把"|" 这个符号转变成"/",再把常用的敏感词补上。如下所示:

// === 防和谐符号处理 ===
"\\|":"/",
"毒[/-~·]药": "毒药",

"-" "~""·" 这三个符号不能直接屏蔽,不然可能会把一些信息破坏掉,例如,"·" 这个符号还是外国人名的连接符。

但是敏感词太多了,有没有更简单的方法?

另外,"." 这个符号很难处理。"."会造成多余字词被屏蔽,例如"裸.体": "裸体",会造成“赤身裸体”这个成语只剩下“赤裸体”,其中“身”字被当做"."屏蔽掉了。

Bình luận

 • 还有,有的小说是用括号,句号和逗号来处理敏感词,这个又怎么办?
  "(机)枪": "机枪",
  "机(枪)": "机枪",
  "【裸】体": "裸体",
  "政。府": "政府",
  "政、府": "政府",
 • 试行代码如下,没有解决 "." 括号、句号和逗号的屏蔽问题。  // === 防和谐符号处理 ===
  "\\|":"/",
  "/":"/",
  "~":"~",

  "二[/-~·]奶": "二奶",
  "法律[/-~·]界": "法律界",
  "人[/-~·]类": "人类",
  "恐怖[/-~·]主义": "恐怖主义",
  "颠[/-~·]覆": "颠覆",
  "南海[/-~·]问题": "南海问题",
  "圈圈[/-~·]功": "法轮功",
  "镇[/-~·]压": "镇压",
  "奸[/-~·]夫[/-~·]淫[/-~·]妇": "奸夫淫妇",
  "公[/-~·]务[/-~·]员": "公务员",
  "淫[/-~·]靡[/-~·]香[/-~·]艳": "淫靡香艳",
  "毒[/-~·]药": "毒药",
  "双[/-~·]飞": "双飞",
  "情[/-~·]趣": "情趣",
  "情[/-~·]欲": "情欲",
  "炸[/-~·]弹": "炸弹",
  "赤[/-~·]身": "赤身",
  "果[/-~·]体": "裸体",
  "城[/-~·]管": "城管",
  "调[/-~·]教": "调教",
  "银[/-~·]行[/-~·]卡": "银行卡",
  "裸[/-~·]体": "裸体",
  "光[/-~·]裸": "光裸",
  "嫩[/-~·]女": "嫩女",
  "维[/-~·]谷": "维谷",
  "分[/-~·]身": "分身",
  "克[/-~·]隆": "克隆",
  "性[/-~·]需要": "性需要",
  "黑[/-~·]帮": "黑帮",
  "政[/-~·]府": "政府",
  "八[/-~·]九": "八九",
  "不[/-~·]着[/-~·]寸[/-~·]缕": "不着寸缕",
  "肉[/-~·]体": "肉体",
  "创[/-~·]世": "创世",
  "邪[/-~·]教": "邪教",
  "交[/-~·]合": "交合",
  "我[/-~·]操": "我操",
  "欢[/-~·]好": "欢好",
  "欢[/-~·]爱": "欢爱",
  "欢[/-~·]爱": "欢爱",
  "旖[/-~·]旎": "旖旎",
  "造[/-~·]反": "造反",
  "调[/-~·]戏": "调戏",

 • "包[/-~·]养": "包养",
  "骚[/-~·]扰": "骚扰",
  "反[/-~·]社": "反社",
  "流[/-~·]氓": "流氓",
  "易[/-~·]容": "易容",
  "容[/-~·]面": "容面",
  "面[/-~·]具": "面具",
  "诱[/-~·]导": "诱导",
  "迎[/-~·]合": "迎合",
  "合[/-~·]欢": "合欢",
  "交[/-~·]配": "交配",
  "炉[/-~·]鼎": "炉鼎",
  "真[/-~·]世": "真世",
  "双[/-~·]修": "双修",
  "上[/-~·]瘾": "上瘾",
  "侵[/-~·]犯": "侵犯",
  "勾[/-~·]引": "勾引",
  "淫[/-~·]乱": "淫乱",
  "失[/-~·]身": "失身",
  "交[/-~·]配": "交配",
  "后[/-~·]宫": "后宫",
  "禁[/-~·]欲": "禁欲",
  "偷[/-~·]情": "偷情",
  "吸[/-~·]大": "吸大",
  "种[/-~·]马": "种马",
  "坚[/-~·]挺": "坚挺",
  "快[/-~·]感": "快感",
  "高[/-~·]利[/-~·]贷": "高利贷",
  "敏[/-~·]感": "敏感",
  "已婚[/-~·]少[/-~·]妇": "已婚少妇",
  "少[/-~·]妇": "少妇",
  "声[/-~·]色": "声色",
  "急[/-~·]色": "急色",
  "子[/-~·]弹": "子弹",
  "屁[/-~·]股": "屁股",
  "黑[/-~·]社": "黑社会",
  "偷[/-~·]情": "偷情",
  "夜[/-~·]店": "夜店",
  "裸[/-~·]裸": "裸裸",
  "玉[/-~·]洞": "玉洞",
  "凌[/-~·]虐": "凌虐",
  "淫[/-~·]棍": "淫棍",
  "B[/-~·]OSS": "BOSS",
  "黄[/-~·]文": "黄文",
  "香[/-~·]艳": "香艳",
  "玉[/-~·]女[/-~·]心[/-~·]经": "玉女心经",
  "幕[/-~·]后": "幕后",
  "子[/-~·]党": "子党",
  "春[/-~·]宫": "春宫",
  "肉[/-~·]体": "肉体",
  "日[/-~·]了": "日了",
  "轻[/-~·]盈": "轻盈",
  "联[/-~·]合[/-~·]国": "联合国",
  "床[/-~·]上": "床上",
  "摸[/-~·]摸": "摸摸",
  "射[/-~·]出": "射出",
  "肉[/-~·]眼": "肉眼",
  "成[/-~·]人": "成人",
  "丝[/-~·]袜": "丝袜",
  "性[/-~·]骚": "性骚",
  "母[/-~·]猪": "母猪",
  "乳[/-~·]量": "乳量",
  "妈[/-~·]的": "妈的",
  "揉[/-~·]胸": "揉胸",
  "摸[/-~·]胸": "摸胸",
  "巨[/-~·]乳": "巨乳",
  "肉[/-~·]欲": "肉欲",
  "白[/-~·]痴": "白痴",
  "处[/-~·]女": "处女",
  "社[/-~·]会[/-~·]主[/-~·]义[/-~·]": "社会主义",
  "天[/-~·]朝": "天朝",
  "政[/-~·]治": "政治",
  "毒[/-~·]药": "毒药",
  "中[/-~·]国": "中国",
  "关[/-~·]岛": "关岛",
  "虐[/-~·]恋": "虐恋",
  "色[/-~·]气": "色气",
  "半[/-~·]裸": "半裸",
  "步[/-~·]枪": "步枪",

 • "凌[/-~·]辱": "凌辱",
  "贱[/-~·]人": "贱人",
  "性[/-~·]爱": "性爱",
  "日[/-~·]后": "日后",
  "手[/-~·]枪": "手枪",
  "拔[/-~·]出": "拔出",
  "袈[/-~·]裟": "袈裟",
  "德[/-~·]州[/-~·]扑[/-~·]克": "德州扑克",
  "梭[/-~·]哈": "梭哈",
  "做[/-~·]爱": "做爱",
  "创[/-~·]世": "创世",
  "赤[/-~·]裸": "赤裸",
  "猎[/-~·]枪": "猎枪",
  "赤[/-~·]裸": "赤裸",
  "爱[/-~·]的[/-~·]家[/-~·]庭": "爱的家庭",
  "裸[/-~·]露": "裸露",
  "肉[/-~·]洞": "肉洞",
  "银[/-~·]行[/-~·]卡": "银行卡",
  "同[/-~·]修": "同修",
  "手[/-~·]枪": "手枪",
  "裸[/-~·]奔": "裸奔",
  "调[/-~·]教": "调教",
  "尸[/-~·]体": "尸体",
  "侵[/-~·]犯": "侵犯",
  "后[/-~·]宫": "后宫",
  "军[/-~·]方": "军方",
  "走[/-~·]私": "走私",
  "亵[/-~·]渎": "亵渎",
  "晋[/-~·]江": "晋江",
  "起[/-~·]点": "起点",
  "分[/-~·]身": "分身",
  "性[/-~·]爱": "性爱",
  "色[/-~·]欲": "色欲",
  "下[/-~·]身": "下身",
  "发[/-~·]情": "发情",
  "尾[/-~·]行": "尾行",
  "被[/-~·]干": "被干",
  "下[/-~·]身": "下身",
  "暴[/-~·]露": "暴露",
  "禁[/-~·]书": "禁书",
  "淫[/-~·]词[/-~·]艳[/-~·]曲": "淫词艳曲",
  "砒[/-~·]霜": "砒霜",
  "性[/-~·]吧": "性吧",
  "天[/-~·]衣": "天衣",
  "情[/-~·]色": "情色",
  "刀[/-~·]枪": "刀枪",
  "精[/-~·]子": "精子",
  "伊[/-~·]斯[/-~·]兰": "伊斯兰",
  "手[/-~·]雷": "手雷",
  "强[/-~·]奸": "强奸",
  "的[/-~·]下": "的下",
  "麻醉[/-~·]弹": "麻醉弹",
  "独[/-~·]裁": "独裁",
  "人[/-~·]妻": "人妻",
  "暗[/-~·]黑[/-~·]童[/-~·]话": "暗黑童话",
  "改[/-~·]革": "改革",
  "银[/-~·]行": "银行",
  "内[/-~·]裤": "内裤",
  "黑手[/-~·]党": "黑手党",
  "插[/-~·]进": "插进",
  "妈[/-~·]的": "妈的",
  "火[/-~·]箭": "火箭",
  "变[/-~·]态": "变态",
  "裸[/-~·]贷": "裸贷",
  "色[/-~·]情": "色情",
  "贷[/-~·]款": "贷款",
  "人[/-~·]贩[/-~·]子": "人贩子",
  "睡[/-~·]服": "睡服",
  "冲[/-~·]锋": "冲锋",
  "他[/-~·]妈": "他妈",
  "政[/-~·]变": "政变",
  "蹂[/-~·]躏": "蹂躏",
  "重[/-~·]机[/-~·]枪": "重机枪",

 • "生[/-~·]殖": "生殖",
  "自[/-~·]残": "自残",
Đăng nhập hoặc Đăng ký để gửi bình luận.