
最近在做一个百度贴吧的自动管理机。
现在用的是关键词判别,但是这样误杀率太高了。。。
有没有什么现有的不良内容(涉黄,粗口,不友善)检测方案吗?
顺便丢个地址,求 star 什么的。。。
TiebaManager
1 KIDJourney OP 这个现在已经可以用啦,只不过根据关键词来弄得话误杀率比较高。。。 |
3 KIDJourney OP @aheadlead 多谢。 |
4 SoHMarionette 2016 年 1 月 25 日 实际来说都会有一定的误判吧 例如发广告的加空格,连句触发 毕竟中华文化博大精深 |
5 zhicheng 2016 年 1 月 25 日 via Android 朴素贝叶斯 |
6 ethego 2016 年 1 月 25 日 @SoHMarionette 去空格再进行分词,现在中文分词的正确率已经非常高了 |
7 SoHMarionette 2016 年 1 月 25 日 @ethego 不仅仅是空格,还有加符号的,加一样的字的什么的层出不穷,邮箱已经见惯不惯了 |
8 ethego 2016 年 1 月 25 日 @SoHMarionette 一行正则就能剔除所有符号 |
9 KIDJourney OP @zhicheng 吧务后台现在有问题,不然我也用训练集了。 |
10 timepast 2016 年 1 月 25 日 同求一份脏字库 |
15 aprikyblue 2016 年 1 月 25 日 只有我想到鉴黄师吗?:doge: |
16 KIDJourney OP @nlzy 泥壕 |
17 gzlock 2016 年 1 月 26 日 via Android |
18 ryd994 2016 年 1 月 26 日 via Android 贝叶斯大法好 但首先你得有足够的样本库…… |
20 KIDJourney OP |
21 em70 2016 年 1 月 26 日 via iPhone 阿里云的 OSS 有图片鉴黄功能了 |
22 KIDJourney OP @em70 看到啦,多谢。 |
23 wd0g 2016 年 1 月 26 日 腾讯好像有个语义识别 |
24 KIDJourney OP @wd0g 看了,很棒,多谢~ 但是 API 太贵了。。。。 |
27 KIDJourney OP @ye10010 scikit-learn |
28 KIDJourney OP @ye10010 为啥不问我← ← |
29 wd0g 2016 年 1 月 26 日 @KIDJourney 自己抓包腾讯语义分析 demo 站的 API ,我以前试过可以的! |
31 ye10010 2016 年 1 月 27 日 @KIDJourney 多谢大神^-^,star 啦. 是 steam 吧 KIDJourney 吗?好活跃,可惜俺不玩游戏 |
32 KIDJourney OP @wd0g 我一开始也是这样想的 23333 我每分钟要判 20 次,我多开几个 IP 吧。 |
33 KIDJourney OP @ye10010 是哒,我也不怎么玩了。 |