最近在做一个百度贴吧的自动管理机。
现在用的是关键词判别,但是这样误杀率太高了。。。
有没有什么现有的不良内容(涉黄,粗口,不友善)检测方案吗?
顺便丢个地址,求 star 什么的。。。
TiebaManager
1
KIDJourney OP 这个现在已经可以用啦,只不过根据关键词来弄得话误杀率比较高。。。
|
2
aheadlead 2016-01-25 18:34:12 +08:00
|
3
KIDJourney OP @aheadlead 多谢。
|
4
SoHMarionette 2016-01-25 19:45:53 +08:00
实际来说都会有一定的误判吧
例如发广告的加空格,连句触发 毕竟中华文化博大精深 |
5
zhicheng 2016-01-25 19:48:59 +08:00 via Android
朴素贝叶斯
|
6
ethego 2016-01-25 19:50:00 +08:00
@SoHMarionette 去空格再进行分词,现在中文分词的正确率已经非常高了
|
7
SoHMarionette 2016-01-25 21:50:27 +08:00
@ethego 不仅仅是空格,还有加符号的,加一样的字的什么的层出不穷,邮箱已经见惯不惯了
|
8
ethego 2016-01-25 21:54:45 +08:00
@SoHMarionette 一行正则就能剔除所有符号
|
9
KIDJourney OP @zhicheng 吧务后台现在有问题,不然我也用训练集了。
|
10
timepast 2016-01-25 22:00:28 +08:00
同求一份脏字库
|
15
aprikyblue 2016-01-25 22:50:24 +08:00
只有我想到鉴黄师吗?:doge:
|
16
KIDJourney OP @nlzy 泥壕
|
17
gzlock 2016-01-26 06:51:23 +08:00 via Android
|
18
ryd994 2016-01-26 07:41:35 +08:00 via Android
贝叶斯大法好
但首先你得有足够的样本库…… |
20
KIDJourney OP |
21
em70 2016-01-26 11:40:28 +08:00 via iPhone
阿里云的 OSS 有图片鉴黄功能了
|
22
KIDJourney OP @em70 看到啦,多谢。
|
23
wd0g 2016-01-26 11:50:55 +08:00
腾讯好像有个语义识别
|
24
KIDJourney OP @wd0g 看了,很棒,多谢~
但是 API 太贵了。。。。 |
27
KIDJourney OP @ye10010 scikit-learn
|
28
KIDJourney OP @ye10010 为啥不问我← ←
|
29
wd0g 2016-01-26 18:50:54 +08:00
@KIDJourney 自己抓包腾讯语义分析 demo 站的 API ,我以前试过可以的!
|
31
ye10010 2016-01-27 08:47:28 +08:00
@KIDJourney 多谢大神^-^,star 啦.
是 steam 吧 KIDJourney 吗?好活跃,可惜俺不玩游戏 |
32
KIDJourney OP @wd0g 我一开始也是这样想的 23333
我每分钟要判 20 次,我多开几个 IP 吧。 |
33
KIDJourney OP @ye10010 是哒,我也不怎么玩了。
|