本科毕设主题是「网络谣言识别」，完全没有思路，有没有大神可以指点一下迷津，感激不尽

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2428 天前的主题，其中的信息可能已经有所发展或是发生改变。

导师比较坑爹，只给了个这么个方向就了无音讯了。

目前的背景情况是：平时的课程「几乎没有」学习过相关的技术，大概只知道可能要用到 Python、机器学习相关的知识，但具体再细分的就不清楚了。

有个学长大概给了个思路：

拿一些现成的句子
使用机器学习中的 svm knn 还有优化后的算法进行训练
拿其他的句子进行比较分析准确率、召回率就好了

取一些常用的网络谣言
提取谣言的特征(语义的理解）对谣言进行分类(机器学习中较为常见的 svm 等)
使用你的优化的特征算法与传统的特征算法进行比较得出结论:你最好

然而我承认比较学渣，也没看的懂他说的意思。。。

所以想问的是，有没有大神指点一下，我这个学长他说的这个每个阶段，具体指的是什么？该做的是什么？比如他说谣言分类用 SVM，这个「分类」和「 SVM 」之间怎么联系起来？有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的？

说到底就是，我现在到底应该干什么😂，越具体越好。现在完全无从下手

如有帮助，万分感谢🙏

第 1 条附言 · 2019-03-09 12:28:58 +08:00

截止到 3 月 9 日 12:30 分，61 楼回复。

我的导师给了一段话「网络谣言诞生具有一些典型特征，传播特性是其中一个重要特征。如何总结谣言的传播路径、传播时间特性、传播者行为特征来识别谣言，对网络空间安全有重要意义。该题目需要大量收集资料，分析整理出可行方法，并简单加以实验验证。」

感觉好像变成通过特征来识别了？这个还是通过机器学习来实现吗？

迷...

第 2 条附言 · 2019-03-09 19:05:29 +08:00

截止到 3 月 9 日 19:03，114 楼回复

可能有几点需要说明一下：

1. 这个题目是我自己选的，但我选之前确实没有这方面的了解。我们学校是这样的，所有老师每个人给出几个题目，然后汇总起来，让全院学生一起选，我只是「刚好选了」这么个题目而已，选之前我也完全没有接触过我的导师；

2. 其实大家心里应该也有数，只是一篇本科毕业论文而已，我也只是想写出来混个毕业，所以并不是要能做出个多「完美能用」的东西出来，只要意思够了就行了。所以就是来求个思路而已；

3. 我咨询的这个学长和这个选题和我的导师没有任何关系，只是我一个关系比较好的直系学长而已，他也不是做这方面研究的。所以他只是「建议」我这么去做而已；

4. 做不做得了我都要做，就是因为我不会所以才来问的。如果一遇到困难就撒手的话，那永远都一事无成。所以我先谢谢所有提供帮助的人，留言太多了，我也没法一条一条的回复，感谢帮助🙏。

svm

谣言

机器学习

算法

135 条回复 • 2019-03-23 15:44:53 +08:00

1 2

❮

❯

101

SsuchingYu

2019-03-09 16:48:20 +08:00

@murmur #99 弱弱地问一下，新京报散播过啥谣言？

102

murmur

2019-03-09 16:49:24 +08:00

@SsuchingYu 搜索引擎搜新京报造谣

103

SsuchingYu

2019-03-09 16:53:46 +08:00

@murmur #102 100% 理中客是不可能的。

104

Aixtuz

2019-03-09 16:54:23 +08:00

又仔细看了下问题和回复，也如以上大多观点：
对某一条信息的语言逻辑进行谣言判定，暂时想不到什么可行方案。

对传播特点判定可能性，对大量数据归类特征，准确率终究也是个问题。

105

zkwang

2019-03-09 16:56:14 +08:00

须了解，没有辟谣的事情未必是真的

106

taobibi

2019-03-09 16:56:37 +08:00

现在不是有征信机制吗？好像可以购买个人征信的接口，然后把征信低的，提升谣言比例。然后在学习判定

107

murmur

2019-03-09 16:57:13 +08:00

@SsuchingYu 现在谣言都升级了，太弱智的谣言一看就被看出来，早就没有这种的东西，只有朋友圈才会有这种低等谣言

108

paopaotangdong

2019-03-09 17:02:22 +08:00

谣言用机器学习分类（ svm。。。等）是不可能做出来的，特征也没有用，谣言的传播路径、传播时间特性、传播者行为特征和非谣言的这些特征完全一样（仔细想想是不是）。标题党不一定是谣言，不是标题党也不能说明他正确，

109

jssyxzy

2019-03-09 17:06:08 +08:00

ls 我觉得关注点不太对，
关注点应该是写一篇“网络谣言识别”的论文，而不是“网络谣言识别”本身，
你指望一个本科毕业的人能解决这个大问题，是不可能的。

110

incompatible

2019-03-09 17:17:33 +08:00

光看主贴的话，我觉得这个不太难，做一个贝叶斯分类器，然后用已有的谣言去训练它就好了。这个对于本科毕设来说是难度适中的。

看到你的补充，我觉得你的导师很可能是个水货，然后他在网上看了 “阿里巴巴达摩院造个“神器” 谣言识别准确率 81%”之类的新闻就灵机一动想到一个通过传播路径判断谣言的点子。阿里巴巴有资源干这个，你导师一个高校教师自己有没有资源支持学生干这个难道心里没点数吗。。。。

111

evagreenworking

2019-03-09 18:11:35 +08:00 via Android

"网络安全空间"都出来了，你导师看来学习 app 积分很高啊。

112

winglight2016

2019-03-09 18:29:46 +08:00

lz，就冲你看不懂师兄给的建议来说，这题目你做不了，早点考虑怎么外包出去吧

113

metrxqin

2019-03-09 18:56:50 +08:00

很简单，谣言的必要条件是没有**来源注明**。如果有来源注明，在根据来源的权重来判断可信度，判定是否为谣言。

114

metrxqin

2019-03-09 18:57:53 +08:00

可以参考谷歌或者 Facebook 打击假新闻的解决思路。

115

YOOHUU

2019-03-09 19:33:59 +08:00

这玩意的难度是本科生能干的吗。。。

116

zheyu

2019-03-09 19:53:51 +08:00 via Android

传播路径的话可以看看 social network 相关的论文？我也不懂，随口说说。

117

ftdx112

2019-03-09 20:08:37 +08:00

外行表示好高大上。。。但咋感觉一个语义分析的东西变成了一个标签匹配的东西

118

w2er

2019-03-09 20:17:16 +08:00 via iPhone

这个题目简直前途不可限量。不过呢，如果宽泛说谣言两个字怕是有点难。。不如考虑一下某个细分领域的或者某个特定媒体的，会不会好一些呢

119

bilibilifi

2019-03-09 20:17:21 +08:00

这个成果我觉得至少图灵奖级别的吧，可靠地判断任意谓词逻辑的真值

120

Heyavc

2019-03-09 21:11:37 +08:00

这个项目阿里达摩院里有，叫 AI 谣言粉碎机还参加了比赛。

121

wizardoz

2019-03-09 21:28:53 +08:00

你自己都无法辨别谣言，你怎么设计出一个能辨别谣言的机器？

122

janhu9527

2019-03-09 21:47:25 +08:00

我觉得这课题还不如换成欺诈信息识别比较好
谣言的识别真的好难，文笔好的以假乱真，只有实际考察求证才能破解

123

janhu9527

2019-03-09 21:53:26 +08:00

@janhu9527 实际上阿里的谣言识别机也是利用了大量的知识数据库作为基础

124

miaobug

2019-03-10 00:07:59 +08:00

我的感觉是...
你师兄的建议比你的水平高一个量级
你导师的思路又比你师兄的建议高一个量级
所以你做出来...应该是基本不可能的
“如果一遇到困难就撒手的话，那永远都一事无成。”如果你大学四年都这个态度，学 CS 专业大概不会看不懂师兄的建议。所以我也跟楼上一些人一样建议花钱找人做吧...

125

itenyh

2019-03-10 00:19:48 +08:00 via iPhone

都要毕业了，你这个连点思路都没有，如果是你的专业的话，可能我想说一句你可能不适合做这个，仅供参考

126

Muninn

2019-03-10 00:21:07 +08:00

师兄的思路应该是可行的

导师说的没看出来。本科论文是不是只需要写一篇思路加 demo，不用实现啊……

传播路径的话，微信是取不到的。

微博能取到但是很难。

媒体之间互相抄能取到但是也很难，需要买到或者自己爬到一定时间的媒体资讯。

有的谣言传播时间很长可以和爆炸新闻区别开来。但是有的新谣言光传播路径真的很难区别特征。

这个用传播路径的思路真的是太难了，怎么都感觉导师应该外行瞎想的。

127

shyrock

2019-03-10 00:27:01 +08:00

师兄瞎几把支招，谣言识别不在当前大火的 DL 能力范围内。倒是导师的提示有效地把识别谣言本身转换成评估传播路径上的人的可信度问题，这是可以实现的，但是跟机器学习没关系，别瞎蹭热点。

128

zztt168

2019-03-10 00:38:09 +08:00

前两天去阿里玩，看到他们宣传有谣言粉碎的实验项目。不知道是否有开源的轮子。
我觉得这个题目够难，首先是分词，然后是语料库，接着是算法。

129

Shynoob

2019-03-10 00:53:21 +08:00

这个想做简单就简单想做难就难，我觉得你整个词库然后 nlp 对比下差不多了

130

sunsolzn

2019-03-10 01:20:47 +08:00

这题目简单，
负能量的肯定是谣言必要条件之一，正能量哪怕是假的也不是谣言，而正负能量分析的网上有很多教程。
传播 500 次是必要条件之二，负能量的东东传播几次没关系，传播多了管它是真是假判定成谣言肯定没错，
这么简单的重复率检测应该会吧。

131

wwhc

2019-03-10 01:31:32 +08:00

@SsuchingYu 随便一搜，就看到知乎上的“知情人士”说：“新京伪满洲国首都，新京报受日资资助，也可以说是日本在中国的媒体，还有一个南方都市报这些的媒体不造谣生事怎么能行”

132

maemolee

2019-03-10 01:46:43 +08:00

谣言的根本特征是它所描述的事实不成立吧……用上一切符合所谓“谣言的语言特征”写一条真实的新闻，它也不会变成谣言啊。

133

lzx801

2019-03-10 02:08:24 +08:00

https://arxiv.org/pdf/1505.02463.pdf 了解一下 Truth finding，这是 data mining 的一个子领域。

134

YvesX

2019-03-10 02:27:59 +08:00

都这个时候了，毕业要紧。

首先谣言的定义要小，亩产十万斤或者四千点是牛市起点这种事实错误，你要怎样识别出来呢？尝试拿长辈朋友圈的那些沙雕文章去训练，看训练结果是否能把一些常见的沙雕文章用词找出来，找不出来的话魔改训练集、调参或者加规则（手动滑稽）。
测试模型对上面那些词是否足够敏感，对写作风格明显的沙雕文章能否初步判断，对于将信将疑的沙雕文章，概率波动是否靠谱。展示判断结果时话不要说死，把概率转成符合逻辑的百分比或者高中低的评级。
拿文章标题去搜索引擎或微博爬结果，如有权威媒体的发布或辟谣，将结果强行调整到谣言嫌疑低或高（手动滑稽）。

135

dallaslu

2019-03-23 15:44:53 +08:00

注[册][一]堆[微][博][僵][尸]号，[发][表]谣言，并[造]势转发。如果有[官][方]帐号[辟][谣]，那么……

1 2

❮

❯