导师比较坑爹,只给了个这么个方向就了无音讯了。
目前的背景情况是:平时的课程「几乎没有」学习过相关的技术,大概只知道可能要用到 Python、机器学习相关的知识,但具体再细分的就不清楚了。
有个学长大概给了个思路:
然而我承认比较学渣,也没看的懂他说的意思。。。
所以想问的是,有没有大神指点一下,我这个学长他说的这个每个阶段,具体指的是什么?该做的是什么?比如他说谣言分类用 SVM,这个「分类」和「 SVM 」之间怎么联系起来?有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的?
说到底就是,我现在到底应该干什么,越具体越好。现在完全无从下手
如有帮助,万分感谢
1 webfamer 2019-03-09 09:20:56 +08:00 via Android 我的毕设题是 基于模糊控制的智能油烟机..... |
![]() | 2 dangyuluo 2019-03-09 09:21:08 +08:00 ![]() ```python rumor_words=["彻底出名了", "恳请帮忙", "马上就删了", "危害更大", "剧毒", "最新!", ...] for f in rumor_words: if f in text: return true ``` |
3 yangzhezjgs 2019-03-09 09:21:30 +08:00 先了解一下文本分类的概念,然后了解分词,文本向量化(word2vec 等),最后分类算法 《机器学习实战》第四章有个文本分类的例子,你可以学习一下,入个门 https://book.douban.com/subject/24703171/ |
4 greatx 2019-03-09 09:22:47 +08:00 为什么不在百度学术 /谷歌学术之类的网站搜一搜关键词,了解一下别人怎么做的。 |
![]() | 5 yx1100 OP @yangzhezjgs 我在图书馆借了一本周志华的《机器学习》(那本西瓜书)。我简单翻了一下,那个是不是好像偏理论?你推荐的这个是偏实战操作的? 我现在就是时间不是很多了,所以想能直接上手做完就够了,没那么多时间从头再学了。 先谢谢你的帮助 |
![]() | 6 swulling 2019-03-09 09:28:28 +08:00 via iPhone 机器学习什么时候能识别谣言了?随便做做吧… |
![]() | 7 yx1100 OP @greatx 搜过了,并不多。相关的论文期刊都是一些偏理论讨论的,都是些算法之类的。并没有具体怎么做的。我们导师的要求是要「基本」(通过率不做过高的要求)能实现这个功能,他也说了,目前这个方向研究的人并不是特别的多 |
![]() | 8 xfcy 2019-03-09 09:29:32 +08:00 via Android 扒一下腾讯较真的 api (////) |
9 yangzhezjgs 2019-03-09 09:29:37 +08:00 @yx1100 是偏实际操作的,但是未必符合你的要求 |
![]() | 10 necomancer 2019-03-09 09:29:39 +08:00 |
![]() | 11 yx1100 OP @swulling emmm,我就是因为不太懂,所以只是大概了解一下「可能」是这个方向。如果我说的不对,还希望能指明一下 |
![]() | 12 wobushizhangsan 2019-03-09 09:30:35 +08:00 via Android 前段时间看了一个谣言判断的,忘了是哪家的了。大概意思是看这个消息被哪些人转发过,有没有知名人士评论,如果有相关专业的知名人士给背书,大概率是真的。 |
![]() | 13 lhx2008 2019-03-09 09:32:18 +08:00 via Android 就那么几种训练方法,主要是分词和词选择,人工打表估计准确率也不会低 |
![]() | 14 clifftts 2019-03-09 09:34:00 +08:00 阿里达摩院不是出了一个谣言粉碎机嘛 |
15 zzj0311 2019-03-09 09:36:05 +08:00 via Android 这种反正肯定做不好的东西就 xjb 扯就对了 |
![]() | 16 J0G57faC6uPo75W0 2019-03-09 09:36:05 +08:00 via Android 很好奇,谣言中能有什么识别特征。。 |
![]() | 17 xiaomimei 2019-03-09 09:39:03 +08:00 via Android |
![]() | 19 yx1100 OP |
![]() | 20 yx1100 OP ![]() |
![]() | 21 murmur 2019-03-09 09:54:08 +08:00 ![]() 人都识别不了谣言 机器怎么识别 难道是先用爬虫爬江宁婆婆的微博 然后和被识别文章对比? |
![]() | 22 zjsxwc 2019-03-09 10:01:41 +08:00 监督学习 能够 判断 这句 “明天股票要涨了” 算不算谣言? 如果可以的话,楼主可以发财了! 233333333 |
![]() | 23 anteros 2019-03-09 10:02:25 +08:00 连人都识别不了谣言,你这毕设主题也太托大了吧 |
![]() | 24 anteros 2019-03-09 10:03:43 +08:00 ![]() 比如,惊!赶紧看!世界上第一个可以识别谣言的程序!这本身就是谣言 |
![]() | 25 bumz 2019-03-09 10:07:56 +08:00 如果把谣言定义为「与事实不符的言论」,那想机器识别谣言,先得具有强人工智能,既能自己了解和考证事实,又能完全理解人类语言。然而人类语言的模糊性决定了许多陈述压根无从判定,例如「明天下雨」,哪下雨,什么时候下雨,下多少算下雨?有些地方成天下雨,是不是也算? 如果把谣言定义为「看上去像谣言的言论」,「带有煽动性语言的言论」,那么简单地只要关键词匹配,复杂一点的用大量样例让机器自己学习,可以用统计方法,也可以用正火的神经网络 |
26 lrxiao 2019-03-09 10:12:43 +08:00 |
![]() | 27 necomancer 2019-03-09 10:19:15 +08:00 @yx1100 你要是用校园网应该能直接下啊?学校不一般都买版权的吗?..... 要不去找找 sci-hub 一类的网站吧 |
![]() | 28 Yvette 2019-03-09 10:19:36 +08:00 你搜一些用 SVM 做 Sentimental Analysis 的(英文)博客看看就好,很多都会把代码贴上去,动手试试大概就理解一些了。或者看看吴恩达的讲义,大概知道是什么东西之后就能看懂你学长给的思路了。本质上跟你的这个差不多,就是中英文的 NLP 可能有些区别。 |
![]() | 29 zst 2019-03-09 10:19:50 +08:00 via Android 讲道理如果是公众号文章的话,开头一堆花花绿绿的求关注的八成都是谣言 |
![]() | 30 cnkuner 2019-03-09 10:20:50 +08:00 via Android 这玩意如果你考虑上机器学习,就要涉及自然语意、分词、词性、表达情感这些东西。建议你总结个关键词列表比较容易,比如震惊、致癌、不转不是中国人、删前速看这种。 |
![]() | 31 reechangs 2019-03-09 10:21:39 +08:00 via Android 这个题目选的真的糟糕...... |
![]() | 32 pkokp8 2019-03-09 10:24:17 +08:00 via Android 爬取信息,上传公安局,网警进行核查,等待并爬取书面结果,返回 |
33 scdylk 2019-03-09 10:35:05 +08:00 via iPhone 都三月了 现在才开始看理论来不及吧 先看 python 基本使用 看看 numpy jieba sklearn nltk 的基本使用方法 最后找找文本分类的几个例子套用进去。 |
34 asdqaz 2019-03-09 10:39:26 +08:00 via Android 反向对比 科学没提过,就判定谣言 |
35 Lax 2019-03-09 10:47:56 +08:00 事实判断没办法做啊! 从谣言定义来看,可以暂时抛开事实判断这一步。 找个角度,比如可以先看因果论证(证据 /推理链)是不是完整,缺乏证据或推理不完整的判定为谣言。 比如楼上说“明天股票要涨了”缺前提条件和推理过程,直接就分到谣言里。 |
![]() | 37 juju123 2019-03-09 10:50:34 +08:00 这个主题很坑,目前谣言识别主要还是靠人工,不过系统可以作为辅助。系统做简单点,建一个谣言关键词库,一个文章里包含谣言关键词的比例达到多少可能是谣言。 |
![]() | 38 xianxiaobo 2019-03-09 10:53:35 +08:00 找一个谣言库,找一个不是谣言的库,反复练习? |
![]() | 39 R18 2019-03-09 10:54:32 +08:00 via Android 调用各大厂商的接口 :) |
40 gam2046 2019-03-09 10:57:03 +08:00 ![]() 谣言怎么定义? 是基于客观世界的事实做出的判断,而不是特定的语法结构或句式。换而言之,这个真的可以用机器学习嘛? 个例子来说,今天我说“朝鲜把美国从地球上抹除了”,这显然是谣言,但是如果明天,这件事真的发生了,那就不是谣言了。但是这句话本身并没有变,而是客观世界发生了改变。 那么问题来了,机器学习的判断依据,也就是客观世界的每时每刻的变化,要源源不断的进行输入,这是否有可能实现?我简单的理解,基于神经网络的机器学习,最终就是一个多项式求和。然而由于判断依据一直在发生改变(客观世界一直在变化),那么这个多项式中每一项的权重都在大幅度的变化,这个多项式最终是否真的能够收敛? |
41 ifxo 2019-03-09 10:58:02 +08:00 首先得有可靠消息源吧,不然是不是谣言怎么能分辨呢,除了人工没有办法 |
![]() | 42 ex2vkf 2019-03-09 10:58:50 +08:00 建议去看看推特有没有合适的数据 |
43 lxy42 2019-03-09 11:02:53 +08:00 via Android 和垃圾邮件识别有一点点类似,关键是谣言就算是普通人也难以识别。简单点的话就按照垃圾邮件识别的套路去做。 |
![]() | 44 FrankFang128 2019-03-09 11:05:10 +08:00 看外链个数和外链域名 |
![]() | 45 Williamongh 2019-03-09 11:18:04 +08:00 @lxy42 这位说的很有道理。建议 LZ 直接搜索学习一下垃圾邮件识别的算法,搞一下。 |
46 v2et 2019-03-09 11:23:07 +08:00 怎么感觉做出来都可以发 paper 了…… |
47 vicvinc 2019-03-09 11:35:14 +08:00 我来冒充个大神,分词 => KenLM 提取特征向量 => 谣言 Model |
48 dxgfalcongbit 2019-03-09 11:35:14 +08:00 鸵鸟政策就是个谣言,而且还传得很广,人在近距离观察鸵鸟时凭直觉就能明白这是个谣言,用网络信息来辨别这个谣言反倒有些困难。 |
![]() | 49 midasplus 2019-03-09 11:38:37 +08:00 via Android 这有点难吧…… |
50 summer1988 2019-03-09 11:40:35 +08:00 1. 首先你需要一个爬虫, 采集语料, 监控各大新闻论坛博主 2. 你需要 GOOLE 3. 你需要图书馆 4. 你需要你自己干 |
![]() | 51 catalina 2019-03-09 11:47:21 +08:00 via Android ![]() “阿里技术”公号前几天写了一篇讲“谣言粉碎机”的原理的文章: https://s2.ax1x.com/2019/03/09/ASt27T.jpg |
![]() | 52 Eugene1024 2019-03-09 11:48:01 +08:00 训练语义识别 先识别简单的,而且你需要想下无论是你的程序也好算法也好是如何判断谣言的,后面可以逐逐渐优化 |
![]() | 53 Monstercat 2019-03-09 11:49:29 +08:00 via Android 单纯靠语义分析是不可能的 |
![]() | 54 waruqi 2019-03-09 11:53:59 +08:00 via Android 现在什么都要扯上 ai 机器学习 智能 等字样 连毕设也如此了 哎。 |
![]() | 55 mosir 2019-03-09 12:00:34 +08:00 ![]()
|