
有点标题党了,事实是这样的,我正在某学校文科学院担任研究助理。大数据的火热让不少文科专业也开始跟风,我所在的实验室的设备确实给力,20 台服务器,每台服务器有 256G 内存,4T 固态硬盘存储。
然而管实验室的老师是文科出生,Linux,Python, Spark, Hadoop 等都只是了解功能,技术细节并不懂。我们实验室之前有另外一名专职的科研助理,他统计学背景的,爬虫做得不错,服务器在跑的几个爬虫任务都是他一手搭建的。不过最近他离职了(毕竟 IT 公司给的薪资比学校高多了),爬虫的任务时不时出现问题还要找他远程帮忙解决。
前段时间我们的服务器被学校的网络中心检测到有僵尸网络入侵,我们找供应商帮忙看是什么原因。搞了半天最后也只能“治标不治本”地进行 IP 封锁而已。
杂七杂八地说那么多,我也不知道我想说什么,我只是觉得好暴殄天物啊,200 万的机器,监测环境没有,用户管理一团糟。数据分析现在我们用单机就能暂时解决了,分布式系统都没怎么利用。
我好愧疚啊,毕竟这些机器都是国家掏的钱,并不能做到物尽其用。听说今年还有一百万的经费下来,要购置一批 GPU 服务器。
各位 V 友对我有什么建议吗?我也是纯文科生,熟练使用 R 语言,Python 入门。我应该怎样做才能提高这些服务器的利用效果,例如我们的服务器需要装什么东西好让服务器运转地更合理科学?我应该努力学习哪些方面的知识?多说一句,我的研究方向是计算社会科学。
我现在用着实验室内存 500G,价格 20 万的工作站发帖,感觉硬件条件好到让我这小白好惭愧。
1 passluo 2020-01-13 21:21:53 +08:00 和学校信息中心商量下,部署一套 OpenStack,利用校园内网分发点资源给有兴趣的同学们做试验用。 |
2 leoballacl OP @passluo 这有点算公益活动了,我估计管实验室的老师暂时不会同意的。 |
3 askfermi 2020-01-13 21:38:51 +08:00 找 EECS 系合作发 paper,借他们用? 实在找不到的话可以和我们合作发:) |
4 manami 2020-01-13 21:46:14 +08:00 via Android 挖矿(逃 |
5 io123 2020-01-13 21:47:10 +08:00 via Android 挖个矿? |
6 leoballacl OP @askfermi 那些专业的硬件设备更好。。。你们什么专业的呀?有什么好的研究计划吗? |
7 leoballacl OP @manami 不懂。。。。而且,学校的网络中心会有监控? |
8 rayhy 2020-01-13 22:05:15 +08:00 什么学校啊!这么豪气。。我们这专门搞深度学习的各种缺服务器。。 |
9 0gys 2020-01-13 22:06:10 +08:00 via iPhone 搞个大型 cg 渲染。配置好环境,用网上素材或者原文件跑。或者自己学一学电影特效 |
10 xiaotongxue 2020-01-13 22:08:02 +08:00 羡慕,什么学校啊 |
11 mnssbe 2020-01-13 22:09:50 +08:00 via iPhone 为了折腾而折腾,没有需求创造需求,挖矿好像挺适合这个场景的 |
12 wtks1 2020-01-13 22:15:32 +08:00 via Android 这年头连运营商都因为缺钱而导致新增设备不足了,楼主这学校真壕啊 |
13 leoballacl OP @mnssbe 也不能说没有需求吧。你看我们被僵尸网络攻击了,防护系统一团糟,用户管理也只是很原生态的命令行操作,大数据平台只搭了 Hadoop 和 Spark。还有很多东西可以做,我是想请教各位有什么我可以做的,有什么是我可以请老师让专业的人在做的。 |
14 ArJun 2020-01-13 22:23:27 +08:00 这年头除了带宽一般都性能过剩了 |
15 leoballacl OP @xiaotongxue 沿海某双非。。。 |
16 miao666 2020-01-13 22:26:08 +08:00 via iPhone 我提供算法和代码,能付费帮我运算吗? |
17 WinG 2020-01-13 22:27:10 +08:00 你可以了解下门罗 XMR |
18 vakara 2020-01-13 22:30:51 +08:00 via Android 找找学校内有没有一些计算机相关兴趣的 team 给他们分享点吧,会很感激的。 或者你可以拿来学学比如 openstack openshift kubernetes 等,很适合,说不定还可以写点文章修电 bug 为社区做点贡献。 |
19 leoballacl OP @miao666 我们是不会接受商业合作的。我们的研究都是基于学术目的的。我们的合作机制还很不完善,所以暂时不能跟你们合作。或者你可以提个建议,我们应该建个什么系统,软件,这样可以方便我们和其他人的合作同时又不影响我们自己日常服务的工作? |
20 leoballacl OP @vakara 好的,谢谢你的建议。把资源免费给别人用同时不影响自己日常使用,有什么好的管理系统吗?还是简单地新建个临时用户?纯小白,不懂问一句。 |
21 leoballacl OP @WinG 我还以为是什么技术。。。。违法的事情我不做 |
22 baobao1270 2020-01-13 22:49:32 +08:00 搞不懂,文学院为啥要弄这么高端的服务器? 文学……和大数据?似乎没什么好搞的,如果楼主发现了可以搞的点,说不定能发现一个新兴市场呢 可以尝试方向: 人工智能翻译?(似乎抢外国语学院的活了 金融数据分析?(似乎抢商学院的活了,但是我学校的商学院是文学院分出去的…… 人工智能文学创作、语义识别……等等 人工智能舆情分析?(希望别搞出来吧…… |
23 leoballacl OP @baobao1270 层主应该是硬核理工科学生了。事实上,文科里面也有不少搞大数据和机器学习的。我是传媒相关专业的,对媒体文本数据进行挖掘、自然语言处理是我们的日常任务(尽管还远说不上熟练)。另外,已经有一些知名的传媒学院在搞舆情检测系统给 zf 服务了。。。。 |
24 lekai63 2020-01-13 23:31:48 +08:00 via iPhone 文言文编程 比较适合楼主 可以和本站那个谁,基于学术研究合作下,顺便还为开源世界贡献了一定的算力 |
25 lekai63 2020-01-13 23:35:44 +08:00 via iPhone 这个东东有新意 而且开源项目算小有成果了。 跟原作者 合计合计优化下语法,拓展下,或者搞点类库,试试自举啥的。 |
26 ProfFan 2020-01-13 23:38:03 +08:00 楼主是 Tech 的嘛?维护可以找 CS 的本科生嘛,补助一个月给个 6K 就行了,可以帮你介绍啊( |
27 after1990s 2020-01-13 23:45:19 +08:00 via Android 要是想捐助学术项目的话,BONIC 上有很多,什么寻找外星人,抗击癌症,清洁能源之类的。 |
28 askfermi 2020-01-13 23:52:27 +08:00 @leoballacl 前段时间搞了一个 GitHub 多样性和代码质量的关系,需要分析很多仓库的代码质量,也许可以一起搞 :) |
29 暴殄天物…… 话说学校如果没谁主动申请的话,这些服务器应该不会硬送吧,又不是中小学生上课用的 PC… 话说这一台服务器能换多少台学生机哟喂 |
30 ronman 2020-01-14 00:03:38 +08:00 via Android BOINC 了解一下,为人类文明建设做贡献 |
31 Tn5ohB1Yecdk3qCK 2020-01-14 00:05:42 +08:00 via iPhone 挖坑+1 |
32 love 2020-01-14 00:18:32 +08:00 不是自己的钱浪费起来不心疼 |
33 noqwerty 2020-01-14 00:31:46 +08:00 羡慕+1,我们实验室服务器的配置大概只有你们的十分之一。那么你们实验室当时采购这些服务器的用途是什么呢?老板也没有任何课题研究方向就花了这么多钱? |
34 chinesestudio 2020-01-14 00:54:48 +08:00 via Android 要不发点工资给我 我给你们上 proxmox 集群 网页管理服务器方便的很。 |
35 WittBulter 2020-01-14 01:14:12 +08:00 用 20 万的工作站发帖可还行.... 按 lz 说的文学院的水平,很难发挥这些机器的价值,毕竟按目前状态能搞的研究课题估计一个工作站都绰绰有余。可以在一部分机器上装一些管理系统日常用来跑算法,或是集群微服务的部署,给同校其他学院的人或是开源使用。不过按 lz 爬虫都难以维护的状态,想要运维这些也太难了... |
36 AES256GCM 2020-01-14 01:21:32 +08:00 via Android 光说了内存和硬盘,CPU 和 GPU 的配置还没提呢。最好把配置 print 出来,大家才好参考着给建议。 |
37 HTSdTt3WygdgQQGe 2020-01-14 01:28:42 +08:00 via Android 不挖矿可惜了 |
38 miao666 2020-01-14 03:08:03 +08:00 via iPhone 我的计算是基于业务的,不方便透露给你。目前通过套路云按量付费进行计算,一次三四百吧。 现在 CS 学科贴合业务很重要,很多 CS 重要论文都是在企业里发表。可以找些企业合作下,通过提供算力解决企业技术上的痛点。 祝早日发论文 |
39 nlysh007 2020-01-14 03:13:30 +08:00 疑炫无据,不敢言 |
40 KasuganoSoras 2020-01-14 03:45:30 +08:00 跑 ESXi 或者 PVE,实在不行 SolusVM,拿来出租 VPS,血赚 前提是有公网 IP,宽带足够 |
41 eason1874 2020-01-14 04:04:29 +08:00 实在闲置得多可以跟校内一些有交叉的学科团队合作,你们提供服务器,也参与他们的项目,共同维护,既能学习又能把闲置资源用起来。 如果虚拟系统不会搞,怕影响实验室内部,可以干脆物理隔绝,直接拔线,划出几台提供外部服务,搞多一台专用路由接入。 |
42 leoballacl OP @WittBulter 具体用什么系统能具体说说吗?如果我没有能力维护,但是这些东西又是很重要的,我可以请老师让专业的人来做。 |
43 leoballacl OP @noqwerty 可能是文科院系有点跟风搞大数据吧,刚好学院有钱,老师也做了一些大数据研究(就是爬虫获得的数据量大了点,分析上也没什么特别的),然后学院就高薪并承诺给实验室为诱饵挖了老师过来。目前的研究只有爬虫一些数据,并可视化展示。多说一句,我们的爬虫和存储是分布式的,但是分析只用了单机的 Pyspark 和 Hive。供应商搭好了 Spark 集群环境,pyspark 集群却搞不好,有没有大神给点意见 pyspark 集群搭不上来问题出在哪?。 |
44 hinate 2020-01-14 07:22:56 +08:00 via iPhone 那就做开源镜像吧,还能组织一个小组。相同爱好的人一起学习。 |
45 breaker911 2020-01-14 08:15:01 +08:00 文学院。。。学一学 python 和 nlp 的原理 自己折腾着玩 爬虫会了去看看搜索引擎原理做着玩? 反正你又不能商用 合作还要上面审批 只能自己拿着玩了 |
46 nodin 2020-01-14 08:32:58 +08:00 via Android 这是学校太有钱了,瞎折腾啊,文学院搞这么牛逼的服务器,弄起来搭小说站。 |
47 Niphor 2020-01-14 08:49:55 +08:00 挖矿相对合理,赶紧催一下把 GPU 落实了 |
48 vakara 2020-01-14 09:08:50 +08:00 via Android @leoballacl 可以用 esxi 虚拟化成集群,再给别人个子账号。 |
49 Kelan 2020-01-14 09:11:07 +08:00 阅读理解有问题啊,说是文科院系,一群看成文学、文学院的 |
50 yhxx 2020-01-14 09:42:42 +08:00 |
51 Kirscheis 2020-01-14 10:57:45 +08:00 via Android 20 个普通胖节点而已,楼主放心慢慢玩,好点的学校计算资源浪费很正常,关键是用到的时候能快速跑完别耽误事。平常你以为是闲置浪费资源,但是这些余量实际上就是研究成本的一部分,你做些没用的计算还浪费电呢。 但楼主千万别搞什么挖矿出租虚拟机这种,否则一被举报立马翻车,学校网管和基金委也不是傻子。自己跑点渲染任务啥的玩玩就行了。另外你是文科的话可以试试自己搭搜索引擎玩,我之前把某国内数据老书的扫描版全部做了 ocr 然后做索引,就是用十来个 tesla p100 gpu 节点闲时算的,足够算好几个月 |