GitHub: https://github.com/shispt/discover-books
功能主要为抓取豆瓣中相似的图书,然后在图数据库 neo4j 中可以看到图书之间的关系,比较相似的图书距离会比较近。
比如找与 "Python 核心编程” 相似的书(当然图书不只限于技术类):
![]() | 1 fcj558 2017-06-20 21:34:21 +08:00 via iPad 爬豆瓣啊爬豆瓣 |
2 cqcn1991 2017-06-20 22:23:45 +08:00 via iPhone 很 cool, 最近也在想做类似的东西 不知道有没有 graph model,network analysis 相关的书,课程推荐? |
![]() | 3 shispt OP @cqcn1991 自己不太了解数据分析方面的东西,搜了下 https://www.zhihu.com/question/20757000,找到一本 https://book.douban.com/subject/3722993/ 好像不错 |
![]() | 4 changwei 2017-06-21 00:18:14 +08:00 via Android 我感觉对于有上进心的程序员来说就没有书荒这个词,一本 csapp,算法导论,数据结构 c 语言描述,计算机网络之类的书就够反反复复看好几遍了 前提不是走马观花和带着考试及格的目的去看。 |
![]() | 7 chuanqirenwu 2017-06-21 09:25:09 +08:00 via iPad @cqcn1991 newman 网络科学引论 |
8 fffflyfish 2017-06-21 10:08:43 +08:00 本来还在想 lz 怎么衡量这些图书之间的相似行,看了下完全依赖豆瓣每本书下面推荐的你可能喜欢的书目,可视化工具直接用的 neo4j,lz 其实只是写了个爬虫,不过代码写的很优雅,一目了然,已 star |
![]() | 9 jy02201949 2017-06-21 11:34:09 +08:00 ![]() python start_crawler.py -u https://book.douban.com/subject/3112503/ -C 100 -t 8 |
![]() | 10 shispt OP @jy02201949 试了下,引号会当作值传递给 -u 参数,看来 win 下得去掉引号 |