![]() | 1 ljcarsenal 2016-08-25 14:36:52 +08:00 你在页面上 ctrl+u 看到的是什么样的内容 爬虫爬到的就是什么样的内容 |
2 eromoe 2016-08-25 14:59:11 +08:00 纯 js 网站就是这样啊,我记得好像可以用 pyv8 运行 js ,但是文档很不完善,基本就是坑 |
![]() | 3 liangmishi OP |
![]() | 4 chairuosen 2016-08-25 15:58:08 +08:00 用 vue2.0 的 server-side renderer |
5 foomorrow 2016-08-25 16:45:01 +08:00 phantomjs |
6 eromoe 2016-08-25 16:57:17 +08:00 @foomorrow 纯 python 就是 selenium +webdriver(phantomjs), 要不还要学 phantomjs (虽然也不难,不过也有些坑) |
![]() | 7 isbase 2016-08-25 17:00:52 +08:00 ![]() 推荐 nightmare |
8 iamsgg 2016-08-25 17:14:25 +08:00 有的网站看来路,来路不对不返回内容。 |
![]() | 9 liangmishi OP |
![]() | 10 holajamc 2016-08-25 19:44:30 +08:00 可以试试 httplib2 ,我觉得这玩意儿就是 Python 下的 HTTP 请求的王者, Selenium+PhantomJS 的话效率惨不忍睹,但是十分方便,多线程呗~ |
![]() | 11 tumb8r 2016-08-25 19:56:20 +08:00 ajax??不返回 json ? |
![]() | 12 ericls 2016-08-25 22:38:45 +08:00 via iPhone 直接爬接口不是更方便 直接 parse json |
![]() | 13 pncltp 2016-08-26 01:00:45 +08:00 via iPhone 爬虫请用 scrapy 今天都说第二遍了。 |
![]() | 14 WildCat 2016-08-26 05:04:56 +08:00 @liangmishi nightmare 完爆 phantomjs |
![]() | 16 pncltp 2016-08-26 10:18:57 +08:00 via iPhone @csy123 这个 js 没有关系啊, http 无非就 get 和 post 。如果你说的是 json ,解析他的库实在太多。 |
17 killerv 2016-08-26 17:42:31 +08:00 这种调接口的更好爬吧,你要是解析页面当然是没有数据…… |
![]() | 18 liangmishi OP |
![]() | 19 holajamc 2016-08-26 20:42:56 +08:00 via Android 不会太占内存,毕竟 Headless , 10 个线程绝对能够应付 |
![]() | 20 ericls 2016-08-26 23:26:04 +08:00 @liangmishi 如果没有接口那数据哪里来的 |
![]() | 21 liangmishi OP |
![]() | 22 ericls 2016-08-26 23:47:32 +08:00 @liangmishi 你也可以翻译这段代码 |