想做个爬虫抓一些简单的数据,但是翻遍了源代码也没有找到他 FormQuery 方法指定的地址。雷死了。 PS:还是在小白的小白层面混。。。
点查询后会打开新的页面,浏览器上 Ctrl+Shift+I 无法跟踪。 地址在这里: http://www.czce.com.cn/portal/jysj/tbcc/A091106index_1.htm
PPS : 只有这么一个方法:点查询后,真实地址就出现了, “ http://www.czce.com.cn/portal/DFSStaticFiles/Future/2016/20161222/FutureDataTrdhedge.htm ” 在抓数据时,替换其时间变量 醉了。
可有些钻牛角尖的我就想看看表单提交地址怎么发现 - -!
![]() | 1 jugelizi 2016-12-22 23:24:13 +08:00 302 跳转 你 post 过去跟踪下 Location 就看到了 |
2 Hansah 2016-12-23 02:42:04 +08:00 为什么那么麻烦?不就是个简单的日期型列表 |
5 aogg 2016-12-23 08:48:26 +08:00 ![]()  将 form 的 target="_blank"去掉即可 |
![]() | 6 monburan 2016-12-23 08:54:37 +08:00 给你推荐个东西, Burpsuite 。网上版本很多这是现在能用的链接: https://pan.baidu.com/s/1jI0nABG 密码: wj5k ,要装 java 环境,装好 java 之后运行 BurpLoader.jar ,给设置代理 8080 然后你再点下那个页面的查询就在 burpsuite 的 Proxy 里看到发送的请求了 |
7 qaulau 2016-12-23 09:11:26 +08:00 这个很容易吧,连 POST 都不需要,需要查询哪天,直接改地址,而且 POST 之后也只是 302 跳转而已 http://www.czce.com.cn/portal/DFSStaticFiles/Future/{年}/{年月日}/FutureDataTrdhedge.htm 实例: http://www.czce.com.cn/portal/DFSStaticFiles/Future/2016/20161221/FutureDataTrdhedge.htm |
![]() | 8 BBrother 2016-12-23 09:28:23 +08:00 function submitForm(formname,actionurl,target) { var absoluteurl = 'http://'+serverip+':'+serverport+actionurl; window.open(absoluteurl,target,winstyle); document.all(formname).submit(); } var serverip ="www.czce.com.cn"; var serverport ="80"; js 里是这么写的 |
![]() | 11 kingmo888 OP @monburan 好麻烦的感觉。还是 jar ,完全不懂 java 。只记得当年用诺基亚的手机时,下过 jar 格式的小说 - -! |
14 zerowxxyf 2016-12-23 13:23:06 +08:00 写爬虫装个抓包工具先,所有请求都可以记录下来,然后是分析包就肯定能找到数据地址。试试 Fiddler2 吧。 |
![]() | 16 domty 2016-12-23 15:03:53 +08:00 抓个 http 包就行了,用楼上说的 fiddler 就行。 |
![]() | 17 kingmo888 OP @aogg 很抱歉又来麻烦你。 请问为何这样的代码无法获取到数据呢? ` url = 'http://www.czce.com.cn/cms/cmsface/czce/exchangefront/calendarnewquery.jsp' postDict = { 'dataType':'TRADEHOLDING', 'pubDate':'2016-12-23' } postDicDecoded=urllib.parse.urlencode(postDict).encode(encoding='utf-8') Request=urllib.request.Request(url, postDicDecoded); MyPage=urllib.request.urlopen(Request).read().decode("utf-8","ignore") ` |
![]() | 18 WildCat 2016-12-23 16:32:46 +08:00 没 cookie 吧,个人做爬虫主要是为了节约时间,他们的代码我根本不分析,直接运行:走 Phantom or Nightmare 。根本不管他怎么隐藏逻辑 |
![]() | 19 kingmo888 OP |
21 xiaohanqing 2016-12-24 11:41:24 +08:00 via Android preserve log 开关 |